文档介绍:数据仓库学****研究
信息处理技术的发展,使得各类数据、信息急剧增长,给数据的传输、存储都带来了许多新的问题。人们希望能够看到所有数据和信息的综合情况,而这些数据与事务处理有许多不能被原有数据结构描述,不能被现有应用系统综合使用。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据来自联机的事务处理系统、异构的外部数据源、脱机的历史业务数据等,这个数据中心就叫数据仓库。数据仓库技术的应运而生,成为信息技术领域非常热门的话题之一。
数据仓库技术的提出,建立了一种体系化的数据存储环境,将分析决策所需要的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换成集成、统一的信息。
数据仓库是一个面向主题的、集成的、与时间相关、稳定的数据集合,以便支持管理决策。
“面向主题”的数据仓库要求进行数据库设计,而一些数据库设计者忽略了这一重要环节,根本没有进行正规的数据库设计。他们简单地把原有数据库或者并非专为数据仓库设计的现有决策支持系统(DSS)中的数据复制到数据仓库中。这样建立的不是良构的、可独立维护的主题数据库。在数据仓库设计过程中,数据以所代表的业务内容划分,而不是以应用划分。
“数据集成性”意味着数据仓库中的数据采用统一的格式和编码方式。在命名协议、关键字、关系、编码和翻译中的一致性问题必须通过精心的设计取得。
“与时间相关”意味着数据仓库中的数据大都与时间相关。因此,数据仓库中的数据组织方式要便于按时间段计算和提取数据。
“稳定的”是指数据仓库中的数据不进行实时更新。通常数据是以每夜、每周或每月为周期进行升级,这一升级的过程不是简单的拷贝,而是要经过复杂的提取、概括、聚集和过滤等操作过程。数据一旦进入数据仓库,就不允许随便更新。
从数据仓库的基本概念及产生背景看来,数据仓库具有以下内涵:
(1)数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。
(2)数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激发条件下能主动起作用的处理规则、算法、甚至是过程。
(3)传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。
(4)数据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。
数据仓库DW( Data Warehouse) 既是一种结构和方法,又是一种技术。各种信息从不同信息源提取出来,然后将其转换成公共的数据模型并和仓库中已有的数据集成,当用户向仓库查询时,需要的信息已准备就绪,数据冲突、表达不一致等问题已经得到解决,这样,决策查询更容易、更有效。作为一种满足数据仓库管理要求的特殊的数据库系统,DW具体包含以下五个基本功能部分:
数据定义:主要完成数据仓库的结构和环境的定义,包括:定义数据仓库中数据库的模式、数据仓库的数据源和从数据源提取数据的一组规则或模型。
数据提取:数据提取部分负责从数据源提取数据,并对获得的源数据(source data)进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。
数据管理:数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。数据分配