文档介绍:数据仓库
在市场经济的激列竞争中,企业必须把业务经营同市场需求联系起来,在此基础上作出科学、正确的决策,以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务操作数据,改善办公环境,提高操作人员的工作效率。随着市场竞争的加剧,现在对数据的处理已经不仅限于插、删、改、查。还要通过这些数据去分析一些隐含信息——能够支持决策的信息。这就需要一种能够将通常收集到的各种数据转变为具有价值的信息的技术,但是传统数据库的处理方式和决策分析中的数据需求不相称。为了满足决策分析的需求,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库。
《建立数据仓库》一书中对数据仓库所下的定义:数据仓库(data warehouse,DW)是面向主题的()、集成的(Integrated)、反映历史变化的(TimeVariant)、相对稳定(Non—Volatile)的数据集合,用于支持管理决策。数据仓库中的数据其有以下基本特征:
(1)面向主题(Subject·oriented)
数据仓库中的数据是面向主题的。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。主题是企业决策者进行决策所关心的业务的重点方面。面向主题的数据组织方式是在较高层次上对分析对象的一个完整的、一致的描述,能够完整统一地描述各个分析对象所涉及的各项数据及数据之间的关系。数据仓库内数据是按主题进行组织,以支持用户在主题范围内的有效决策。
(2)集成化(Integrated)
数据仓库的数据是从原有分散的数据库数据中提取出来的。这些数据是对操作型数据进行清理和归整的结果,而不是简单的归并和拷贝。数据在进入数据仓库之前,必然先经过加工和集成将原数据结构作一个从面向应用到面向主题的转变。
(3)历史化(Historical)
数据仓库中的数据不仅是关于企业某一时点的信息,而是记录企业有效的历史数据,以用于决策。数据仓库以时间为基准管理数据,允许用户回顾并了解公司的过去和现在。
(4)稳定性(Steady)
数据仓库的数据主要是为企业决策分析提供依据,一般情况下并不对数据进行修改。数据仓库的数据是不同时间数据库数据快照的集合,而不是联机处理的数据。数据仓库的数据不可更新是相对于OLTP的操作型数据的频繁变化而言,并非是在数据仓库生命周期过程中一直保持不变。当数据仓库中的数据己经超过数据存储期限时将会把这些数据从数据仓库中清除出去。
(5)动态数据(Dynamic)
数据仓库的数据必须不断捕捉OLTP数据库中的数据变化,经统一集成后增加到数据仓库中形成历史数据;另外数据仓库中的数据超过储存期限后需要删除。数据仓库内大量的综合数据都与时间有关,这些数据需要随时间变化不断进行重新综合。
数据仓库系统(DwS)由数据源、仓库管理和分析工具三部分组成,其体系结构如图所示。
数据仓库体系结构
由于以数据仓库为基础的商业智能系统强大的功能在实际应用中能带来高利润的回报,所以近年来数据仓库在证券领域、银行领域、税收领域、控制金融领域、保险领域、以及客户管理等众多领域得到了越来越广泛的应用。
在我国,数据仓库是数据管理技术和市场上