1 / 17
文档名称:

数据仓库基础知识.doc

格式:doc   大小:75KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库基础知识.doc

上传人:mh900965 2018/2/22 文件大小:75 KB

下载得到文件列表

数据仓库基础知识.doc

相关文档

文档介绍

文档介绍:解剖数据仓库
中国电子设备系统工程公司研究所刘东
总参第六十一研究所杨雪南
在过去的十几年里,基于数据库的应用软件多数是面向联机事务处理(OLTP)的,其主要目的是让大量的日常事务电子化。这时数据的价值仅仅体现在保证完成一个事务,而数据的体系结构、数据的含义并没有引起人们足够的重视。
数据仓库使人们从一个全新的角度认识到信息系统的重要性,也使人们发现了历史数据的价值。从此,数据不仅仅用于检索,还可以用来分析未来的发展趋势,并为决策和管理提供支持。此时数据自身的价值和语义质量不再是一个纯技术问题,而成为一个业务问题,即实现信息的价值,也就是充分利用已有的数据,挖掘数据中潜在的信息价值。然而,传统数据库应用系统中遗留的数据不一致性和不连续性给这一业务带来了极大的困难。
为了克服上述困难,就需要提出一种弥补数据体系结构缺陷的方法,即建立一个虚拟的集成数据库,用来存储真实的历史数据,并尽可能降低物理的不一致性和语义的不连续性,使现有的数据能够应用于管理和决策目的。而这正是数据仓库蓬勃发展的真正动因。
建立数据仓库的主要目的是满足管理者和决策者全面了解内部情况和外部环境的需要。数据仓库的长远价值在于建立适应企业高速变化的结构化环境。由于企业的生存依赖于对市场变化的反应能力,所以数据仓库对于信息时代的企业具有很大的价值。数据仓库技术首先在商业、金融和企事业管理等领域获得了巨大成功,现在又不断向其它决策支持应用中拓展。
然而,任何技术一旦被当成包治百病的灵丹妙药,就极有可能走入误区而最终使人们失望。这很容易让人联想起当年的人工智能热潮。其实,这些技术本身并没有什么问题,只是当它们被寄予不切实际的期望之后反而更加令人失望。但愿数据仓库不会重蹈覆辙。
其实,数据仓库的目标与已经应用了多年的决策支持系统(DSS)并无太大差别,只是它的目标更加具体——主要面向与时间相关的多维数据分析,手段更加科学——充分利用历史数据且重视数据的体系结构和语义等。事实上,如今有许多数据仓库工具供应商都是原来从事DSS工具开发的,而且数据仓库目前主要是在商业营销等个别领域取得了比较明显的成功。如果没有真正理解数据仓库的概念就盲目实施大型数据仓库项目,结局一定是失败的。有些企业根本就没有注意到概括数据和元数据的作用便把他们的DSS称为数据仓库,这注定是不会成功的。
数据仓库中的数据库是面向主题和集成的,具备这种特性的数据库需要经过仔细规划和设计才能得到,这其中包括:数据库设计、预处理数据的设计、数据加载/变换过程的设计、元数据设计、用于大型数据库的设计技术等等。
设计含有预处理数据的数据库是指所建立的数据库能够支持用户多层次、多视角地查看周期数据。包含预处理信息是数据仓库区别于传统DSS的显著标志之一。另外,还必须规划数据仓库的数据加载工作。这里,数据清洗是必不可少的,其中包括提高数据的准确性,并且将不同环境中的数据进行复杂的匹配,还需要一个对关键字进行规范化的机制。这其中涉及到的数据变换是相当复杂的。
元数据设计也是数据仓库设计的重要组成部分。元数据和访问元数据的工具决定着用户利用数据仓库中数据的能力。元数据能将原始数据转变成对决策者和管理者有用的信息。只有通过这样的数据导航,用户才能找到他们想要的数据,提出他们想问的问题,从事他们想做的分析。只有经过深入细致的设计才能将元数据目录和易于访问的前端展现工具有机地结合起来。
最后是用于大型数据库系统的专门技术。通常数据仓库中的数据量都在千兆字节以上,若不采用一些特殊的方法是无法实际处理如此大量数据的。好在许多最新版本的数据库管理系统,如Oracle8、IBMDB2V5等都提供了各种不同的大规模并行处理和性能优化技术,以提高对大型数据库处理的效率。概念篇
概念诠释
数据仓库这个名词最早出现于90年代初,如今被商家“炒作”得异常火热。然而,数据仓库所取得的成就还远不如商家们宣传的那样辉煌,开发一个成功的数据仓库项目并不是一件容易的事。事实上,有许多数据仓库项目都失败了。造成数据仓库项目失败的原因有技术问题、管理问题、设计问题和规模问题等,但笔者认为从根源上讲主要还是概念问题,即未能真正理解和把握数据仓库的概念。
认识数据仓库
数据仓库并不是一个新的平台,它仍然建立在数据库管理系统基础上,只是一个新的概念。从用户的角度来看,数据仓库是一些数据、过程、工具和设施,它能够管理完备的、及时的、准确的和可理解的业务信息,并把这种信息提交给授权的个人使他们有效地作出决策。:数据仓库是集成的、面向主题的、用于决策支持的数据库集合,其中每个数据单元都与时间相关。数据仓库中的数据应当是良构的(well-formed)、一致的(consis