文档介绍:数据仓库技术概述
数据仓库技术
伴随数据库技术日趋成熟和应用系统逐步完善, 不管是利用早期RDB、 Dbase, 还是以后以其领先关键技术日渐垄断关系数据库市场Oracle、 Sysbase、 DB2,企业已经积累了大量数据, 这些数据信息为企业发展提供了客观依据。 毫无疑问, 在竞争猛烈商业环境下, 信息将是取胜关键原因, 决议者必需能快速可靠、 随时自主地访问企业数据, 才能有效地做出计划和决议。 在这种需求牵引下, 形成了数据仓库(Data Warehouse)新概念、 新技术。
1数据仓库概念
数据仓库提出是以关系数据库、 并行处理和分布式技术飞速发展为基础, 是处理信息技术(IT)在发展中存在拥有大量数据, 而其中有用信息贫乏综合处理方案。 数据仓库是一个新数据处理体系结构, 是对企业内部各部门业务数据进行统一和综合中央数据仓库。 它为企业决议支持系统(DSS)和经理信息系统(EIS)提供所需信息。 它是一个信息管理技术, 为估计利润、 风险分析、 市场分析和加强用户服务和营销活动等管理决议提供支持新技术。
数据仓库技术对大量分散、 独立数据库经过计划、 平衡、 协调和编辑后, 向管理决议者提供辅助决议信息, 发挥大量数据作用和价值。
概括地说, 数据仓库是面向专题(Subject-Oriented)、 集成(Integrated)、 稳定(Nonvolatile)、 不一样时间(Timer-Variant)数据集合,用于支持经营管理中决议制订过程。
数据仓库中数据面向专题, 和传统数据库面向应用相对应。 专题是一个在较高层次上将数据归类标准, 每一个专题对应一个宏观分析领域: 数据仓库集成特征是指在数据进入数据仓库之前, 必需经过数据加工和集成, 这是建立数据仓库关键步骤, 首先要统一原始数据中矛盾之处, 还要将原始数据结构做一个从面向应用向面向专题转变; 数据仓库稳定性是指数据仓库反应是历史数据内容, 而不是日常事务处理产生数据, 数据经加工和集成进入数据仓库后是极少或根本不修改; 数据仓库是不一样时间数据集合, 它要求数据仓库中数据保留时限能满足进行决议分析需要, 而且数据仓库中数据全部要标明该数据历史时期。
数据仓库最根本特点是物理地存放数据, 而且这些数据并不是最新、 专有, 而是起源于其它数据库。 数据仓库建立并不是要替换数据库, 它要建立在一个较全方面和完善信息应用基础上, 用于支持高层决议分析, 而事务处理数据库在企业信息环境中负担是日常操作性任务。 数据仓库是数据库技术一个新应用, 而且到现在为止, 数据仓库还是用关系数据库管理系统来管理其中数据。
传统数据库用于事务处理, 也称为操作型处理, 是指对数据库联机进行日常操作, 即对一个或一组统计查询和修改, 关键面向企业特定应用服务。 用户关心是响应时间、 数据安全性和完整性。 数据仓库用于决议支持, 也称分析型处理, 它是处理决议支持系统基础。
数据仓库数据概念模型是数据多维视图, 它直接影响到前端工具、 数据库设计和联机分析处理(On Line Analytical Processing, OLAP)查询引擎。 在多维数据模型中, 一部分数据是数字测量值, 而这些数字测量值是依靠于一组维, 这些维提供了测量值上下文关系。 所以, 多维数据视图就是这么部分由层次维组成多维空间中, 存放着数字测量值。 多维概念模型另一个特点是对一个或多个维所做集合运算。 这些运算能够包含对于一样维所限定测量值比较。 通常来说, 时间维是一个有特殊意义维, 对决议中趋势分析很关键。
针对多维模型产生了OLAP分析方法, 包含以下三种:
旋转: 立即表格横、 纵坐标交换(x、 y)→(y、 x).
上钻和下钻: 对所关心数据依据维层次提升或降低观察层次。
切片和切块: 关键依据维限定做投影、 选择等数据库操作取得数据。
2数据仓库数据组织
:
数据仓库中数据分为四个等级: 早期细节级、 目前细节级、 轻度综合级、 高度综合级。 源数据经过综合后, 首优异入目前细节级, 并依据具体需要进行深入综合, 从而进入轻度综合级乃至高度综合级, 老化数据将进入早期细节级由此可见, 数据仓库中存在着不一样综合等级, 通常称之为"粒度"。 粒度越大, 表示细节程度越低, 综合程度越高。
图1 DW数据组织结构
数据仓库中还有一个关键数据--元数据(metadata)。 元数据是"相关数据数据", 在数据库中, 元数据是对数据库中各个对象描述;在关系数据库中, 这种描述就是对表、 列、 数据库、 视图和其它对象定义。 从广义上讲, 数据仓库元数