文档介绍:第二章数据仓库设计
数据仓库系统设计概述
数据仓库设计的三级数据模型
提高数据仓库的性能
数据仓库中的元数据
数据仓库设计步骤
数据仓库系统设计概述
数据仓库是一个面向数据分析型处理的数据环境,数据仓库的数据具有四个基本特征:面向主题的、集成的、不可更新的、随时间不断变化的。这些特点都说明了数据仓库从数据组织到面向的数据处理都与数据库系统有较大区别,因此数据仓库的设计方法也不同于传统的数据库系统的开发方法。
(1)数据仓库的系统设计是面向分析的,它的开发往往是从最基本的主题开始,不断地发展新的主题,完善已有的主题,最终建立起一个面向主题的分析型数据环境。
(2)数据仓库系统设计时,用户的需求是模糊的,这就决定了不可能从用户需求出发进行数据仓库的设计。
(续)
(3)数据仓库系统设计的主要目标是建立起一个全局一致的数据环境,以此作为企业决策支持系统的基础。
(4)数据仓库系统的数据来源于已存在的数据库系统。
(5)数据仓库系统的设计采用CLDS方法。
DW建模
构建DW
DSS应用编程
测试
理解需求
数据获取,集成
外部数据
DB
DB
创建数据仓库的工作是在原有的数据库的基础上进行的。这种从已有数据出发的数据仓库设计方法称为“数据驱动”的系统设计方法。
“数据驱动”系统设计方法的基本思路:
(1)利用以前所取得的工作成果进行系统建设,识别出当前系统设计与已做工作的“共同性”。
(续)
(2)从已有的DBS出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库中的主题。
(3)最核心的是利用数据模型有效地识别原有数据库中的数据和数据仓库中主题的数据的“共同性”。
(续)
数据仓库系统开发的策略选择,传统的采用自顶向下和自底向上两种策略:
自顶向下的策略:先建立一个全局数据仓库的结构,然后在此基础上建立部门的数据集市和个人的数据仓库。这是一种系统解决方案,能最大限度地减少集成问题,但开发周期长,费用高,并且缺乏灵活性。
(续)
自底向上的策略:即数据集市方法,提供了灵活性,低花费,并能迅速回报投资。此方法的核心是:从最关心的部分开始,先以最少的投资,完成企业当前的需求,获得最快的回报,然后再不断扩充,完善。
两种策略都可能存在某些问题,下面推荐一种以递增、进化的方式实现数据仓库。
多层数据仓库
企业数据仓库
数据集市
数据集市
分布式数据集市
定义高层数据模型
模型提炼
模型提炼
递增、进化地开发数据仓库的策略:
(续)
第一步:
在一个合理时间内定义一个高层次的企业数据模型,在不同的主题和可能的应用之间,提供企业范围的,一致的、集成的数据视图。这将大大减少今后的集成问题,尽管在今后企业数据仓库和数据集市开发中还需要进一步提炼。