文档介绍:数据仓库的开发流程
第1页,本讲稿共53页
数据库系统的开发流程
需求收集和分析
设计概念结构
设计逻辑结构
数据模型优化
设计物理结构
设计评价性能预测
物理实现
实验性运行
使用维护数据库
不满意
需求事、采购、库存、销售等部门分别存储着各自的数据库,各个部门的数据按自己业务需要加以组织。
这样的组织使得数据各自为政,缺乏全局性,管理层想要在这些数据的基础上得到一些全局报表、进行一些分析工作是比较困难的。因此商场的领导决定要在原有的数据库系统的基础上建立一个数据仓库。
第20页,本讲稿共53页
界定系统的边界
需求:主要是商品采购和销售情况
商场经营者目前所要进行的分析主要有:·分析顾客的购买趋势;·分析商品供应市场的变化趋势;·分析供应商信用等级。
第21页,本讲稿共53页
界定系统的边界
所需要的数据应包括:·商品销售数据;·商品采购数据;·商品库存数据;·顾客信息;·供应商信息。
所以,我们可以将系统的边界定为包含原有的销售子系统、采购子系统以及库存子系统在内的集合。
第22页,本讲稿共53页
确定主要的主题域
三个基本主题:商品、供应商和顾客。
主题之间的联系是:供应商供应多种商品,一种商品可由多个供应商提供,即“商品”主题与“供应商”供应的商品直接联系;供应商供应的商品同样也可以被不同的顾客购买,但“顾客”主题与“供应商”主题间并不是直接发生关系的,它们之间的联系是经过“商品”主题的间接联系。
第23页,本讲稿共53页
E-R模型
第24页,本讲稿共53页
各主题的属性信息
第25页,本讲稿共53页
数据仓库的设计步骤
概念模型设计
技术准备工作
逻辑模型设计
物理模型设计
数据仓库生成
数据仓库使用与维护
第26页,本讲稿共53页
技术准备工作
工作包括:技术评估,技术环境准备。
成果是:技术评估报告,软硬件配置方案,系统(软、硬件)总体设计方案。
第27页,本讲稿共53页
数据仓库的设计步骤
概念模型设计
技术准备工作
逻辑模型设计
物理模型设计
数据仓库生成
数据仓库使用与维护
第28页,本讲稿共53页
逻辑模型设计
分析主题域
确定粒度层次划分
确定数据分割策略
关系模式定义
数据源及抽取模型的定义
第29页,本讲稿共53页
分析主题域
对概念模型设计步骤中确定的几个基本主题域进行分析,选择首先要实施的主题域;
如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发;
商场数据仓库设计的例子:“商品”主题既是一个商场的最基本的业务对象,又是进行决策分析的最主要的领域,因而较之另两个主题来说,“商品”主题具有更重要的意义与作用。所以,我们可以先选定“商品”主题来实施。
第30页,本讲稿共53页
粒度层次划分
粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型;
通过估算数据行数和所需的DASD 数,确定采用单一粒度或多重粒度,以及粒度划分的层次。DASD(Direct Access Storage Device)
例子:商品主题--多重粒度
第31页,本讲稿共53页
数据分割策略
数据量的大小是决定是否进行数据分割和如何分割的主要因素;
数据分析处理的要求是选择数据分割标准的一个主要依据;
还要考虑到所选择的数据分割标准应是自然的、易于实施的;
同时也要考虑数据分割的标准与粒度划分层次是适应的。
第32页,本讲稿共53页
关系模式定义
由多个表实现;
对于多维数据模型:事实表和维度表;对于E-R模型:主题的相关信息的内容表如,商品主题的关系模式定义包括:商品固有信息、商品采购信息、商品销售信息、商品库存信息、其它数据等。
第33页,本讲稿共53页
数据源及抽取模型的定义
由三种表实现;
数据源抽取对象表;数据源抽取规则表;数据目标列与源列对应关系表。
第34页,本讲稿共53页
数据仓库的设计步骤
概念模型设计
技术准备工作
逻辑模型设计
物理模型设计
数据仓库生成
数据仓库使用与维护
第35页,本讲稿共53页
物理模型设计
工作:确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。
前提要求:1. 全面了解所选用的数据库管理系统,特别是存储结构和存取方法。2. 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。3. 了解外部存储设备的特性,如分块原则,块大小的规定,设备的 I/O 特性等。
第36页,本讲稿共53页
数据仓库的设计步骤
概念模型设计
技术准备工作
逻辑模型设计
物理模型设计
数据仓库生成