1 / 30
文档名称:

数据仓库(1).ppt

格式:ppt   大小:1,215KB   页数:30页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库(1).ppt

上传人:电离辐射 2022/9/4 文件大小:1.19 MB

下载得到文件列表

数据仓库(1).ppt

文档介绍

文档介绍:数据仓库(1)
数据仓库的特性
面向主题
典型的主题领域:客户;产品;交易;帐目
集成的
数据提取、净化、转换、装载
非易失的
数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新
随时间的变化性
数据仓库中的时间期限要数据仓库(1)
数据仓库的特性
面向主题
典型的主题领域:客户;产品;交易;帐目
集成的
数据提取、净化、转换、装载
非易失的
数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新
随时间的变化性
数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);
数据仓库中的数据是一系列某一时刻生成的复杂的快照;
数据仓库的键码结构总是包含某时间元素。
精品资料网()
数据仓库的结构
早期细节级
当前细节级
轻度综合级
数据集市
高度综合级
元数据
操作型转换
数据仓库设计中的几个重要概念
ETL
ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
元数据
关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。
粒度
数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
分割
结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。
精品资料网()
典型的元数据包括:
数据仓库表的结构
数据仓库表的属性
数据仓库的源数据(记录系统)
从记录系统到数据仓库的映射
数据模型的规格说明
抽取日志
访问数据的公用例行程序
数据仓库设计中的几个重要概念(续)
DataMart
数据集市--小型的,面向部门或工作组级数据仓库。
OperationDataStore
操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。
datamodel
数据模型--(1)逻辑数据结构,包括由DBMS为有效进行数据库处理提供的操作和约束;(2)用于表示数据的系统(例如,ERD或关系型模型)。
artifact
人工关系--在DSS环境中用于表示参照完整性的一种设计技术。
精品资料网()
企业数据模型到数据仓库数据模型的转换
除去纯粹用于操作型环境的数据
在企业键码结构中增加时间元素
增加导出数据
创建人工关系
数据模型的规范化/反规范化
为了减少程序在表中的跳转、节省I/O,需将多个相关的表合并;
引入冗余数据;
当访问概率有很大悬殊时,要对数据做进一步分离;
在物理数据库的设计中引入导出数据可以减少I/O;
建立所谓的“创造的”索引或创造的简要记录(如卷中的前十名顾客是——)
数据仓库体系结构
OLTP
数据源
数据仓库
数据集市
?
数据采集及整合
数据的映射规则、模型
。。。
(元数据管理)
数据仓库项目流程管理及系统性能管理和监控
?
数据展现及决策
生产
财务
结算
外部
航线
分析
总量
分析
市场
分析
InfoPump
数据分析、DM
终端用户
终端用户
精品资料网()
从操作型的现存系统到数据仓库中数据转换工作的难点
现有系统缺乏数据集成,跨越不同应用的数据集成性很差
存取现存系统的效率,扫描已有文件成了数据仓库体系结构设计者主要面对的问题
时基的变化
数据要浓缩
概念:数据周期、简要记录
数据周期:是指从操作型数据发生改变起,到这个变化反映到数据仓库中所用的时间。
从操作型环境知道数据的改变到这个变化反映到数据仓库中至少应该经历24小时。
简要记录:或聚集记录,是把不同操作型数据的详细信息聚集在一个记录中而形成的记录。
好处:①减少数据量;
②为用户的访问和分析提供了一种紧凑的方便的数据组织形式;
缺点:信息的详细程度将会降低。
精品资料网()
数据仓库的建模
数据模型
所有的实体都是平等关系。
仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。
星型连接
事实表:位于星型连接的中央,它是被大量载入数据的实体。
维表:周围的其它实体。
在很多情况下:文本数据与数值数据是分离开的。
通过数据预连接和建立有选择的数据冗余,设