1 / 35
文档名称:

数据仓库2.ppt

格式:ppt   大小:1,498KB   页数:35页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库2.ppt

上传人:用户头像没有 2017/6/24 文件大小:1.46 MB

下载得到文件列表

数据仓库2.ppt

相关文档

文档介绍

文档介绍:第2单元数据仓库
数据组织与体系结构
DW中的数据组织
DW中的数据以四个基本特征为基础, 分为四个级别:
早期细节级、当前细节级、轻度综合级、高度综合级。
源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合从而进入轻度综合级及至高度综合级。
老化的数据将进入早期细节级。
不同的综合级别称之为"粒度"。
1995~2010年
月销售表
高度综合级
轻度综合级
2000~2010年
周销售表
当前细节级
2000~2010年
销售情况表
早期细节级
1991~2000年
销售明细表
元数据
详细
数据
汇总
数据
数据仓库中的数据说明
四级数据说明:
高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。
轻度综合数据:从近期基本数据中提取出的,这层数据是按时间段选取,或按数据属性和内容进行综合。
当前细节级(近期基本数据):是最近时期的业务数据, 是数据仓库用户最感兴趣的部分,数据量大。
早期细节级(历史基本数据):近期基本数据随时间的推移, 由数据仓库的时间控制机制转为历史基本数据。
数据粒度
粒度问题是设计数据仓库的一个最重要方面。
粒度: 数据仓库中保存数据的细化或综合程度的级别。
细化程度越高,粒度越小; 粒度越高,所能回答查询的能力越低。
注意: 粒度划分的决定性因素是总的记录数。
每月一个顾客存2000条记录平均需要45,000个字节
一个顾客
一个月:
存1条记录需要200个字节
张三丰电话记录
4月12日下午6:01~6:12
415-566-9982 接线员帮助
4月12日下午6:15~6:22
415-334-8847 长途
4月12日下午6:30~6:42
408-223-7745
4月13日上午9:11~9:38
408-223-7745
4月13日上午10:5~10:15
408-223-7689
………
高细节级
四月份
张三丰
电话数量:45个
电话平均长度:14分钟
长途电话数:18个
接线员帮助呼叫:2个
未接通电话数:1个
轻度综合级
轻度综合数据
数据分割
提高数据仓库性能的另一重要技术是数据分割。
数据分割: 将数据分散到各自的物理单元中, 以便能分别独立处理,以提高数据处理效率。
分割问题的焦点不是该不该分割而是如何去分割。
方法1:最普遍的方法是按时间分割,主要原因是:
数据仓库在获取数据时一般按时间顺序进行;
数据仓库的数据综合通常在时间维上进行
方法2:按业务类型、地理分布等来分割数据。
更多情况下,采用不同标准进行组合,对数据分割。
数据分割的本质之一就是灵活地访问数据。
大块数据很难灵活访问, 小单元数据相对独立, 处理更快、更容易。
分割考虑的因素: 数据量(非记录行数)、数据分析处理的实际情况、简单易行及粒度划分策略等
小的数据单元能被:
重构、索引、顺序扫描、重组、恢复、监控
数据分割
数据仓库中数据的组织形式
数据仓库中的数据有多种组织形式, 如: 简单堆积结构、转轮组织结构、简单直接结构和连续结构。
简单堆积结构
数据仓库中最简单、最常用的数据组织形式。它每日从数据库中提取出来,并按相应的主题、集成为数据仓库中的记录。
面向应用的数据库
……..
1月1日
1月2日
1月3日
……
2月1日
2月2日
2月3日
……
…………
每天
数据
每天
综合
特点:
需要很多存储空间
无细节丢失
许多处理与数据有关
轮转综合数据结构
简单逐日堆积数据的一种变种
转轮结构中, 数据存储单位分割为日, 周,月,年四级; 其中:日, 周,月,分别存储当前数据, 年存储每年综合数据。
日、周、月数据集轮转使用以存储当前最新数据。
特点: 结构简洁, 数据量比简单堆积结构大大减少; 但损失了数据细节, 越久远的数据, 细节损失越多。
……..
每天
数据
每天
综合
当前周7天的数据
周一
周二
……
周日
7天综合1周
4周综合1月
12个月综合1年
第1周
第2周
第4周
……
当前月4周数据综合
1月
2月
12月
……
当前年12个月数据综合
第1年
第2年
第n年
……
历史各年数据综合
面向应用
的数据库
简单直接文件与连续文件
简单直接文件
可以看作是按一定时间间隔对操作型数据的一个快照。
与简单堆积结构的区别:对操作型数据不集成, 而是每间隔一定时间(如:一周,一月) 而直接存入数据仓库。
连续文件
通过两个连续的简单直接文件,生成另一个连续文件;也可以通过把一个快照追加到一个以前生成的连续文件上来创建。
客户资金
变动库
快照

日终数据