1 / 62
文档名称:

数据仓库技术.ppt

格式:ppt   大小:1,423KB   页数:62页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库技术.ppt

上传人:电离辐射 2022/9/4 文件大小:1.39 MB

下载得到文件列表

数据仓库技术.ppt

相关文档

文档介绍

文档介绍:LoremIpsum
.
数据仓库技术
粒度的一个例子
高细化
低细LoremIpsum
.
数据仓库技术
粒度的一个例子
高细化
低细化
每月200个记录
每月40,000个字节
每月一个记录
每月200个字节
通过检索
可以回答
无细节
无法回答
询问某一电话的细节

元数据
高度综合级
轻度综合级
(数据集市)
销售细节级
2000-2001
操作型转换
早期细节级
每月销售
1994-2001
每周销售
1994-2001
当前细节级
销售细节级
1994-1999

分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。
分片——数据分割后的独立单元。
数据的分割提高了数据管理的灵活性 重构、索引、重组、恢复、监控
分割的标准:日期、地域、业务领域。
分割的一个例子
分片9
分片8
分片7
2001
分片6
分片5
分片4
2000
分片3
分片2
分片1
1999
事故保险
生命保险
健康保险

星型模式(starschema)
雪花模式(snowflakeschema)
混合模式
事实表


维表
中间有一个单一表,沿半径向外连接到多个表
是星型模式的扩展,每一个点都沿半径向外连
接到多个点

数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。
数据抽取、转换和装载(ETL)
数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。
数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。

确认数据源
数据抽取技术

列出对事实表的每一个数据项和事实
列出每一个维度属性
对于每个目标数据项,找出源数据项
一个数据元素有多个来源,选择最好的来源
确认一个目标字段的多个源字段,建立合并规则
确认一个目标字段的多个源字段,建立分离规则
确定默认值
检查缺失值的源数据

当前值。
源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。
周期性的状态。
这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。

数据转换的基本功能
数据转换类型
数据整合和合并
如何实施转换

选择:从源系统中选择整个记录或者部分记录。
分离/合并:对源系统中的数据进行分离操作或者合并操作。
转化:对源系统进行标准化和可理解化。
汇总:将最低粒度数据进行汇总。
清晰:对单个字段数据进行重新分配和简化。

(1)格式修正
(2)字段的解码
(3)计算值和导出值
(4)单个字段的分离
(5)信息的合并
(6)特征集合转化
(7)度量单位的转化
(8)关键字重新构造
(9)汇总
(10)日期/时间转化

数据整合和合并是将相关的源数据组合
成一致的数据结构,装入数据仓库。
(1)实体识别问题
数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。
(2)多数据源相同属性不同值的问题
不同系统中得到的值存在一些差别,需要给出合理的值。

自己编写程序实现数据转换
使用转换工具

(1)数据装载方式
(2)数据装载类型

基本装载
按照装载的目标表,将转换过的数据输入到目标表中去。
追加
如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。
破坏性合并
用新输入数据更新目标记录数据。
建设性合并
保留已有的记录,增加输入的记录,并标记为旧记录的替代。

最初装载
这是第一次对整个数据仓库进行装载