1 / 82
文档名称:

数据仓库实践系列课程(1)——数据仓库基本概念.pptx

格式:pptx   大小:3,724KB   页数:82页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库实践系列课程(1)——数据仓库基本概念.pptx

上传人:分享精品 2017/11/26 文件大小:3.64 MB

下载得到文件列表

数据仓库实践系列课程(1)——数据仓库基本概念.pptx

相关文档

文档介绍

文档介绍:数据仓库实践系列课程(1) ——数据仓库基本概念
文思海辉
© Pactera. Confidential. All Rights Reserved.
2
数据仓库概念
数据模型介绍
数据管理介绍
数据仓库项目实施
数据仓库出现的背景
需求的变化
业务系统的建设逐渐完善
分析类需求不断增加
不断增加的信息孤岛导致数据集成问题不断增加
技术发展状况
关系数据库技术日趋成熟
报表和复杂查询处理起来非常困难
各个系统之间数据不一致
数据仓库与OLTP
OLTP系统(生产系统)
面向应用
事务驱动的
实时性高
数据检索量相对少
只存当前数据
数据仓库系统(决策系统)
面向主题
分析和决策
实时性要求不是特别高
数据检索量大
存储大量的历史数据和当前数据
分析型系统与操作型系统之间的区别
操作型数据
分析型数据
细节的
细节的,综合的,或提炼的
在存取瞬间是准确的
代表过去的数据
可更新
不更新
操作需求事先可知道
操作需求事先不知道
对性能要求高
对性能要求相对宽松
一个时刻操作一单元
一个时刻操作一集合
事务驱动
分析驱动
面向应用
面向分析
一次操作数据量小
一次操作数据量大
支持日常操作
支持管理需求
数据仓库建设的分歧
数据仓库建设的分歧
Bill Inmon
Kimball
1991年,提出了企业级数据仓库
企业级数据仓库建设遭受大面积失败
Kimball出版了The DataWarehouse Toolkit
数据集市建设在初期取得了成功
多个数据集市之间的复杂的ETL/数据不一致
争论与混乱期(1996-1997)
EDW
ODS
Data Mart
走向融合(1998-2001)
提出了企业信息工厂(Corporate Information Factory)的架构,融合了EDW/ODS/Data Mart
Kimball也提出了数据仓库的扩展架构,把EDW/ODS/Data Mart结合在了一起
数据仓库理论的形成
数据仓库的四个特征
数据仓库是面向主题的(Subject-Oriented)
集成的(Integrated)
随时间不断变化(Time-variant)
不可更新的(Nonvolatile)
数据仓库之父:Bill Inmon
数据仓库
面向主题与面向应用
OLTP应用
是面向应用进行数据组织的
分析应用
面向主题进行组织
主题
一个抽象的概念
在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
例如:对于一个保险公司来说
OLTP数据库所面向的应用可能是汽车保险、健康保险、人寿保险与意外伤亡保险
数据仓库所面向的主题域可能是顾客、保险单、保险费与索赔。
目前主流的数据仓库大都是采用关系数据库技术来实现的
数据仓库的数据最终也会用关系模型表现。因此要把握主题和面向主题的概念,需要将它们提高到一个更高的抽象层次上来理解,也就是要特别强调概念的逻辑意义。
数据集成
数据集成的内务
数据清洗
按照数据质量管理的要求进行数据的清洗
数据转换
按照源系统与数据仓库中模型之间的差异进行转换
数据整合
不同源系统的数据在数据仓库中可能会进入到相同的模型中
为什么要进行数据集成?
源系统的多样性
数据质量的要求
模型的差异