1 / 36
文档名称:

数据仓库入门.ppt

格式:ppt   大小:646KB   页数:36页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库入门.ppt

上传人:sanshengyuanting 2017/7/26 文件大小:646 KB

下载得到文件列表

数据仓库入门.ppt

相关文档

文档介绍

文档介绍:Data Warehouse overview
数据仓库管理的历史时期
人工管理方式:
这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科学计算,外存只有纸带、磁带、卡片等,数据处理的方式基本上是批处理。这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功能;一组数据对应一个应用,这使得程序之间可能有重复的数据。
文件系统管理
这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了,在硬件和软件方面都得到了发展,磁盘磁鼓出现,操作系统也产生。这一时期数据管理的特点主要是::
数据保存,数据可以长期保存在磁盘上;
有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了区别;
有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度的复用。
但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序之间缺乏独立性,容易造成数据的不一致性。
数据库系统(60年代末开始)
数据仓库的发展的动力
业务需求驱动
主要是详细的分析
科学的经营
市场活动的细化和实施等
数据驱动
数据量不断扩大
没有数据仓库等相关技术很难全面了解企业
项目驱动
数据仓库定义
Inmon的定义:
DataWarehouse is a subject-oriented,integrated,time-variant, and nonvolatile collection of data in support of management’s decision making process
数据仓库的特点
数据仓库的数据是面向主题的
数据仓库的数据是集成的
数据仓库的数据是与时间相关的
数据仓库的数据是稳定的
简单的数据仓库架构
数据仓库实际应用例子
数据集成
企业全面的经营数据
OLTP分散在各个不同系统中(事件独立)
银行:卡、储蓄、信贷、会计、中间业务等等系统
BOSS+增值业务+财务
集成数据
建立关联
事件关联(业务之间是相互关联)
客户数据统一
历史数据
大量历史数据的保存问题
中国建设银行一个中等规模的省产生每天的交易详细记录大约200M
通常在业务系统中只保存当日数据
历史数据查询困难
数据仓库数据处理流程
数据格式检查
源数据清洁、抽取、转换
ODS数据抽取、转换
装载数据到DW
装载到OLAP
报表展现
业务系统数据/外部数据
DW数据抽取、转换
DW数据生成报表
装载数据到ODS
分析性查询
ETL简述
ETL定义
ETL:
Extract-Transform-Load
数据抽取(Extract)、转换(Transform)、装载(Load)的过程。
ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤