文档介绍：该【数据仓库第一章】是由【十二官】上传分享，文档一共【52】页，该文档可以免费在线阅读，需要了解更多关于【数据仓库第一章】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。:.
数据仓库与数据挖掘
中国科学技术大学商学院:.
课程内容简介:
第一部分:数据仓库技术
数据仓库概念
数据仓库设计
操作数据存储
多维数据模型
联机分析处理
2:.
课程内容简介:
第二部分:数据挖掘概念与技术
数据挖掘概念
概念描述
关联规则
分类和预测
聚类分析
数据挖掘应用实例
3:.
第一章数据仓库技术概述

4:.

传统的数据环境:以数据库为中心,数据资源
组织方式单一。
数据处理不断有新需求,从事务处理,批处理
到决策分析等,且不同类型的数据处理有不同
的处理特点。
人们认识到:当数据处理方式发生变化,而数
据组织方式并没有改变时,就会出现数据处理
方式和数据环境不相适应,从而使得数据处理
不能获得理想的结果。
结论:以单一的数据组织方式进行组织的数据
库,不能满足数据处理多样化的要求,数据仓
库技术应运而生。
5:.

数据处理具有多层次的特点,可分为两大类:
操作型处理
对数据库联机的日常操作,通常是对一个
或一组记录的查询或修改,主要为企业的特定
应用服务。它采用实时或在线的方式处理数据
库,人们关心的是响应时间,数据的安全性和
完整性。
6:.

分析型处理
用于管理人员的决策分析,经常要访问大量
的历史数据,而很少对数据库进行写操作,除
非对数据库进行更新或装入时。人们希望从中
获得跟公司经营效益紧密相关的信息。
两种不同类型的数据处理存在巨大差异,从应
用的对象到数据的结构、内容和用法都不相同。
具体表现在:
7:.

(1)事务处理和分析处理的性能特征不同
事务处理环境:用户的行为特点是数据的存取
操作频率高,而每次操作处理的时间短。因此
系统可以允许多个用户按分时方式使用系统资
源,同时保持较短的响应时间。
分析处理环境:用户的行为模式与上面完全不
同,一个分析处理程序可能要连续运行几个小
时,从而消耗大量系统资源。
8:.

【例】
在OLTP系统中,事务的吞吐量比率通常使用
每秒钟完成的数据处理数TPS或TPM来表示。
在DSS中,吞吐量通常用每小时处理的查询数
QPH来表示。这些查询数量庞大,在它完成
前,占用绝大部分机器资源。
一个OLTP系统即使很大,也不过300GB左右,
而一个大型DSS的规模可以轻易达到1TB。
(1TB=1000GB)
9:.

(2)数据集成问题
事务处理:目的在于使业务处理自动化,一般
只需要与本部门业务相关的当前数据,而对整
个企业范围内的集成应用考虑很少。
分析处理:需要集成的数据,不仅需要整个企
业内部各部门的相关数据,还需要企业外部、
竞争对手等处的相关数据。
10:.

当前绝大多数企业内部数据的真正状况是分散
而非集成的,主要原因:
事务处理应用的分散
“蜘蛛网”问题
数据不一致问题
外部数据和非结构化数据
11:.

(3)数据动态集成
静态集成:对所需数据一次性集成,之后就一
直以此集成数据做为分析基础,不再与数据源
发生联系。它最大缺点在于:当数据源发生变
化(集成后),而这些变化不能反映给决策者,
导致决策者使用的是过时的数据。
动态集成:集成数据以一定的周期进行刷新。
OLTP不具备动态集成,而分析处理需要数据
的动态集成。
12:.

(4)历史数据问题
事务处理:一般只需当前数据。数据库中也只
存储短期数据,并且不同数据保存期也不相同。
即使有历史数据保存,也不利用。
分析处理:对决策者而言,历史数据相当重要,
许多分析方法必须以大量历史数据为依托,没
有对历史数据的详细分析,很难把握企业的发
展趋势。
13:.

(5)数据的综合问题
事务处理积累了大量的细节数据,一般DSS不
对细节数据分析。一是细节数据量大,严重影
响分析效率;二是太多的细节数据不利于分析
人员将注意力集中在有用信息上。因此,分析
处理前经常要综合,而事务处理系统不具备这
种综合能力。
14:.
第一章数据仓库技术概述

15:.

数据仓库系统构造方面的领头设计师
:
数据仓库是面向主题的、集成的、具有时间特
征的、稳定的数据集合,用于支持经营管理中
的决策制定过程。
SAS软件研究所的观点:
数据仓库是一种管理技术,旨在通过通畅、合
理、全面的信息管理达到有效的决策支持。
16:.

从定义可看出:DW是明确为决策支持服务,
而DB是为事务处理服务。
前面简短而又全面的定义指出了数据仓库的主
要特征,四个关键词:面向主题的、集成的、
时变的、稳定的,将数据仓库与其他数据存储
系统相区别。
下面讨论数据仓库的关键特征:
17:.

主题是一个在较高层次将数据归类的标准,每
一个主题基本对应一个宏观的领域,基于主题
组织的数据被划分为各自独立的领域,每一个
领域都有自己的逻辑内容而互不相交。
18:.

--DWDW的数据是面向主题的的数据是面向主题的
面向应用的数据经常会随着各种经营环境的改
变而发生变化,面向主题的数据则因为比应用
具有更高的抽象层次而比较稳定。
但数据的产生都是基于应用而产生,因此数据
在进入数据仓库之前,必然要经过加工和集成,
将原始数据结构做一个从面向应用到面向主题
的大转变。
19:.

--DWDW的数据是面向主题的的数据是面向主题的
【例】一家采用“会员制”经营方式的商场,按业
务建立起若干子系统,并按业务处理要求建立各
自数据库模式:
采购子系统:
订单(订单号,供应商号,总金额,日期)
订单细则(订单号,商品号,类别,单价,数量)
供应商(供应商号,供应商名,地址,电话)
销售子系统:
顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)
销售(员工号,顾客号,商品号,数量,单价,日期)
20:.

--DWDW的数据是面向主题的的数据是面向主题的
人事管理子系统:
员工(员工号,姓名,性别,年龄,文化程度,部门号)
部门(部门号,部门名称,部门主管,电话)
库存管理子系统:
领料单(领料单号,领料人,商品号,数量,日期)
进料单(进料单号,订单号,进料人,收料人,日期)
库存(商品号,库房号,库存量,日期)
库房(库房号,仓库管理员,地点,库存商品描述)
21:.

--DWDW的数据是面向主题的的数据是面向主题的
传统的面向应用进行数据组织方式的特征为:
重点在“数据”和“处理”;
通常要反映一个企业内数据的动态特征;
所生成的各项数据库模式与企业实际的业务处
理流程中所涉及的单据及文档,有很好的对应
关系;
并没有真正体现数据与数据处理的分离。
22:.

--DWDW的数据是面向主题的的数据是面向主题的
面向应用到面向主题的转变:
面向主题的数据组织方式应分为两个步骤:
抽取主题
确定每个主题所包含的数据内容
仍以商场为例,它所应有的主题包括:商品、
供应商、顾客。每个主题有各自独立的逻辑内
涵,对应一个分析对象。
23:.

--DWDW的数据是面向主题的的数据是面向主题的
商品:
商品固有信息:商品号,商品名,类别,颜色等
商品采购信息:商品号,供应商号,供应价,供
应日期,供应量等
商品销售信息:商品号,顾客号,售价,销售日
期,销售量等
商品库存信息:商品号,库房号,库存量,日期
等
24:.

--DWDW的数据是面向主题的的数据是面向主题的
供应商:
供应商固有信息:供应商号,供应商名,地址,
电话等。
供应商品信息:供应商号,供应价,供应日期,
供应量等。
顾客:
顾客固有信息:顾客号,顾客名,性别,年龄,
文化程度,住址,电话等。
顾客购物信息:顾客号,商品号,售价,购买日
期,购买量等。
25:.

--DWDW的数据是面向主题的的数据是面向主题的
从面向应用面向主题
丢弃了原来不必要,不适合分析的信息。
将分散在各子系统中的有关主题的信息集成,
形成关于商品的一致信息。
不同主题之间也有重叠的内容,但只是逻辑上
的重叠,细节级上的重叠,另外主题间并不
是两两重叠。
商品
供应商顾客
26:.

--DWDW的数据是面向主题的的数据是面向主题的
主题的实现:
一个主题可划分成多个表,基于一个主题的所
有表都有一个公共码,作为主码的一部分,将
各表统一起来,体现它们是属于一个主题。
例如实现商品主题:
27:.
描述的是商品

的固有信息
--DWDW的数据是面向主题的的数据是面向主题的
主题:商品描述的是商品
的采购细节信
公共码键:商品号
息
商品表(商品号,商品名,类型,颜色,…)
采购表1(商品号,供应商号,供应日期,供应价,
…)
采购表2(商品号,时间段,采购总量,…)
:
采购表n(商品号,时间段,采购总量,…)
时间段不等的
采购综合表
28:.

--DWDW的数据是面向主题的的数据是面向主题的
销售表1(商品号,顾客号,销售日期,售价,
销售量,…)
销售表2(商品号,时间段,销售总量,…)
:
销售表n(商品号,时间段,销售总量,…)
库存表1(商品号,库房号,库存量,日期,…)
库存表2(商品号,库房号,库存量,月份,…)
:
库存表n(…,…)
29:.

--DWDW的数据是面向主题的的数据是面向主题的
面向主题的数据组织方式:
根据分析要求将数据组织成主题域,即要具有:
独立性:可交叉,但必须具有独立内涵
完备性:能在主题内找到该分析处理所
要求的一切内容
30:.

通常,构造数据仓库是将多个异种数据源(如关
系DB、一般文件和联机事务处理记录)集成在一起,
使用数据清理和数据集成技术,确保命名约定、
编码结构、属性度量等的一致性。
统一源数据中所有矛盾之处
主要做两个工作
进行数据综合和计算
31:.

数据仓库主要供企业决策分析使用,包括大量
历史数据,数据经集成进入DW后极少或根本
不更新。所以通常它只需要两种数据访问:
数据的初始装入
数据访问
因此数据仓库不需要事务处理、恢复和并发控
制机制。
32:.

数据仓库的数据不可更新是针对应用而言,它
随时间而发生变化的特征体现在:
数据仓库随时间变化不断增加新内容;
数据仓库随时间变化不断删除旧内容;
数据仓库随时间变化不断重新综合数据。
数据仓库的关键结构都隐式或显式地包含时间
元素。
33:.
第一章数据仓库技术概述

34:.

1990-1996
高度综合级高度综合级
每月销售表
1990-1996
轻度综合级轻度综合级
每周销售表
元数据
1990-1996
当前细节级当前细节级
销售情况表
1985-1990
早期细节级早期细节级
销售明细表
35:.

可看出:数据仓库中存在不同的综合级别,称
为“粒度”
数据仓库中数据级别的划分是根据粒度进行的
元数据是“关于数据的数据”,在数据仓库环
境中,主要有两种元数据:
为了从操作环境向DW环境转换而建立的
元数据
DSS的元数据
36:.

数据粒度
粒度是对数据仓库中数据的综合程度高低的
一个度量,它即影响数据仓库中数据量的多少,
也影响数据仓库所能回答的查询种类。
粒度代表数据的细节化程度,粒度越大,数据
的汇总程度越高。
事务级数据的粒度最小,它是汇总型数据的数
据源。
数据仓库中数据的粒度取决于数据仓库的类型。
37:.

-粒度与分割-粒度与分割
一种特殊形式的粒度—样本数据库的采样粒度
样本DB是根据需求从源数据中获得的一个抽样,可代
替源数据进行分析。在源数据量很大的情况下,抽样
数据量可大大下降,量越大,下降比例也越大,但分
析结果的误差极小。样本DB的高效率是显而易见的,
但不能回答细节性问题。
样本DB的粒度级别是根据采样率的高低来划分的,采
样粒度不同的样本DB可以有相同的综合级别,一般它
是以一定的采样率从细节数据或轻度综合数据中抽取
的一个子集,并需要定期刷新。
适用于作统计分析和观察发展趋势,当数据必须以整
体观察时,样本数据库能提供非常理想的结果
38:.

-粒度与分割-粒度与分割
数据分割
分割是指将数据分片后,分散存储到相应的
物理单元中,以便能分别独立处理,提高数据
处理效率。分割的标准可按:
时间业务领域
地理位置组织单位
多个分割标准的组合
一般的分割标准都包括日期项
39:.

-粒度与分割-粒度与分割
分割的例子:(使用了时间和保险类型作为标准)
健康保险生命保险事故保险
2007分片1分片2分片3
2008分片4分片5分片6
2009分片7分片8分片9
数据分割使数据更易于重构、索引、重组、恢
复、监控和顺序扫描。
40:.
例:对一个顾客的
一个帐号的每天的

所有活动进行综合

①简单堆积文件:将每日由DB中提取并加工的
数据逐天积累地存储起来。
②轮转综合文件:数据存储单位分为日、周、月、
年等几个级别,轮转综合存储。
11月月11日日11月月22日日11月月33日日星期一星期一星期二星期二星期日星期日
22月月11日日22月月22日日22月月33日日第第11周周第第22周周第第5252周周
33月月11日日33月月22日日33月月33日日11月月22月月1212月月
41:.

-数据组织形式-数据组织形式
③简化直接文件:按某个时间周期的数据库快照存储。
一月份顾客表一月份顾客表
姓名顾客号地址
张平C980100北京
DBDB快照快照王英C980101天津
王宾C980102上海
刘仲C980104重庆
………
42:.

-数据组织形式-数据组织形式
④连续文件:通过比较两个连续的简化直接文件
的不同,生成另一个连续文件。
一月份顾客表一月份顾客表二月份顾客表二月份顾客表
姓名顾客号地址姓名顾客号地址
张平C980100北京张平C980100北京
王英C980101天津王英C980101沈阳
王宾C980102上海王宾C980102上海
刘仲C980104重庆刘仲C980104大连
比较不同比较不同
43:.

-数据组织形式-数据组织形式
11月月--2--2月顾客表月顾客表
姓名顾客号时间地址
张平C9801001-2月北京
王英C9801011-1月天津
王英C9801012-2月沈阳
王宾C9801021-2月上海
刘仲C9801041-1月重庆
刘仲C9801042-2月大连
44:.

定期向数据仓库追加数据是十分重要的技术,
而追加技术的实现关键是变化数据的捕捉。常
用的途径有:
时标方法:若数据含有时标,则对新插入或更
新的数据记录加更新时的时标,只需根据时标
即可判断。
45:.

-数据追加-数据追加
DELTA文件:它由应用生成,记录了应用所
改变的所有内容。利用DELTA文件效率较高,
但使用不普遍。
前后映象文件:在上次抽取DB数据到DW之后
及本次将抽取DB数据之前,对DB分别作一次
快照,比较两幅快照的不同,从而确定实现
DW追加的数据。
日志文件:是DB固有机制,即不影响OLTP性
能,还有DELTA文件优点,是最可取的技术。
46:.
第一章数据仓库技术概述

47:.

DB体系化环境由两部分组成:
操作型处理环境(各面向应用的OLTPDB)
分析型处理环境(各级面向主题的DW)
这是一个企业或组织内比较理想的数据环境,
能建设或进行企业或部门从联机事务处理到企
业管理决策的所有应用。
48:.

分析要求千差万别,一个单一层次的数据仓库
不能满足所有的分析需求。一个好的解决方案:
建立分层的数据仓库。
全局级全局级部门级部门级个人级个人级
操作型环境数据仓库数据集市个人仓库
49:.

体系化环境的层次反映了数据与应用逻辑的抽
象程度:
操作型环境:数据与事务处理逻辑捆绑在一
起,有利于提高事务处理的效率。
数据仓库(全局):数据组织的应用逻辑独立
性最强,其抽象程度最高。
数据集市与个人仓库:数据组织与分析处理
逻辑结合起来,有利于提高分析效率。
50:.

数据集市是数据仓库中数据的一个的子集,用
于解决某个业务部门特定的应用需求。
如果数据仓库是整个企业组织的所有主题数据
的存储区,那么数据集市就是某一个主题数据
的存储领域。
数据集市即是数据仓库的一种实现,也是实现
数据仓库的重要过程,同时提供了分布式数据
仓库的思想。
51:.
第一章结束
52

数据仓库 第一章.pdf

数据仓库 第一章.pdf

数据仓库第一章.pdf

数据仓库第一章.pdf