1 / 52
文档名称:

数据仓库 第一章.pdf

格式:pdf   大小:7,431KB   页数:52页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库 第一章.pdf

上传人:十二官 2023/2/9 文件大小:7.26 MB

下载得到文件列表

数据仓库 第一章.pdf

文档介绍

文档介绍:该【数据仓库 第一章 】是由【十二官】上传分享,文档一共【52】页,该文档可以免费在线阅读,需要了解更多关于【数据仓库 第一章 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:.
数据仓库与数据挖掘
中国科学技术大学商学院:.
课程内容简介:
第一部分:数据仓库技术
数据仓库概念
数据仓库设计
操作数据存储
多维数据模型
联机分析处理
2:.
课程内容简介:
第二部分:数据挖掘概念与技术
数据挖掘概念
概念描述
关联规则
分类和预测
聚类分析
数据挖掘应用实例
3:.
第一章数据仓库技术概述




4:.

传统的数据环境:以数据库为中心,数据资源
组织方式单一。
数据处理不断有新需求,从事务处理,批处理
到决策分析等,且不同类型的数据处理有不同
的处理特点。
人们认识到:当数据处理方式发生变化,而数
据组织方式并没有改变时,就会出现数据处理
方式和数据环境不相适应,从而使得数据处理
不能获得理想的结果。
结论:以单一的数据组织方式进行组织的数据
库,不能满足数据处理多样化的要求,数据仓
库技术应运而生。
5:.

数据处理具有多层次的特点,可分为两大类:
操作型处理
对数据库联机的日常操作,通常是对一个
或一组记录的查询或修改,主要为企业的特定
应用服务。它采用实时或在线的方式处理数据
库,人们关心的是响应时间,数据的安全性和
完整性。
6:.

分析型处理
用于管理人员的决策分析,经常要访问大量
的历史数据,而很少对数据库进行写操作,除
非对数据库进行更新或装入时。人们希望从中
获得跟公司经营效益紧密相关的信息。
两种不同类型的数据处理存在巨大差异,从应
用的对象到数据的结构、内容和用法都不相同。
具体表现在:
7:.

(1)事务处理和分析处理的性能特征不同
事务处理环境:用户的行为特点是数据的存取
操作频率高,而每次操作处理的时间短。因此
系统可以允许多个用户按分时方式使用系统资
源,同时保持较短的响应时间。
分析处理环境:用户的行为模式与上面完全不
同,一个分析处理程序可能要连续运行几个小
时,从而消耗大量系统资源。
8:.

【例】
在OLTP系统中,事务的吞吐量比率通常使用
每秒钟完成的数据处理数TPS或TPM来表示。
在DSS中,吞吐量通常用每小时处理的查询数
QPH来表示。这些查询数量庞大,在它完成
前,占用绝大部分机器资源。
一个OLTP系统即使很大,也不过300GB左右,
而一个大型DSS的规模可以轻易达到1TB。
(1TB=1000GB)
9:.

(2)数据集成问题
事务处理:目的在于使业务处理自动化,一般
只需要与本部门业务相关的当前数据,而对整
个企业范围内的集成应用考虑很少。
分析处理:需要集成的数据,不仅需要整个企
业内部各部门的相关数据,还需要企业外部、
竞争对手等处的相关数据。
10:.

当前绝大多数企业内部数据的真正状况是分散
而非集成的,主要原因:
事务处理应用的分散
“蜘蛛网”问题
数据不一致问题
外部数据和非结构化数据
11:.

(3)数据动态集成
静态集成:对所需数据一次性集成,之后就一
直以此集成数据做为分析基础,不再与数据源
发生联系。它最大缺点在于:当数据源发生变
化(集成后),而这些变化不能反映给决策者,
导致决策者使用的是过时的数据。
动态集成:集成数据以一定的周期进行刷新。
OLTP不具备动态集成,而分析处理需要数据
的动态集成。
12:.

(4)历史数据问题
事务处理:一般只需当前数据。数据库中也只
存储短期数据,并且不同数据保存期也不相同。
即使有历史数据保存,也不利用。
分析处理:对决策者而言,历史数据相当重要,
许多分析方法必须以大量历史数据为依托,没
有对历史数据的详细分析,很难把握企业的发
展趋势。
13:.

(5)数据的综合问题
事务处理积累了大量的细节数据,一般DSS不
对细节数据分析。一是细节数据量大,严重影
响分析效率;二是太多的细节数据不利于分析
人员将注意力集中在有用信息上。因此,分析
处理前经常要综合,而事务处理系统不具备这
种综合能力。
14:.
第一章数据仓库技术概述




15:.

数据仓库系统构造方面的领头设计师
:
数据仓库是面向主题的、集成的、具有时间特
征的、稳定的数据集合,用于支持经营管理中
的决策制定过程。
SAS软件研究所的观点:
数据仓库是一种管理技术,旨在通过通畅、合
理、全面的信息管理达到有效的决策支持。
16:.

从定义可看出:DW是明确为决策支持服务,
而DB是为事务处理服务。
前面简短而又全面的定义指出了数据仓库的主
要特征,四个关键词:面向主题的、集成的、
时变的、稳定的,将数据仓库与其他数据存储
系统相区别。
下面讨论数据仓库的关键特征:
17:.


主题是一个在较高层次将数据归类的标准,每
一个主题基本对应一个宏观的领域,基于主题
组织的数据被划分为各自独立的领域,每一个
领域都有自己的逻辑内容而互不相交。
18:.

--DWDW的数据是面向主题的的数据是面向主题的
面向应用的数据经常会随着各种经营环境的改
变而发生变化,面向主题的数据则因为比应用
具有更高的抽象层次而比较稳定。
但数据的产生都是基于应用而产生,因此数据
在进入数据仓库之前,必然要经过加工和集成,
将原始数据结构做一个从面向应用到面向主题
的大转变。
19:.

--DWDW的数据是面向主题的的数据是面向主题的
【例】一家采用“会员制”经营方式的商场,按业
务建立起若干子系统,并按业务处理要求建立各
自数据库模式:
采购子系统:
订单(订单号,供应商号,总金额,日期)
订单细则(订单号,商品号,类别,单价,数量)
供应商(供应商号,供应商名,地址,电话)
销售子系统:
顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)
销售(员工号,顾客号,商品号,数量,单价,日期)
20:.

--DWDW的数据是面向主题的的数据是面向主题的
人事管理子系统:
员工(员工号,姓名,性别,年龄,文化程度,部门号)
部门(部门号,部门名称,部门主管,电话)
库存管理子系统:
领料单(领料单号,领料人,商品号,数量,日期)
进料单(进料单号,订单号,进料人,收料人,日期)
库存(商品号,库房号,库存量,日期)
库房(库房号,仓库管理员,地点,库存商品描述)
21:.

--DWDW的数据是面向主题的的数据是面向主题的
传统的面向应用进行数据组织方式的特征为:
重点在“数据”和“处理”;
通常要反映一个企业内数据的动态特征;
所生成的各项数据库模式与企业实际的业务处
理流程中所涉及的单据及文档,有很好的对应
关系;
并没有真正体现数据与数据处理的分离。
22:.

--DWDW的数据是面向主题的的数据是面向主题的
面向应用到面向主题的转变:
面向主题的数据组织方式应分为两个步骤:
抽取主题
确定每个主题所包含的数据内容
仍以商场为例,它所应有的主题包括:商品、
供应商、顾客。每个主题有各自独立的逻辑内
涵,对应一个分析对象。
23:.

--DWDW的数据是面向主题的的数据是面向主题的
商品:
商品固有信息:商品号,商品名,类别,颜色等
商品采购信息:商品号,供应商号,供应价,供
应日期,供应量等
商品销售信息:商品号,顾客号,售价,销售日
期,销售量等
商品库存信息:商品号,库房号,库存量,日期

24:.

--DWDW的数据是面向主题的的数据是面向主题的
供应商:
供应商固有信息:供应商号,供应商名,地址,
电话等。
供应商品信息:供应商号,供应价,供应日期,
供应量等。
顾客:
顾客固有信息:顾客号,顾客名,性别,年龄,
文化程度,住址,电话等。
顾客购物信息:顾客号,商品号,售价,购买日
期,购买量等。
25:.

--DWDW的数据是面向主题的的数据是面向主题的
从面向应用面向主题
丢弃了原来不必要,不适合分析的信息。
将分散在各子系统中的有关主题的信息集成,
形成关于商品的一致信息。
不同主题之间也有重叠的内容,但只是逻辑上
的重叠,细节级上的重叠,另外主题间并不
是两两重叠。
商品
供应商顾客
26:.

--DWDW的数据是面向主题的的数据是面向主题的
主题的实现:
一个主题可划分成多个表,基于一个主题的所
有表都有一个公共码,作为主码的一部分,将
各表统一起来,体现它们是属于一个主题。
例如实现商品主题:
27:.
描述的是商品

的固有信息
--DWDW的数据是面向主题的的数据是面向主题的
主题:商品描述的是商品
的采购细节信
公共码键:商品号

商品表(商品号,商品名,类型,颜色,…)
采购表1(商品号,供应商号,供应日期,供应价,
…)
采购表2(商品号,时间段,采购总量,…)
:
采购表n(商品号,时间段,采购总量,…)
时间段不等的
采购综合表
28:.

--DWDW的数据是面向主题的的数据是面向主题的
销售表1(商品号,顾客号,销售日期,售价,
销售量,…)
销售表2(商品号,时间段,销售总量,…)
:
销售表n(商品号,时间段,销售总量,…)
库存表1(商品号,库房号,库存量,日期,…)
库存表2(商品号,库房号,库存量,月份,…)
:
库存表n(…,…)
29:.

--DWDW的数据是面向主题的的数据是面向主题的
面向主题的数据组织方式:
根据分析要求将数据组织成主题域,即要具有:
独立性:可交叉,但必须具有独立内涵
完备性:能在主题内找到该分析处理所
要求的一切内容
30:.


通常,构造数据仓库是将多个异种数据源(如关
系DB、一般文件和联机事务处理记录)集成在一起,
使用数据清理和数据集成技术,确保命名约定、
编码结构、属性度量等的一致性。
统一源数据中所有矛盾之处
主要做两个工作
进行数据综合和计算
31:.


数据仓库主要供企业决策分析使用,包括大量
历史数据,数据经集成进入DW后极少或根本
不更新。所以通常它只需要两种数据访问:
数据的初始装入
数据访问
因此数据仓库不需要事务处理、恢复和并发控
制机制。
32:.


数据仓库的数据不可更新是针对应用而言,它
随时间而发生变化的特征体现在:
数据仓库随时间变化不断增加新内容;
数据仓库随时间变化不断删除旧内容;
数据仓库随时间变化不断重新综合数据。
数据仓库的关键结构都隐式或显式地包含时间
元素。
33:.
第一章数据仓库技术概述




34:.


1990-1996
高度综合级高度综合级
每月销售表
1990-1996
轻度综合级轻度综合级
每周销售表
元数据
1990-1996
当前细节级当前细节级
销售情况表
1985-1990
早期细节级早期细节级
销售明细表
35:.

可看出:数据仓库中存在不同的综合级别,称
为“粒度”
数据仓库中数据级别的划分是根据粒度进行的
元数据是“关于数据的数据”,在数据仓库环
境中,主要有两种元数据:
为了从操作环境向DW环境转换而建立的
元数据
DSS的元数据
36:.


数据粒度
粒度是对数据仓库中数据的综合程度高低的
一个度量,它即影响数据仓库中数据量的多少,
也影响数据仓库所能回答的查询种类。
粒度代表数据的细节化程度,粒度越大,数据
的汇总程度越高。
事务级数据的粒度最小,它是汇总型数据的数
据源。
数据仓库中数据的粒度取决于数据仓库的类型。
37:.

-粒度与分割-粒度与分割
一种特殊形式的粒度—样本数据库的采样粒度
样本DB是根据需求从源数据中获得的一个抽样,可代
替源数据进行分析。在源数据量很大的情况下,抽样
数据量可大大下降,量越大,下降比例也越大,但分
析结果的误差极小。样本DB的高效率是显而易见的,
但不能回答细节性问题。
样本DB的粒度级别是根据采样率的高低来划分的,采
样粒度不同的样本DB可以有相同的综合级别,一般它
是以一定的采样率从细节数据或轻度综合数据中抽取
的一个子集,并需要定期刷新。
适用于作统计分析和观察发展趋势,当数据必须以整
体观察时,样本数据库能提供非常理想的结果
38:.

-粒度与分割-粒度与分割
数据分割
分割是指将数据分片后,分散存储到相应的
物理单元中,以便能分别独立处理,提高数据
处理效率。分割的标准可按:
时间业务领域
地理位置组织单位
多个分割标准的组合
一般的分割标准都包括日期项
39:.

-粒度与分割-粒度与分割
分割的例子:(使用了时间和保险类型作为标准)
健康保险生命保险事故保险
2007分片1分片2分片3
2008分片4分片5分片6
2009分片7分片8分片9
数据分割使数据更易于重构、索引、重组、恢
复、监控和顺序扫描。
40:.
例:对一个顾客的
一个帐号的每天的

所有活动进行综合

①简单堆积文件:将每日由DB中提取并加工的
数据逐天积累地存储起来。
②轮转综合文件:数据存储单位分为日、周、月、
年等几个级别,轮转综合存储。
11月月11日日11月月22日日11月月33日日星期一星期一星期二星期二星期日星期日
22月月11日日22月月22日日22月月33日日第第11周周第第22周周第第5252周周
33月月11日日33月月22日日33月月33日日11月月22月月1212月月
41:.

-数据组织形式-数据组织形式
③简化直接文件:按某个时间周期的数据库快照存储。
一月份顾客表一月份顾客表
姓名顾客号地址
张平C980100北京
DBDB快照快照王英C980101天津
王宾C980102上海
刘仲C980104重庆
………
42:.

-数据组织形式-数据组织形式
④连续文件:通过比较两个连续的简化直接文件
的不同,生成另一个连续文件。
一月份顾客表一月份顾客表二月份顾客表二月份顾客表
姓名顾客号地址姓名顾客号地址
张平C980100北京张平C980100北京
王英C980101天津王英C980101沈阳
王宾C980102上海王宾C980102上海
刘仲C980104重庆刘仲C980104大连
比较不同比较不同
43:.

-数据组织形式-数据组织形式
11月月--2--2月顾客表月顾客表
姓名顾客号时间地址
张平C9801001-2月北京
王英C9801011-1月天津
王英C9801012-2月沈阳
王宾C9801021-2月上海
刘仲C9801041-1月重庆
刘仲C9801042-2月大连
44:.


定期向数据仓库追加数据是十分重要的技术,
而追加技术的实现关键是变化数据的捕捉。常
用的途径有:
时标方法:若数据含有时标,则对新插入或更
新的数据记录加更新时的时标,只需根据时标
即可判断。
45:.

-数据追加-数据追加
DELTA文件:它由应用生成,记录了应用所
改变的所有内容。利用DELTA文件效率较高,
但使用不普遍。
前后映象文件:在上次抽取DB数据到DW之后
及本次将抽取DB数据之前,对DB分别作一次
快照,比较两幅快照的不同,从而确定实现
DW追加的数据。
日志文件:是DB固有机制,即不影响OLTP性
能,还有DELTA文件优点,是最可取的技术。
46:.
第一章数据仓库技术概述




47:.

DB体系化环境由两部分组成:
操作型处理环境(各面向应用的OLTPDB)
分析型处理环境(各级面向主题的DW)
这是一个企业或组织内比较理想的数据环境,
能建设或进行企业或部门从联机事务处理到企
业管理决策的所有应用。
48:.


分析要求千差万别,一个单一层次的数据仓库
不能满足所有的分析需求。一个好的解决方案:
建立分层的数据仓库。
全局级全局级部门级部门级个人级个人级
操作型环境数据仓库数据集市个人仓库
49:.

体系化环境的层次反映了数据与应用逻辑的抽
象程度:
操作型环境:数据与事务处理逻辑捆绑在一
起,有利于提高事务处理的效率。
数据仓库(全局):数据组织的应用逻辑独立
性最强,其抽象程度最高。
数据集市与个人仓库:数据组织与分析处理
逻辑结合起来,有利于提高分析效率。
50:.


数据集市是数据仓库中数据的一个的子集,用
于解决某个业务部门特定的应用需求。
如果数据仓库是整个企业组织的所有主题数据
的存储区,那么数据集市就是某一个主题数据
的存储领域。
数据集市即是数据仓库的一种实现,也是实现
数据仓库的重要过程,同时提供了分布式数据
仓库的思想。
51:.
第一章结束
52

最近更新

糖尿病患者的饮食指导 32页

息风化痰通络法治疗椎-基底动脉供血不足的临床.. 2页

性别对急性冠脉综合征合并应激性高血糖患者预.. 2页

急性白血病患儿MTHFR基因多态性的相关研究 2页

急性升主动脉夹层基质金属蛋白酶-2和-9及其组.. 2页

怀化市少数民族自治县传统体育在中小学的开展.. 2页

快速三维变形和绘制算法的研究与应用 2页

心肌型脂肪酸结合蛋白在急性心肌梗死早期诊断.. 2页

心房颤动对冠心病经皮冠状动脉介入治疗术后患.. 2页

颈椎X线诊断判断椎体退变 72页

青年初期心理的发展 32页

微环境中趋化因子诱饵受体基因多态对乳腺癌转.. 2页

连续性血液净化技术 62页

微囊藻毒素的生态学和血液学研究 2页

微创胸腰段侧方入路治疗骨折的解剖学研究 2页

彼德·埃森曼建筑中的“L形”研究 2页

彩色棉纤维的超微结构和化学特性研究 2页

彝人古镇文化品牌与地区文化产业发展研究 2页

当代工笔花鸟画出新之我见 2页

当代中国老年人才资源开发问题研究 2页

职业卫生培训讲义课件 35页

老年人的营养和膳食 31页

张家塔民居建筑及保护的研究 2页

张仲景治未病思想研究 2页

2024年年会庆典讲话稿(精选11篇) 19页

代理记账公司投标书模板 4页

上海市2024高考英语试卷(精校)及参考答案 11页

2024年上海中考物理试卷+答案解析 14页

用位移法计算图示刚架,求出系数项及自由项 2页

工伤事故应急预案演练方案 3页