1 / 89
文档名称:

ch14数据仓库与数据挖掘.ppt

格式:ppt   大小:821KB   页数:89页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ch14数据仓库与数据挖掘.ppt

上传人:孔乙己 2022/5/20 文件大小:821 KB

下载得到文件列表

ch14数据仓库与数据挖掘.ppt

文档介绍

文档介绍:ch14数据仓库与数据挖掘
Ch14. 2. 数据仓库
(1)概述
1)数据仓库的定义
现对数据仓库定义中的4个特性作进一步解释:
主题性:传统的操作型数据库系统都是围绕某一企事业单位的应用来组织数据的,而数据仓库系统则是用于决策分点的各维-值对来聚集数据,即计算该点的度量值。度量可以根据所用的聚集函数而分成三类:
①分配型:假设数据划分为n个集合,函数在每一部分上计算得到一个聚集值。如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的数据一样,则该函数就是一种分配型的计算。例如:计算Count()可以这样计算,先将数据立方体分割为若干个子立方体的集合,对每个子立方体计算Count(),然后求和。这样,Count()就是分配型的聚集函数。同理,Sum(),Min(),Max()也是分配型聚集函数。
②代数型:如果能够由一个具有M个参数的代数函数计算(其中M是一个有界整数),而每个参数都可由一个分配型聚集函数求得,则称这种计算是代数型的。例如,Avg()可由Sum()/Count()计算,其中Sum()与Count()都是分配型聚集函数。类似地,min_N(),max_N()等也都是代数型聚集函数。
③整体型:整体型聚集函数既不满足分配型,也不满足代数型,例如取中位数(一组数的位数数是指数据按大小排序后,取居中的一个数,若有偶数个数,则取居中两数的平均值)就是一个整体型聚集函数。
概念分层——数据模式中有一个概念分层的问题,概念分层是一个映射序列,对于数据模式来说,隐含有概念分层的问题,例如,商品维表中的小类大类,商店维表中的市名省名,如期维表中的日月季度年。数据模式中的概念分层,为数据管理的分析综合提供了方便。
Date
18
数据库教程(沈--)
Ch14. 2. 数据仓库
3)构建数据仓库的步骤
与数据库系统中数据库设计过程相类似,数据仓库的构建要按一定的步骤进行,构建数据仓库一般有两个主要步骤:①数据准备阶段;②数据仓库模式设计阶段。
①数据准备阶段:主要是ETL(抽取、转换、装载),数据抽取是指从异构多数据源中围绕主题选取相关的数据,并要对这些数据进行清理,消除噪声和不一致数据,并完成集成过程中的转换,使数据具有集成性,表示方式一致,并转换为适合聚集操作的有关形式。经过数据转换阶段的工作,才能将数据源装载到数据仓库中。
②数据仓库模式设计阶段:面对实际应用问题,如何面向主题进行数据仓库设计(采用多维数据模型设计星型、雪花等数据模式)是一个用户、数据仓库技术人员共同合作要完成的一个重要工作,有较大的难度。
Date
19
数据库教程(沈--)
Ch14. 2. 数据仓库
设计方法通常有三种:自顶向下(Top-Down),自底向上(Bottom-Up),混合方法。
自顶向下方法——由总体规划与设计开始,当对必须解决的业务应用问题比较清楚,已掌握成熟的技术,可采用这种方法。首先,建立企业级的数据仓库:对已所要抽取的操作型数据库细工和其它数据,使用集中模式,一次数据重构,将冗余与不一致尽量减少,构建全局性的企业数据仓库;然后,围绕部门主题,建立数据集市(Data Mart)。
自底向上方法——从实验与原型开始,先建部门数据集市,然后扩大到企业数据仓库。首先,局限在一定的主题范围,本部门自治设计,建立部门局部的数据集市;然后,在若干个数据集市建成后,去除冗余与不一致性,将创建企业数据仓库作为首期目标。
混合方法——可以认为是上面两种方法的混合,既能利用自顶向下方法有计划的战略性特点,由能保持自底向上方法快速实现与较快应用的优点。
Date
20
数据库教程(沈--)
Ch14. 2. 数据仓库
(3)OLAP技术
1)概述
2)多维分析技术
3)OLAP操作语言
1)概述
OLAP的由来——传统的关系数据库应用系统,是一种面向操作型数据的环境,处理对象是确定的业务数据,目的是解决特定业务处理问题。例如,典型计费系统、航班售票系统等。这种系统的数据时效性强,需及时更新数据,而大量的历史数据不得不保存到脱机的存储介质中去。那么,如何利用这些海量数据,完成面向决策分析的任务,传统的OLTP就难以胜任。这样,OLAP就应运而生,,“现在该是把哪些历史数据搬出来的时候了。”联机分析处理(OLAP)的概念,。当时,Codd认为OLTP已不能满足终端用户对数据库查询分析的需求,SQL的简单查询不能满足用户的分析需求。终端用户的决策分析,需要对大量数据经过计算而得到决策,Codd提出了多维数据模型的多维分析的概念,即出现了OLAP技术的概念。
Date
2