1 / 41
文档名称:

数据仓库,联机分析处理,数据挖掘.ppt

格式:ppt   大小:1,220KB   页数:41页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库,联机分析处理,数据挖掘.ppt

上传人:相惜 2021/6/29 文件大小:1.19 MB

下载得到文件列表

数据仓库,联机分析处理,数据挖掘.ppt

相关文档

文档介绍

文档介绍:数据仓库,联机分析处理,数据挖掘 Data Warehousing, OLAP, and Data Mining
.
数据仓库 : 一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程。
OLAP 与 数据挖掘工具 : 是两种主要的分析工具,提供给决策者对数据进行分析,以针对分析结果做出决策。
概要
.
数据仓库的引出
(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。
,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。
,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehose)。
.
数据仓库的定义与基本特性
1. 数据仓库的定义
William 《Building the DataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为:
a data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.
一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。
.

a) subject-oriented(面向主题性)
面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。
从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。
从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。
.
数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。
b) integrated (数据集成性)
数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。
.
也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。
源数据加载到数据仓库后,还要根据决策分析的
需要对这些数据进行概括、聚集处理。
.
数据仓库的时变性,就是数据应该随着时间的推移而变化。
c) time-variant 数据的时变性
尽管数据仓库中的数据并不像业务数据库那样反
映业务处理的实际状况,但是数据也不能长期不
变,如果依据10前的数据进行决策分析,那决策
所带来的后果将是十分可怕的。
.
因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。
例如,如果分析企业近几年的销售情况,那快照 可以每隔一个月生成一次;如果分析一个月的畅销产品,那快照生成间隔就需要每天一次。
.
d) non-volatile 数据的非易失性
数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。
.