1 / 89
文档名称:

ch-14数据仓库与数据挖掘(1).ppt

格式:ppt   页数:89页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ch-14数据仓库与数据挖掘(1).ppt

上传人:中国课件站 2011/11/16 文件大小:0 KB

下载得到文件列表

ch-14数据仓库与数据挖掘(1).ppt

文档介绍

文档介绍:第四部分新技术篇

1. 概述
2. 数据仓库
3 .数据挖掘
11/11/2017
1
数据库教程(沈--)
Ch14.
(1)数据管理的层次结构
(2)数据仓库的产生
(3)从数据仓库到数据挖掘
11/11/2017
2
数据库教程(沈--)
Ch14.
(1)数据管理的层次结构
下图不同管理层次的三类信息系统:
11/11/2017
3
数据库教程(沈--)
Ch14.
事务处理系统(TPS,Transaction Processing System)——对于基层管理人员来说,所要完成的数据管理任务基本上是针对某种业务应用来做单项性管理。对这个层次的信息系统来说,一般是掌握基层业务部门的操作信息、运行状态、完成日常管理。本书介绍的关系数据库技术,建立相应的联机事务处理系统(OLTP,Online Transaction Processing),显然能很好地完成这项任务。
管理信息系统(MIS,Management Information System)——对于中层管理人员来说,所要完成的数据管理任务是起承上启下的作用,一方面要综合有关基层部门的有关信息,另一方面要向高层领导提供相关决策信息,并落实高层领导提出的全局性总目标。本书介绍的关系数据库技术,基于OLTP建立的信息系统,信息内容适合综合化处理,也可以较好地完成任务。
决策支持系统(DSS,Decision Support System)——对于高层领导人员来说,主要的任务是制定企事业单位的总目标并提出落实总目标的方针与预算。在这一层次,数据管理的任务重要应是对数据的决策分析。目前,数据都是DBMS统一管理,企事业单位都相应建立起了操作型数据库。以下我们看到,在这种操作型数据库基础上,想要构建DSS,有很大困难,是不适合的。在这种背景下,数据仓库(Data Warehouse)技术应运而生。
11/11/2017
4
数据库教程(沈--)
Ch14.
(2)数据仓库的产生
数据管理对于高层管理人员,主要是进行决策分析。从决策分析的要求看,传统的操作型数据库,所建立OLTP系统是很不合适的。为什么呢?可从决策分析所需要数据有以下几个方面的特征来看:
面向主题:决策分析都是围绕一些主题而展开的,如销售企业,围绕顾客、供应商、产品、销售组织等主题,关注决策者关注的数据建模与分析,而不把注意力放在机构的日常操作和事务处理。对于决策分析的主题来说,所需的数据多为总结性数据,而不一定需要操作型数据库大量存放的细节数据。这也正解释高层管理人员对现行数据管理的一种批评——“数据丰富,信息贫乏”。
集成的:决策分析所需数据将是多种异构数据源,不但需要本单位的数据,也需要有关的其他单位的数据。这些数据有些来自各类数据库,有些来自文件,网获取的HTML文件。所需的数据是多种异构数据源的集成。
时变的:决策分析不但需要反映当前情况的数据(如2~3个月),还需要历史数据(通常是5~10年),以便分析变化趋势,进行决策。由于数据须在时间维上展开,数据量将是非常巨大的。
非易失的:决策分析所需的数据不一定需要及时更新,通常只需两种访问方式:数据的初始化装入和以读为主的访问。
在这样的背景下,数据仓库技术应运而生。
11/11/2017
5
数据库教程(沈--)
Ch14.
20世纪80年代中期,提出了数据仓库的概念。到底什么是数据仓库?可以有多种方式定义,很难提出一个严格的定义。. Inmon的说法作为定义:“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。
(3)从数据仓库到数据挖掘
对于构建的数据仓库,如何使用?数据仓库系统的用户界面包括的若干决策工具和接口,其中一个重要的技术就是数据挖掘(Data Mining,简称维DM,也称为知识发现KDD,Knowledge Discovery in DB and DW)。
11/11/2017
6
数据库教程(沈--)
Ch14. 2. 数据仓库
(1)概述
(2)数据仓库的建立——数据模型、数据模式
(3)OLAP技术
11/11/2017
7
数据库教程(沈--)
Ch14. 2. 数据仓库
(1)概述
1)数据仓库的定义
现对数据仓库定义中的4个特性作进一步解释:
主题性:传统的操作型数据库系统都是围绕某一企事业单位的应用来组织数据的,而数据仓库系统则是用于决策分析,要面向主题来组织数据。下图表示数据组织围绕保险公司面向主题的一个例子。
11/11