1 / 64
文档名称:

7数据仓库和数据挖掘.ppt

格式:ppt   大小:2,084KB   页数:64页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

7数据仓库和数据挖掘.ppt

上传人:我是药神 2022/5/20 文件大小:2.04 MB

下载得到文件列表

7数据仓库和数据挖掘.ppt

文档介绍

文档介绍:7数据仓库和数据挖掘
财务子系统
销售商分析
产品分析
销售子系统
供应子系统
人力资源子系统
消费者分析
数据仓库
生产调度子系统
数据库
面向主题
面向事务
例如:一个保险公司的数据仓库所组织的主题结构
组织结构图
高度综合级
面向决策人员
生产线每月销售
轻度综合级
面向管理人员
中心数据库
当前细节级
销售细节级
操作型转换
早期细节级
销售细节级
子生产线每周销售
元数据
数据仓库几个重要概念
对数据仓库中数据综合程度的一个度量
粒度越高,综合程度越高,细节程度越低
粒度越低,综合程度越低,细节程度越高
将近期的、综合的、查询频率高的高粒度数据存放于磁盘、光盘等快速设备
将久远的、细节的、查询频率低的低粒度数据存放于磁带等低速设备
(1)粒度
数据仓库几个重要概念
将数据分散到各自的物理单元中,以便能分别地、独立地处理,提高效率。
数据分割时可以依据不同的标准,如日期、地域或业务领域等,也可以是它们的组合,一般按日期分割不可或缺。
数据分割后的数据单元称为分片,各个分片内的数据独立,处理和重构、监控等操作更容易。
(2)分割
数据仓库几个重要概念
是数据仓库的一个子集,只包含公司业务某一方面的数据子集。
数据集市的目标是把不同的数据提供给不同的用户。
数据集市在物理上独立,被布局在局域网的一个单独的数据服务器上,专门为某一类特定用户服务,以满足只对数据仓库中一部分数据感兴趣的用户的分析需求。
(3)数据集市DM(Data Marts)
数据仓库的主要技术
(OLAP)
(1)MOLAP
多维联机分析处理。以多维数据仓库为核心,以多维方式存储和显示数据。在多维数据存储“超立方块”的结构技术上使用各种报表技术。当用户发出请求时,从多维立方体中而不是数据仓库中取得数据,多维数据的处理速度快。
综合数据多,不能存储大量细节数据,粒度不会太细。
技术较新,处理大规模数据能力较弱等,接口不统一。
(2)ROLAP:
关系型联机分析处理,以数据仓库为核心, 不生成多维立方体,知识存储数据模型与数据仓库之间的映射关系,真正存储在数据仓库。当用户发出请求时,从数据仓库中取得数据,实时分析,增加相应时间,但是节省空间,且可以具体到细节,另外可直接应用到数据仓库系统上。
主打产品。
(3)DOLAP:桌面联机分析处理。讲联机分析要用的数据,传输并存储到用户的客户端,用户访问不受网络显示。但操作安全性和数据安全性不受保障,也不易维护,一般应用于小型项目。
(4)HOLAP:混合联机分析。折中方案,根据用户常用到的维度和测量值的分析,将它们生成多维数据库,存储于多维数据库中;与这些维度和测量值相关的详细数据,仍然以关系数据的形式保存在仓库中,既解决速度问题、存储问题,也解决了对详细数据的分析问题。

数据挖掘时高级应用,当前发展最快最活跃的技术,为决策过程提供强有力的支持。
思考:

?有何地位?
?与数据仓库的关系?

第7章 数据仓库和数据挖掘
数据仓库概述
数据挖掘概述
数据挖掘的主要技术
数据仓库和挖掘对CRM的影响
数据爆炸但知识贫乏
(1)什么是数据挖掘?
数据挖掘的定义
数据挖掘(Data Mining)是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知、潜在有用的信息,提取的知识表示为概念、规则、规律和模式等形式。挖掘对象不仅是数据库,还可能是文件系统或其他任何组织在一起的数据集合。
从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。
(2)数据与知识
数据——原始事实组成,有数值数据、图形数据、声
音数据和视觉数据等。
知识——概念、规则、模式、规律和约束等
源泉
广义知识——数据的概括性描述,反映事物共同性质
关联知识——一个事件与其他时间之间依赖或关联的知识
分类知识——同类事物具有共同的特征和不同事物之间存在差异性特征的知识
预测知识——根据时间序列性数据,用历史的和当前的数据区推测未来的数据,以时间为关键属性的关联知识
偏差性知识——对差异和极端特例的描述,揭示事物偏离常规的异常现象

数据仓库和数据挖掘的关系
数据仓库是基础,数据挖掘是高级应用
两者需整体规划、分步实施
优势
已经完成对数据抽取、清洗、转换和装载