1 / 57
文档名称:

数据挖掘相关理论方法介绍v1.0.ppt

格式:ppt   大小:2,268KB   页数:57页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘相关理论方法介绍v1.0.ppt

上传人:xunlai783 2018/9/14 文件大小:2.21 MB

下载得到文件列表

数据挖掘相关理论方法介绍v1.0.ppt

文档介绍

文档介绍:数据挖掘相关理论 方法介绍
中企开源服务产品部


数据挖掘方向
2
数据挖掘介绍
1
项目计划
3

数据挖掘介绍

什么是数据挖掘
数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。

知识发现的全过程
数据评估和展现
数据挖掘
数据收集
数据清理
数据集成
数据选择
数据变换
选择算法
建立模型
找出潜在关系
模式评估
知识表示

数据收集
数据的收集:将分布的、异构数据源中的数据如关系数据、平面数据文件等进行清洗,删除重复数据,转换成统一的标准格式、并按照一定的规则进行集成,最终建立企业数据仓库,并为下一步数据挖掘、决策分析的提供原始数据基础。
新网
华夏
世华
其他
中企
数据仓库

收集和业务需求分析
建立数据模型和数据仓库物理设计
定义数据源
选择数据仓库技术和平台
从操作型数据库中抽取、净化、和转换数据到数据仓库
选择访问报表工具
选择数据库连接软件
更新数据仓库
选择数据分析和展示软件
数据收集–建立数据仓库
建立数据仓库的全过程

数据收集–数据仓库的特征
主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象。数据仓库围绕一些卞题,如顾客、供应商、产品。面向主题的数据组织方式就是在较高层次上对分析对象数据的一个完整、统一并且一致的描述,能完整刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。.
面向主题
数据仓库的数据来源于多个异种数据源,这些数据在进入数据仓库之前要经过清理、转换、集成等步骤,变成按照统一的格式、命名规则、约束域、物理属性和度量等存储的数据。
高度集成
从数据的使用方式上看,数据仓库的数据是不可更新的,即用户只能查询和分析,而不能修改数据。
不可更新性
数据仓库的数据的不可更新是针对应用而言,即数据对用户是只读的,并不是说数据仓库中的数据永远不变,而是随时间变化定期更新。每隔一定时间,从数据源中抽取一批新的数据,经过清理转换,集成到数据仓库中,而数据仓库中原来的数据经过一定的时间间隔,以更高的层次被综合,数据超过存储期限,则从数据仓库中被删除。
随时间而变化

数据文件
其他
数据库
数据抽取模块
元数据库
设计模块
数据仓库
数据集市
数据仓库管理工具
数据收集–数据仓库系统的结构
数据源

数据收集–数据仓库系统的结构
元数据库
用于存储数据模型和元数据。其中,元数据定义了数据的意义及系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求、变化及数据时限等。
设计模块
用于为数据仓库的源数据库和目标数据库建立信息模型。因为数据进入数据仓库之前必须经过检验,排除可能隐藏的错误。为了满足决策支持和深入分析的需要,数据需经过特别的整理、加工和重新组织,才能装