1 / 23
文档名称:

数据挖掘.ppt

格式:ppt   大小:141KB   页数:23页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘.ppt

上传人:文库旗舰店 2020/12/10 文件大小:141 KB

下载得到文件列表

数据挖掘.ppt

相关文档

文档介绍

文档介绍:数据挖掘
数据挖掘和知识发现的兴起
(1) 80年在美国召开了第一届国际机器学****研讨会;
(2) 89年8月于美国底特律市召开的第一届KDD国
际学术会议;
(3) 95年在加拿大召开了第一届知识发现和数据挖掘国际学术会议;
(4) 我国于87年召开了第一届全国机器学****研讨会。
数据挖掘(DM)与知识发现(KDD)
知识发现(KDD):从数据中发现有用知识的整个过程。
数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算
法从数据中抽取模式(patterns)。
KDD过程定义:
从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。
“模式”可以看成是“知识”的雏形,经过验证、完善后形成知识。
数据源
数据
数据集成
目标数据
预处理后
数据
转换数据
模式
知识
数据选择
预处理
数据挖掘
数据转换
结果表达和解释
数据准备
数据挖掘
结果表达和解释
KDD过程
数据挖掘(DM)任务
数据挖掘任务有六项:关联分析、时序模式、聚类、分类、
偏差检测、预测。
关联分析
若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。

时序模式
通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。
聚类:在数据库中找出一系列有意义的子集,即类。

分类:对数据库中的类,找出该类别的概念描述规则。

偏差检测: 在数据库中找出异常数据。
预测:利用历史数据找出变化规律的模型,并用此模型
预测未来。
数据挖掘任务(续)
数据挖掘(DM)方法 (一)
(一)归纳学****方法
分为两大类:信息论方法(决策树方法)和集合论方法。
1、信息论方法(决策树方法)
利用信息论的原理建立决策树或者是决策规则树。
(1)ID3方法
Quiulan研制的ID3方法是利用信息论中互信息建立决策树。
(2)IBLE方法
我们研制的IBLE方法,是利用信息论中信道容量,寻找数据
库中信息量大的多个字段的取值建立决策规则树。
数据挖掘(DM)方法 (二)
2、集合论方法
(1)覆盖正例排斥反例方法
它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。
比较典型的有AQ11方法,AQ15方法以及AE5方法。
(2)概念树方法
对数据库中属性字段建立具有层次结构的概念树,
利用概念树提升的方法可以大大浓缩数据库中的记录。
(3)粗集(Rough Set)方法
对数据库中的条件属性集与决策属性集建立上下近似关系,
对下近似集合建立确定性规则,对上近似集合建立不确定性
规则(含可信度) 。
数据挖掘(DM)方法 (三)
(二)仿生物技术
仿生物技术典型的方法是神经网络方法和遗传算法。
1、神经网络方法
包括:前馈式网络、反馈式网络、自组织网络等多个神经
网络方法。
2、遗传算法
这是模拟生物进化过程的算法。它由三个基本算子组成:
繁殖(选择)、交叉(重组)、变异(突变)
遗传算法起到产生优良后代的作用,经过若干代的遗传,
将得到满足要求的后代(问题的解)。
(三)公式发现
在工程和科学数据库中对若干数据项(变量) 进行一定的数 学运算,求得相应的数学公式。
1.物理定律发现系统BACON
BACON发现系统完成了物理学中大量定律的重新发现。
2.经验公式发现系统FDD
我们研制了FDD发现系统,寻找由数据项的初等函数或复合 函数组合成的经验公式。
数据挖掘(DM)方法 (四)