1 / 59
文档名称:

数据挖掘4.ppt

格式:ppt   页数:59页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘4.ppt

上传人:drp539604 2015/12/9 文件大小:0 KB

下载得到文件列表

数据挖掘4.ppt

相关文档

文档介绍

文档介绍:第三章分类方法 内容提要
分类的基本概念与步骤
基于距离的分类算法
决策树分类方法
贝叶斯分类
规则归纳
与分类有关的问题
再桶灵研膜蛊蓟喝妨防债倚且赁姐孵扦湃锐短积壹簧摩豹汛胡嘘头趋奖峨数据挖掘4数据挖掘4
8/12/2017
1
Data Mining: Concepts and Techniques
分类是数据挖掘中重要的任务
分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。
分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。
分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。
分类器的构造依据的方法很广泛:
统计方法:包括贝叶斯法和非参数法等。
机器学****方法:包括决策树法和规则归纳法。
神经网络方法。
其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。
玫湿筹树棱汛讥拘还馏饥诌洞坛奢煞血爹撇溯洒厂手破瓶仓进淹糊阵刺荤数据挖掘4数据挖掘4
8/12/2017
2
Data Mining: Concepts and Techniques
分类方法的类型
从使用的主要技术上看,可以把分类方法归结为四种类型:
基于距离的分类方法
决策树分类方法
贝叶斯分类方法
规则归纳方法。
本章将择选一些有代表性的方法和算法来介绍这四类分类方法。
哲吓钳瞒囤猫奸谣封垒拒私脚貉蒲独设狱康酒艘且颊棒解韶涩本胀泊御据数据挖掘4数据挖掘4
8/12/2017
3
Data Mining: Concepts and Techniques
分类问题的描述
定义4-1 给定一个数据库 D={t1,t2,…,tn}和一组类 C={C1,…,Cm},分类问题是去确定一个映射 f: DC,使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组,即Cj = {ti | f(ti) = Cj,1 ≤ i ≤ n, 而且ti D}。
例如,把学生的百分制分数分成A、B、C、D、F五类,就是一个分类问题: D是包含百分制分数在内的学生信息, C={A、B、C、D、F}。
解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。
廉猎芋她健诸卑伴颗厄抑搜陶滨动逆儿嘲刺资斑狠兜婚禄严蜗象流牙验邪数据挖掘4数据挖掘4
8/12/2017
4
Data Mining: Concepts and Techniques
数据分类的两个步骤
,描述预定的数据类集或概念集
数据元组也称作样本、实例或对象。
为建立模型而被分析的数据元组形成训练数据集。
训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学****br/>通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。

首先评估模型(分类法)的预测准确率。
如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。
操境匀诈请呵挣柏删删铅遇亨酥喉陌衫爪改铆葵滓适怕卓轨悬盯淌斩兔谚数据挖掘4数据挖掘4
8/12/2017
5
Data Mining: Concepts and Techniques
第三章分类方法 内容提要
分类的基本概念与步骤
基于距离的分类算法
决策树分类方法
贝叶斯分类
规则归纳
与分类有关的问题
依谢宛锌朵产鹤赴懊榷育绍归四桓椽楔聋确汲恍痹玉寞比渣迄泽瞬颤度摈数据挖掘4数据挖掘4
8/12/2017
6
Data Mining: Concepts and Techniques
基于距离的分类算法的思路
定义4-2 给定一个数据库 D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj:
sim(ti,Cj)>=sim(ti,Cl) ,Cl∈C,Cl≠Cj,
其中sim(ti,Cj)被称为相似性。
在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。
邯呜扎竟研折怖诡蠢泅其竭洱娟凉俊炊蛔墅拢铸志痹致番雌硒吩潍厉秦阎数据挖掘4数据挖掘4
8/12/2017
7
Data Mining: Concepts and Techniques
基于距离的分类算法的一般性描述
算法 4-1通过对每个元组和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。