文档介绍:该【第5章 数据分类-决策树 】是由【qqqqqq】上传分享,文档一共【66】页,该文档可以免费在线阅读,需要了解更多关于【第5章 数据分类-决策树 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据仓库与数据挖掘技术(jìshù)
(xìnxī)学院
(hé ɡuó)辉 教授
第一页,共六十六页。
1
第5章 决策(juécè)树和决策(juécè)规则
引例(yǐn lì)
分类的定义
分类是指把数据样本映射到一个事先定义的类中的学习过程(guòchéng),即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
第二页,共六十六页。
2
Age
Salary
Class
30
high
c1
25
high
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1
…
…
…
描述(miáo shù)属性
类别(lèibié)属性
分类问题使用(shǐyòng)的数据集格式:
第三页,共六十六页。
3
引例(yǐn lì)
分类问题使用的数据集格式
描述属性可以(kěyǐ)是连续型属性,也可以(kěyǐ)是离散型属性;而类别属性必须是离散型属性。
连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的 ,例如属性“Age〞
离散型属性是指该属性的取值是不连续的 ,例如属性“Salary〞和“Class〞
第四页,共六十六页。
4
引例(yǐn lì)
分类问题使用的数据集格式
分类问题中使用的数据集可以表示为X={(xi,yi)|i=1,2,…,total}
xi=(xi1,xi2,…,xid) ,其中xi1,xi2,…,xid分别对应d个描述属性A1,A2,…,Ad的具体取值
yi表示数据样本(yàngběn)xi的类标号,假设给定数据集包含m个类别,则yi∈{c1,c2,…,cm},其中c1,c2,…,cm是类别属性C的具体取值
未知类标号的数据样本x用d维特征向量x=(x1,x2,…,xd)来表示
第五页,共六十六页。
5
分类问题(wèntí)概述
分类的过程(guòchéng)
分类的评价准则
第六页,共六十六页。
6
分类(fēn lèi)的过程
获取数据
预处理
分类器设计
分类决策
第七页,共六十六页。
7
分类(fēn lèi)的过程
获取数据
输入数据、对数据进行量化
预处理
去除噪声数据、对空缺值进行处理(chǔlǐ)
数据集成或者变换
分类器设计
划分数据集、分类器构造、分类器测试
分类决策
对未知类标号的数据样本进行分类
第八页,共六十六页。
8
分类的评价(píngjià)准则
给定测试(cèshì)集Xtest={(xi,yi)|i=1,2,…,N}
N表示测试集中的样本个数
xi表示测试集中的数据样本
yi表示数据样本xi的类标号
对于测试集的第j个类别,假设
被正确分类的样本数量为TPj
被错误分类的样本数量为FNj
其他类别被错误分类为该类的样本数据量为FPj
第九页,共六十六页。
9
分类的评价(píngjià)准则
精确度:代表测试集中(jízhōng)被正确分类的数据样本所占的比例
第十页,共六十六页。
10