文档介绍:决策树学****br/>北京理工大学珠海学院计算机学院
2017-10-16
主要内容
决策树基本概念
决策树算法
决策树研究问题
分类问题
分类(Classification)任务就是通过学****获得一个目标函数
(Target Function)f, 将每个属性集x映射到一个预先定义好的类
标号y。
分类任务的输入数据是记录的集合,每条记录也称为实例
或者样例。用元组(X,y)表示,其中,X 是属性集合,y是一个
特殊的属性,指出样例的类标号(也称为分类属性或者目标属性)
关于分类问题
名称
体温
表皮覆盖
胎生
水生动物
飞行动物
有腿
冬眠
类标号
人类
恒温
毛发
是
否
否
是
否
哺乳动物
海龟
冷血
鳞片
否
半
否
是
否
爬行类
鸽子
恒温
羽毛
否
否
是
是
否
鸟类
鲸
恒温
毛发
是
是
否
否
否
哺乳类
X
y
分类与回归
分类目标属性y是离散的,回归目标属性y是连续的
解决分类问题的一般方法
分类技术是一种根据输入数据集建立分类模型的系统方法。
分类技术一般是用一种学****算法确定分类模型,该模型可以很好
地拟合输入数据中类标号和属性集之间的联系。学****算法得到的
模型不仅要很好拟合输入数据,还要能够正确地预测未知样本的
类标号。因此,训练算法的主要目标就是要建立具有很好的泛化
能力模型,即建立能够准确地预测未知样本类标号的模型。
分类方法的实例包括:决策树分类法、基于规则的分类法、
神经网络、支持向量级、朴素贝叶斯分类方法等。
解决分类问题的一般方法
通过以上对分类问题一般方法的描述,可以看出分类问题
一般包括两个步骤:
1、模型构建(归纳)
通过对训练集合的归纳,建立分类模型。
2、预测应用(推论)
根据建立的分类模型,对测试集合进行测试。
解决分类问题的一般方法
TID
A1
A2
A3
类
1
Y
100
L
N
2
N
125
S
N
3
Y
400
L
Y
4
N
415
M
N
学****算法
学****模型
模型
应用模型
TID
A1
A2
A3
类
1
Y
100
L
?
2
N
125
S
?
3
Y
400
L
?
4
N
415
M
?
训练集(类标号已知)
检验集(类标号未知)
归纳
推论
决策树
决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。
本质上决策树是通过一系列规则对数据进行分类的过程。
1、推理过程容易理解,决策推理过程可以表示成If Then形式;
2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性
变量的重要性,减少变量的数目提供参考。
决策树的优点