文档介绍:决策树
依据李峰等人的PPT改编
课件主要依据李航编写的《统计学****方法》编制,清华高校出版社
另一本参考书:《数据挖掘与数学建模》国防工业出版社 2010
决策树
决策树模型与学****br/> 特征选择
,依据信息增益准则选择最优特征。
ID
年龄
有工作
有自己的房子
信贷情况
类别
1
青年
否
否
一般
否
2
青年
否
否
好
否
3
青年
是
否
好
是
4
青年
是
是
一般
是
5
青年
否
否
一般
否
6
中年
否
否
一般
否
7
中年
否
否
好
否
8
中年
是
是
好
是
9
中年
否
是
非常好
是
10
中年
否
是
非常好
是
11
老年
否
是
非常好
是
12
老年
否
是
好
是
13
老年
是
否
好
是
14
老年
是
否
非常好
是
15
老年
否
否
一般
否
信息增益比
决策树的生成 ID3算法
,利用ID3算法建立决策树
ID
年龄
有工作
信贷情况
类别
1
青年
否
一般
否
2
青年
否
好
否
3
青年
是
好
是
5
青年
否
一般
否
6
中年
否
一般
否
7
中年
否
好
否
13
老年
是
好
是
14
老年
是
非常好
是
15
老年
否
一般
否
有自己的房子(A3)
ID
年龄
有工作
信贷情况
类别
4
青年
是
一般
是
8
中年
是
好
是
9
中年
否
非常好
是
10
中年
否
非常好
是
11
老年
否
非常好
是
12
老年
都
好
是
是
否
表1
表2
有自己的房子
是
否
是
是
否
有工作
ID
年龄
信贷情况
类别
3
青年
好
是
13
老年
好
是
14
老年
非常好
是
表3
ID
年龄
信贷情况
类别
1
青年
一般
否
2
青年
好
否
5
青年
一般
否
6
中年
一般
否
7
中年
好
否
15
老年
一般
否
表4
这里生成的决策树只用到两个特征(两个内节点),ID3算法简洁存在过拟合问题。
补充:如何解决决策树的过拟合问题
概念
缘由
解决
什么是过度拟合数据
过度拟合数据是怎么产生的
怎么去解决这个问题
补充:如何解决决策树的过拟合问题——概念
过度拟合(overfitting):假如决策树对训练样本的特征描述得“过于精确”,无法实现对新样本的合理分析,所以此时它不是一棵分析新数据的最佳决策树。一棵完全决策树能特别精确地反映训练集中数据的特征,但因失去了一般代表性而无法用于对新数据的分类或预料,这种现象一般称为“过拟合”。
定义:给定一个假设H,假如在假设空间上存在另一个假设H',使得在训练集上H的错误率差比H'小,而在测试集上H的错误率却比H'要大,那么称假设H过度拟合训练数据。
?
缘由1:样本问题
(1)样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽视了真实的输入输出间的关系;(什么是噪音数据?)
(2)样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点,等等导致抽出的样本数据不能有效足够代表业务逻辑或业务场景;
(3)建模时运用了样本中太多无关的输入变量。
缘由2:构建决策树的方法问题
在决策树模型搭建中,我们运用的算法对于决策树的生长没有合理的限制和修剪的话,决策树的自由生长有可能每片叶子里只包含单纯的事务数据或非事务数据,可以想象,这种决策树当然可以完备匹配(拟合)训练数据,但是一旦应用到新的业务真实数据时,效果是一塌糊涂。
?
针对缘由1的解决方法:
合理、有效地抽样,用相对能够反映业务逻辑的训练
集去产生决策树;
针对缘由2的主要解决方法:
剪枝:提前停止树的增长或者对已经生成的树依据一
定的规则进行后剪枝。
,