文档介绍::根节点,叶子节点,非叶子节点每个非叶子节点代表一个属性的划分每次划分的结果要么导致下一个的决策问题要么导致最终结论决策树通过从根节点开始沿着分支直到叶子节点结束来对样本进行分类决策树最终的结论(叶子节点)对应一个目标值3构建决策树的要素构建决策树的要素1、属性及属性值2、预定义的类别(目标值)3、充足的标记数据4训练集训练集对应三个要素5构建决策树的三个问题(3)什么时候停止并得到目标值?(1)从哪个属性开始或者说选择哪个属性作为根节点?(2)选择哪个属性作为后继节点?6决策树决策树算法的基本思想:选择最优属性划分当前样本集合并把这个属性作为决策树的一个节点不断重复这个过程构造后继节点直到满足下面三个条件之一停止:对于当前节点,所有样本属于同一类或者没有属性可以选择了或者没有样本可以划分了7属性选择决策树算法的一个关键问题:属性选择不同决策树算法的差异:属性选择方法不同下面以ID3算法为例讲解怎么构造决策树(ID3:InteractiveDichotomize3[RossQuinlan/1975])8ID3ID3依据信息增益来选择最优属性信息增益是通过信息熵计算而来信息熵衡量一个集合的纯度例如:集合1:10个好瓜集合2:8个好瓜和2个坏瓜集合3:5个好瓜和5个坏瓜纯度:集合1>集合2>集合39信息熵pi是当前集合里类别为i的样本所占的比例,则:Entropy({p1,…,pk})=-sum(pilog(pi))如果一个集合里的样本只有两个类别,那么:Entropy=-p1log(p1)-(1-p1)log(1-p1)当集合里的所有样本都属于同一类时,信息熵是0例如:集合1:10个好瓜当集合里所有样本均匀混合时,信息熵是1例如:集合2:5个好瓜,5个坏瓜p1=1orp1=0p1=