文档介绍:Clementine的决策树
1
.
主要内容
决策树算法概述
从学****角度看,决策树属有指导学****算法
目标:用于分类和回归
分类回归树及应用
CHAID算法及应用
QUEST算法及应用
模型的对比分析
2
决策树算法概述:基本概念
得名其分析结论的展示方式类似一棵倒置的树
根节点
叶节点
中间节点
2叉树和多叉树
3
决策树算法概述:特点
体现了对样本数据的不断分组过程
决策树分为分类树和回归树
体现了输入变量和输出变量取值的逻辑关系
逻辑比较形式表述的是一种推理规则
每个叶节点都对应一条推理规则
对新数据对象的分类预测
4
决策树算法概述:几何理解
决策树建立的过程就是决策树各个分枝依次形成的过程
决策树的每个分枝在一定规则下完成对n维特征空间的区域划分
决策树建立好后,n维特征空间会被划分成若干个小的边界平行或垂直于坐标轴的矩形区域
5
确定每一步特征空间划分标准时,都同时兼顾由此将形成的两个区域,希望划分形成的两个区域所包含的样本点尽可能同时“纯正”
6
决策树算法概述:核心问题
第一,决策树的生长
利用训练样本集完成决策树的建立过程
第二,决策树的剪枝
利用测试样本集对所形成的决策树进行精简
7
决策树算法概述:树生长
决策树的生长是对训练样本集的不断分组
分枝准则的确定涉及:
第一,如何从众多的输入变量中选择一个当前最佳的分组变量
第二,如何从分组变量的众多取值中找到一个最佳的分割点
8
决策树算法概述:树剪枝
树剪枝的原因:完整的决策树对训练样本特征的捕捉“过于精确”--- 过拟和(Overfitting)
常用的修剪技术:
预修剪(pre-pruning):用来限制决策树的充分生长。策略:
事先指定决策树生长的最大深度
事先指定树节点样本量的最小值
后修剪(post-pruning):待决策树充分生长完毕后再进行剪枝
9
决策树算法概述:树剪枝
后修剪:待决策树生长完毕,根据一定规则,剪去不具一般代表性的子树。策略:
事先指定允许的最大误差值
通常依据测试样本集剪枝
10