文档介绍:该【分类和回归树cart教学 】是由【相惜】上传分享,文档一共【28】页,该文档可以免费在线阅读,需要了解更多关于【分类和回归树cart教学 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。分类和回归树(CART)
李保坤老师
西南财经大学
统计学院
整理课件
本节内容提要
CART算法
关于混杂度
--基尼指数
--二分指数
剪枝
CART对缺失值的处理
整理课件
CART算法
分类和回归树(ClassificationandRegressionTrees,CART)
有时被写作C&RT
Breiman,L.,,,
,
,CA:Wadsworth.
整理课件
CART算法–概览
二叉树算法
把数据递进划分为两个子集,每一个子集的记录会更纯
这一算法把误分类代价、先验概率、成本-复杂性剪枝
整理课件
CART算法
,使得其每一个子集(子节点)的数据比父节点的数据更“纯”一些。CART用一个混杂度测度i(t)来测量一个划分的节点数据的混杂度。
整理课件
CART算法
,把pR比率的数据送到右子节点tR,在节点t的划分s降低的混杂度被定义为:
整理课件
CART算法
(即,全部训练数据)t=1,在所有可能的划分中选择一个划分s*,该划分导致混杂度的最大降低。
s*把节点t=1划分为t=2和t=3两个子节点。
整理课件
CART算法
。
。
整理课件
混杂度的几个测度
目标变量是类别变量(名义)
–基尼指数(GiniIndex)
–二分指数(TwoingIndex)
目标变量是类别变量(有序)
–有序二分指数(OrderedTwoing)
目标变量是连续变量
–最小平方偏差(Least-SquaredDeviation)
整理课件
混杂度:基尼指数
如果一个数据集合T的观测记录里包括n个类别,基尼指数的定义如下:
其中
是节点t的类别j的相对比例
整理课件