1 / 28
文档名称:

分类和回归树CART教学.ppt

格式:ppt   大小:375KB   页数:28页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分类和回归树CART教学.ppt

上传人:相惜 2022/2/13 文件大小:375 KB

下载得到文件列表

分类和回归树CART教学.ppt

文档介绍

文档介绍:分类和回归树(CART)
李保坤老师
西南财经大学
统计学院
整理课件
本节内容提要
CART算法
关于混杂度
--基尼指数
--二分指数
剪枝
CART对缺失值的处理
整理课件
CART算法
分类和分类和回归树(CART)
李保坤老师
西南财经大学
统计学院
整理课件
本节内容提要
CART算法
关于混杂度
--基尼指数
--二分指数
剪枝
CART对缺失值的处理
整理课件
CART算法
分类和回归树(Classification and Regression Trees,CART)
有时被写作 C&RT
Breiman, L., J. H. Friedman, R. A. Oshen,
and C. J. Stone, 1984. Classification and
regression trees. Belmont, CA: Wadsworth.
整理课件
CART 算法 – 概览
二叉树算法
把数据递进划分为两个子集,每一个子集的记录会更纯
这一算法把误分类代价、先验概率、成本-复杂性剪枝
整理课件
CART算法
1. 基本思想是在每一个节点选择一个划分,使得其每一个子集(子节点)的数据比父节点的数据更“纯”一些。CART 用一个混杂度测度i(t)来测量一个划分的节点数据的混杂度。
整理课件
CART算法
2. 如果在节点t的一个划分 s 把pL比率的数据送到左子节点tL,把pR比率的数据送到右子节点tR,在节点t的划分 s 降低的混杂度被定义为:
整理课件
CART算法
3. CART 树的生长始于节点 (即, 全部训练数据) t=1, 在所有可能的划分中选择一个划分s*,该划分导致混杂度的最大降低。
s*把节点t=1 划分为t=2和 t=3 两个子节点。
整理课件
CART算法
4. 以上的划分搜索过程为每一个子节点重复使用。
5. 当所有的终止标准被满足后生长过程停止。
整理课件
混杂度的几个测度
目标变量是类别变量(名义)
– 基尼指数( Gini Index)
– 二分指数 (Twoing Index)
目标变量是类别变量(有序)
– 有序二分指数(Ordered Twoing)
目标变量是连续变量
– 最小平方偏差(Least-Squared Deviation)
整理课件
混杂度:基尼指数
如果一个数据集合T的观测记录里包括n个类别,基尼指数的定义如下:
其中
是节点t的类别j的相对比例
整理课件
混杂度:基尼指数
如果一个数据集合T被划分为两个子集合T1和T2,对应的记录数量分别是N1和N2 ,划分(split)的基尼指数被定义为:
实际上,这是两个子集的基尼指数的加权平均值
整理课件
混杂度:基尼指数
基尼指数的最大值是1-1/k,在此k是类别的数量。当观测记录在k个类别上平均分布时基尼指数就会最大
基尼指数的最小值的0,这是当所有的观测记录都属于某一个类别时会发生的情况
整理课件
混杂度:基尼指数
一个分类成功的输入变量会把观测记录中的某一个类别在节点中占多数
输入变量在这方面越成功,从根节点到子节点的基尼指数的变化量就越大
整理课件
基尼指数的变化量
对于划分s,在节点t,基尼指数的变化量可以按以下公式计算:
能实现最大变化量的划分s(即在某输入变量某个值上把节点里观测记录划分到两个子节点)将被选用
整理课件
关于混杂度示例
后面的3个片子由Dr. Hyunjoong Kim, Dept of Statistics, University of Tennessee制作
整理课件
混杂度测量:基尼指数
一个划分
数据
混杂度
整理课件
划分的优度
基尼指数的变化量:
整理课件
另一个
划分
数据
混杂度
是更好
的划分
整理课件
基尼指数的广义公式
其中
 
C(i|j)=把类别j的记录分类到类别i的错误分类代价
π(j)=类别j的先验值
整理课件
基尼指数划分的特点
• 基尼指数关注的目标变量里面最大的类,它试图找到一个划分把它和其它类别区分开来。
• 完美的系列划分将会得到k个纯粹的子节点,每一个节点对应目标变量的一个类别。
• 如果误分类代价因素被加入,基尼指数试图把代价最大的类别区分开来。
整理课件
二分指数划分的特点
•二分指数首先把目标变量的几个类别划分为2个超类别(或群),每个群加起来接近数据的一半。
•二分指数然后搜寻把这两个超级群分成子节点的划分。
整理课件
二分指数的划分方法

最近更新

2024年幼儿园毕业感言通用15篇 22页

小学教师暑假研修心得体会 13页

2024年事业单位招聘考试黑龙江省双鸭山市职业.. 22页

微波耦合器与非均匀介质谐振器的模拟与分析的.. 2页

2024年幼儿园春季月计划 11页

小学语文教研组工作总结 8页

2024年事业单位招聘考试山西省吕梁市职业能力.. 23页

微小塑料机构模内装配注塑成型关键技术研究的.. 2页

工作年终总结报告(17篇) 30页

工厂空置场地出租合同(31篇) 129页

工资集体协商要约回应书(参考样本)(3篇) 6页

师德巡回报告会心得体会(30篇) 71页

2024年事业单位招聘考试宁夏固原地区职业能力.. 22页

幼儿园六一儿童节的应急预案范文(32篇) 96页

2024年事业单位招聘考试甘肃省天水市职业能力.. 22页

总务工作计划 5页

感动高一作文 22页

家庭文明建设示范点创建情况总结 3页

2024年幼儿园教师年度考核总结(精选20篇) 58页

食品安全国家标准 GB5009系列(2022-2023版,有.. 14页

牧童之歌二声部钢琴伴奏正谱合唱曲谱 2页

大学生化学师范专业职业生涯规划书 7页

最新GB18466-2022《医疗机构水污染物排放标准.. 28页

山东大学2022年强基计划校测真题 3页

整式乘法及因式分解纯计算题100道 10页

最新施工现场临时用电安全技术规范JGJ46-2022.. 14页

前行实修法1--92 76页

地藏仪轨 17页

精益生产在万源汽车密封件制造过程中的应用研.. 65页