1 / 28
文档名称:

分类和回归树(CART).ppt

格式:ppt   页数:28页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分类和回归树(CART).ppt

上传人:薄荷牛奶 2014/8/15 文件大小:0 KB

下载得到文件列表

分类和回归树(CART).ppt

文档介绍

文档介绍:分类和回归树(CART)
李保坤老师
西南财经大学
统计学院
本节内容提要
CART算法
关于混杂度
--基尼指数
--二分指数
剪枝
CART对缺失值的处理
CART算法
分类和回归树(Classification and Regression Trees,CART)
有时被写作 C&RT
Breiman, L., J. H. Friedman, R. A. Oshen,
and C. J. Stone, 1984. Classification and
regression trees. Belmont, CA: Wadsworth.
CART 算法–概览
二叉树算法
把数据递进划分为两个子集,每一个子集的记录会更纯
这一算法把误分类代价、先验概率、成本-复杂性剪枝
CART算法
1. 基本思想是在每一个节点选择一个划分,使得其每一个子集(子节点)的数据比父节点的数据更“纯”一些。CART 用一个混杂度测度i(t)来测量一个划分的节点数据的混杂度。
CART算法
2. 如果在节点t的一个划分 s 把pL比率的数据送到左子节点tL,把pR比率的数据送到右子节点tR,在节点t的划分 s 降低的混杂度被定义为:
CART算法
3. CART 树的生长始于节点(即, 全部训练数据) t=1, 在所有可能的划分中选择一个划分s*,该划分导致混杂度的最大降低。
s*把节点t=1 划分为t=2和 t=3 两个子节点。
CART算法
4. 以上的划分搜索过程为每一个子节点重复使用。
5. 当所有的终止标准被满足后生长过程停止。
混杂度的几个测度
目标变量是类别变量(名义)
–基尼指数( Gini Index)
–二分指数(Twoing Index)
目标变量是类别变量(有序)
–有序二分指数(Ordered Twoing)
目标变量是连续变量
–最小平方偏差(Least-Squared Deviation)
混杂度:基尼指数
如果一个数据集合T的观测记录里包括n个类别,基尼指数的定义如下:
其中
是节点t的类别j的相对比例

最近更新

二零二五年度学校智慧校园建设项目合同3篇 60页

二零二五年度学校与户外研学企业深度合作框架.. 42页

营养学蛋白质 45页

二零二五年度夫妻共同财产分割与婚姻财产协议.. 44页

二零二五年度大连市租赁房屋合同续租申请3篇 36页

二零二五年度塑胶颗粒环保认证产品销售合同3篇.. 39页

二零二五年度国际贸易食品添加剂外贸采购协议.. 42页

二零二五年度养殖技术培训与推广委托协议3篇 38页

不良资产债务重组与清收法律服务合同 3页

不锈钢宣传栏安装工程风险评估合同 3页

不锈钢材料展会组织与推广服务合同 3页

不锈钢雕塑设计与制作承包合同 2页

专业出纳人员聘用与服务合同 3页

二零二五年度上市公司内部控制评价审计合同3篇.. 36页

个人个人间紧急医疗借款合同模板 2页

个人健康保险法律咨询合同范本 2页

二零二五学生校园意外伤害赔偿责任认定及处理.. 95页

个人消费担保合同编制手册 2页

中英文版时尚产业员工聘用合同 3页

麻醉后低氧血症处理原则 6页

2025年度钢结构外架搭设与维护承包合同3篇 43页

汽车刹车抱死的利与弊 5页

汇总 - 39种行业废水处理工艺流程图 4页

书包质检报告 22页

风力发电施工安全培训课件 35页

发电厂电气主接线及厂用电 120页

JT∕T 1375.1-2022 公路水运工程施工安全风险.. 18页

奢摩他——赛康仁波切开示 21页

DB61∕T 1224-2018 基于成组技术的零件分类编.. 10页

2015年【内部透密玄机】 7页