1 / 27
文档名称:

分类和回归树CART教学.pptx

格式:pptx   大小:306KB   页数:27页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分类和回归树CART教学.pptx

上传人:wz_198613 2019/4/15 文件大小:306 KB

下载得到文件列表

分类和回归树CART教学.pptx

相关文档

文档介绍

文档介绍:本节内容提要CART算法关于混杂度--基尼指数--二分指数剪枝CART对缺失值的处理CART算法分类和回归树(ClassificationandRegressionTrees,CART)有时被写作C&RTBreiman,L.,,,,,CA:–概览二叉树算法把数据递进划分为两个子集,每一个子集的记录会更纯这一算法把误分类代价、先验概率、成本-,使得其每一个子集(子节点)的数据比父节点的数据更“纯”一些。CART用一个混杂度测度i(t)来测量一个划分的节点数据的混杂度。,把pR比率的数据送到右子节点tR,在节点t的划分s降低的混杂度被定义为:(即,全部训练数据)t=1,在所有可能的划分中选择一个划分s*,该划分导致混杂度的最大降低。s*把节点t=1划分为t=2和t=3两个子节点。。。混杂度的几个测度目标变量是类别变量(名义)–基尼指数(GiniIndex)–二分指数(TwoingIndex)目标变量是类别变量(有序)–有序二分指数(OrderedTwoing)目标变量是连续变量–最小平方偏差(Least-SquaredDeviation)混杂度:基尼指数如果一个数据集合T的观测记录里包括n个类别,基尼指数的定义如下:其中是节点t的类别j的相对比例混杂度:基尼指数如果一个数据集合T被划分为两个子集合T1和T2,对应的记录数量分别是N1和N2,划分(split)的基尼指数被定义为:实际上,这是两个子集的基尼指数的加权平均值