1 / 9
文档名称:

分类与回归树.pptx

格式:pptx   大小:721KB   页数:9页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分类与回归树.pptx

上传人:小枷 2018/3/8 文件大小:721 KB

下载得到文件列表

分类与回归树.pptx

文档介绍

文档介绍:1
判定树基本观念
2
分类与回归树(CART)
分类与回归树(Classification And Regression Trees,CART)CART算法是建构判定树时最常用的算法之一。自从1984年布里曼(L. Brieman)与其同僚发表这种方法以来,就一直机械学****实验的要素。
3
分类与回归树(CART)
找出起始的分隔:
用来评估一个分隔数的衡量标准是分散度(diversity)。对于一组数据的『分散度指标』(index of diversity)有多种计算方式。不论哪一种,分散度指标很高,表示这个组合中包含平均分配到多个类别,而分散度指标很低则表示一个单一类别的成员居优势。
4
分类与回归树(CART)
找出起始的分隔:
最好的分隔变量是能够降低一个数据组的分散度,而且降得最多。换言之,我们希望以下这个式子最大化: 
分散度(分隔前)-﹝分散度(分隔后左边子集
合)+分散度(分隔后右边子集合)﹞ 
三分种分散度衡量法: 
min{P(c1), P(c2) } 
2P(c1)P(c2 ) 
〔P(c1)logP (c1)〕+〔P(c2)logP (c2)〕
5
分类与回归树(CART)
计算每个节点的错误率:
每一个叶部如今都分配到一个类别以及一个错误率。回顾前图,图中选取了从根部到标示为『女性』的叶部路径。该节点是一个叶部节点,表示找不到任何分隔变量可以显著的降低其分散性。然而,这并不表示所有祗达这个叶部的资料都属于同一类。使用简单机率的定义,我们可以看到11个叶部中有9个是正确分类。这告诉我们,以这个训练组而言,。相对的,这个叶部的错误率1-。
6
分类与回归树(CART)
计算整个判定树的错误率: