1 / 19
文档名称:

决策树ID3算法.ppt

格式:ppt   大小:236KB   页数:19页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树ID3算法.ppt

上传人:cx545616 2020/2/22 文件大小:236 KB

下载得到文件列表

决策树ID3算法.ppt

文档介绍

文档介绍:决策树ID3算法(1)决策树技术构造决策树的基本算法是贪心算法,它以自顶向下递归的各个击破方式构造决策树。一种著名的决策树算法是ID3,算法的基本策略如下:①创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。②否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。③对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。④使用同样的过程,自顶向下的递归,直到满足下面的三个条件中的一个时就停止递归。给定节点的所有样本都属于同一类。没有剩余的属性可以用来划分。分支没有样本。。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需要的期望信息由下式给出:其中pi是任意样本属于Ci的概率,并用si/s估计。设属性A具有v个不同值{a1,a2,…,av}。可以用属性A将S划分为v个子集{S1,S2,…,SV};其中,Sj包含S中这样一些样本,它们在A上具有值aj。如果A选作测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。准桃两童易撅自憋粉篙挟生淹侧寸脆抵社原反蓄嗽舌茎艇诗犁橡舒他功鲍决策树ID3算法决策树ID3算法设sij是子集Sj中类Ci的样本数。根据由A划分成子集的熵或期望信息由下式给出:其中,是第j个子集的权,并且等于子集(即A值为aj)中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的子集Sj,其中,是Sj中的样本属于类Ci的概率。在A上分枝将获得的编码信息是。Gain(A)称为信息增益,它是由于知道属性A的值而导致的熵的期望压缩。具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。箩巳占鸳立瑶漏及矗榨础号想潮炼足现雏佐瓷地似躁孔烈汛逮疤澜僧哥瘸决策树ID3算法决策树ID3算法例:构造决策树。下表给出了取自AllElectronics顾客数据库元组训练集。编号年龄收入学生信用等级类别:购买电脑1<=30高否一般不会购买2<=30高否良好不会购买331…40高否一般会购买4>40中等否一般会购买5>40低是一般会购买6>40低是良好不会购买731…40低是良好会购买8<=30中等否一般不会购买9<=30低是一般会购买10>40中等是一般会购买11<=30中等是良好会购买1231…40中等否良好会购买1331…40高是一般会购买14>40中等否良好不会购买豹个傲凡匝匝俭谩佬亡块呻欺胚见概窒眷仆屁睫回诚涤雄豌般泄氯侥醒欲决策树ID3算法决策树ID3算法解:由题意可知:s=14,类标号属性“购买电脑”有两个不同值(即{会购买,不会购买}),因此有两个不同的类(即m=2)。设类C1对应于“会购买”,类C2对应于“不会购买”。则s1=9,s2=5,p1=9/14,p2=5/14。①计算对给定样本分类所需的期望信息:②计算每个属性的熵。先计算属性“年龄”的熵。对于年龄=“<=30”:s11=2,s21=3,p11=2/5,p21=3/5,对于年龄=“31…40”:s12=4,s22=0,p12=4/4=1,p22=0,谎祁泥六辙奇氓苔谩厌剐抗霜井床活侠恢站爱逢下掸锨袒屿食完导等浇戌决策树ID3算法决策树ID3算法对于年龄=“>40”:s13=3,s23=2,p13=3/5,p23=2/5,如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是Gain(年龄)=I(s1,s2)-E(年龄)=。计算“收入”的熵。对于收入=“高”:s11=2,s21=2,p11=,p21=,对于收入=“中等”:s12=4,s22=2,p12=4/6,p22=2/4,挎织铜幢走氖廷窜践里煌蹲妊凛焚畜郑啄窜首朵腰思鲍沸磁育脉悄欧送茁决策树ID3算法决策树ID3算法对于收入=“低”:s13=3,s23=1,p13=3/4,p23=1/4,如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是Gain(收入)=I(s1,s2)-E(收入)=-=。计算“学生”的熵。对于学生=“是”:s11=6,s21=1,p11=6/7,p21=1/7,榆勉变尼伙手刹泳驴箩蒙坐屁绣成逾退肠辛蔡灼搐剪浩梅文敖铀上蝶噪瑞决策树ID3算法决策树ID3算法对于学生=“否”:s12=3,s22=4,p12=3/7,p22=4/7,如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信

最近更新

2020—2021年部编版一年级语文上册期中测试卷.. 6页

2020—2021年部编版一年级语文上册期末考试及.. 6页

2020—2021年部编版二年级数学上册期中考试卷.. 6页

2020—2021年部编版二年级语文上册期中考试题.. 6页

2020—2021年部编版四年级语文上册期中考试(新.. 7页

2020年一年级语文上册三单元试卷含答案(三套).. 13页

2020年二年级数学上册一单元考试及答案(四套).. 27页

清宫绝恋第19集剧情介绍 2页

人教部编版二年级语文下册单元测试题及答案全.. 29页

2020年人教版一年级语文上册三单元试题及答案.. 10页

2020年人教版一年级语文上册第一次月考模拟题.. 9页

2020年人教版二年级数学上册四单元试卷带答案.. 20页

2020年人教版二年级语文上册第二次月考质量检.. 35页

2020年人教版年级语文上册期末阶段检测及答案.. 18页

2020年部编人教版二年级语文上册期末检测题及.. 9页

2020年部编版一年级数学上册期末试题及答案各.. 15页

2020年部编版一年级语文上册二单元模拟试卷及.. 10页

入学往事 2页

2021年一年级数学(上册)期中试题及答案 6页

2021年一年级语文上册期末考试(全面) 5页

论语(拼音版) 26页

2021年二年级数学上册期中模拟考试(带答案) 6页

2021年二年级语文上册期中试卷【带答案】 5页

NJ实现飞剪与追剪功能 4页

2021年人教版一年级语文下册期末考试卷(最新).. 4页

2021年人教版二年级数学上册期中测试卷【附答.. 6页

2021年人教版五年级语文(下册)期末试卷及参考.. 8页

2021年人教版五年级语文下册期末考试题完美版.. 8页

2021年人教版六年级语文下册期中试题附答案 7页

2021年人教版四年级语文下册期中试题(审定版).. 6页