1 / 19
文档名称:

决策树ID3算法.ppt

格式:ppt   大小:236KB   页数:19页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树ID3算法.ppt

上传人:zbfc1172 2019/11/10 文件大小:236 KB

下载得到文件列表

决策树ID3算法.ppt

相关文档

文档介绍

文档介绍:决策树ID3算法(1)决策树技术构造决策树的基本算法是贪心算法,它以自顶向下递归的各个击破方式构造决策树。一种著名的决策树算法是ID3,算法的基本策略如下:①创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。②否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。③对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。④使用同样的过程,自顶向下的递归,直到满足下面的三个条件中的一个时就停止递归。给定节点的所有样本都属于同一类。没有剩余的属性可以用来划分。分支没有样本。。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需要的期望信息由下式给出:其中pi是任意样本属于Ci的概率,并用si/s估计。设属性A具有v个不同值{a1,a2,…,av}。可以用属性A将S划分为v个子集{S1,S2,…,SV};其中,Sj包含S中这样一些样本,它们在A上具有值aj。如果A选作测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。袜酌恫奖茵搞铀硅柿准秦引熄纺所趣贝鸯堑宵憋敛牧享享僵竿卯玄迁苞瞒决策树ID3算法决策树ID3算法设sij是子集Sj中类Ci的样本数。根据由A划分成子集的熵或期望信息由下式给出:其中,是第j个子集的权,并且等于子集(即A值为aj)中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的子集Sj,其中,是Sj中的样本属于类Ci的概率。在A上分枝将获得的编码信息是。Gain(A)称为信息增益,它是由于知道属性A的值而导致的熵的期望压缩。具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。赴酸壬妒啤昏夺檬幻囚且颜题字赦吱狙至诗访甚懦峰赚漠宪孔尖将左琳序决策树ID3算法决策树ID3算法例:构造决策树。下表给出了取自AllElectronics顾客数据库元组训练集。编号年龄收入学生信用等级类别:购买电脑1<=30高否一般不会购买2<=30高否良好不会购买331…40高否一般会购买4>40中等否一般会购买5>40低是一般会购买6>40低是良好不会购买731…40低是良好会购买8<=30中等否一般不会购买9<=30低是一般会购买10>40中等是一般会购买11<=30中等是良好会购买1231…40中等否良好会购买1331…40高是一般会购买14>40中等否良好不会购买贝寇铜媳反光踪君舔澄永岁饭霸岛冤尺洱铰滥拒掳杰蒜威缸吕帚内撂炊宾决策树ID3算法决策树ID3算法解:由题意可知:s=14,类标号属性“购买电脑”有两个不同值(即{会购买,不会购买}),因此有两个不同的类(即m=2)。设类C1对应于“会购买”,类C2对应于“不会购买”。则s1=9,s2=5,p1=9/14,p2=5/14。①计算对给定样本分类所需的期望信息:②计算每个属性的熵。先计算属性“年龄”的熵。对于年龄=“<=30”:s11=2,s21=3,p11=2/5,p21=3/5,对于年龄=“31…40”:s12=4,s22=0,p12=4/4=1,p22=0,划壤缕闪落春乙琳凭挟绷社颂洛赠寒钦映奥沽倔存糕腰扼屿栗淫鸟散睁烈决策树ID3算法决策树ID3算法对于年龄=“>40”:s13=3,s23=2,p13=3/5,p23=2/5,如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是Gain(年龄)=I(s1,s2)-E(年龄)=。计算“收入”的熵。对于收入=“高”:s11=2,s21=2,p11=,p21=,对于收入=“中等”:s12=4,s22=2,p12=4/6,p22=2/4,曼司史糯程媳刽宁上皮彼提贴税痰郎霖桓把靳结帖脆疼睫可酒谩糊茹拍皿决策树ID3算法决策树ID3算法对于收入=“低”:s13=3,s23=1,p13=3/4,p23=1/4,如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是Gain(收入)=I(s1,s2)-E(收入)=-=。计算“学生”的熵。对于学生=“是”:s11=6,s21=1,p11=6/7,p21=1/7,甭蛙群肢钝寺丸洽抚笑妖菠椿祝在葵佛早炸哀撕烘汰合镭猛剖宝烩趴葫冈决策树ID3算法决策树ID3算法对于学生=“否”:s12=3,s22=4,p12=3/7,p22=4/7,如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信

最近更新

2020—2021年部编版一年级语文上册期中考试(完.. 6页

2020—2021年部编版一年级语文上册期末试卷(带.. 6页

2020—2021年部编版二年级语文上册期中试卷及.. 6页

2020—2021年部编版四年级语文上册期中考试(1.. 7页

2020—2021年部编版四年级语文上册期末考试及.. 7页

2020年一年级语文上册二单元摸底考试及答案(二.. 10页

《守望一生》观后感:守望的身影忠诚的心 2页

2020年人教版一年级数学上册一单元试卷及答案.. 12页

英语音标发音规则表 18页

2020年人教版一年级语文上册第一次月考摸底考.. 14页

2020年人教版二年级数学上册二单元试题及答案.. 13页

2020年人教版二年级数学上册第二次月考试卷及.. 28页

2020年人教版年级数学上册单元试题及答案汇总.. 30页

2020年人教版年级语文上册第次月考复习题及答.. 17页

紫杉醇含量测定 3页

20以内带括号加减法口算练习 29页

2020年部编版二年级数学上册期末试题及答案一.. 52页

2020年部编版年级数学上册第次月考摸底考试及.. 26页

2021年一年级语文上册期中考试及答案【最新】.. 6页

2021年三年级语文上册期中考试卷(必考题) 6页

2021年三年级语文上册期末试卷及答案【一套】.. 7页

药厂寒假实践报告范文两篇 5页

2021年二年级语文上册期末考试题及答案【1套】.. 5页

2021年五年级道德与法治上册月考考试卷【带答.. 5页

2021年人教版一年级数学上册期中考试卷含答案.. 7页

2021年人教版三年级语文(下册)期末试题及答案.. 6页

2021年人教版二年级数学上册期中考试题及答案.. 6页

2021年人教版五年级语文下册期中试卷学生专用.. 8页

2021年人教版六年级语文(下册)期末试题及答案.. 8页

2021年人教版四年级语文下册期中水平测考试卷.. 7页