1 / 19
文档名称:

决策树ID3算法.ppt

格式:ppt   大小:236KB   页数:19页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树ID3算法.ppt

上传人:zbfc1172 2019/11/10 文件大小:236 KB

下载得到文件列表

决策树ID3算法.ppt

相关文档

文档介绍

文档介绍:决策树ID3算法(1)决策树技术构造决策树的基本算法是贪心算法,它以自顶向下递归的各个击破方式构造决策树。一种著名的决策树算法是ID3,算法的基本策略如下:①创建一个节点。如果样本都在同一类,则算法停止,把该节点改成树叶节点,并用该类标记。②否则,选择一个能够最好的将训练集分类的属性,该属性作为该节点的测试属性。③对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。④使用同样的过程,自顶向下的递归,直到满足下面的三个条件中的一个时就停止递归。给定节点的所有样本都属于同一类。没有剩余的属性可以用来划分。分支没有样本。。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需要的期望信息由下式给出:其中pi是任意样本属于Ci的概率,并用si/s估计。设属性A具有v个不同值{a1,a2,…,av}。可以用属性A将S划分为v个子集{S1,S2,…,SV};其中,Sj包含S中这样一些样本,它们在A上具有值aj。如果A选作测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。袜酌恫奖茵搞铀硅柿准秦引熄纺所趣贝鸯堑宵憋敛牧享享僵竿卯玄迁苞瞒决策树ID3算法决策树ID3算法设sij是子集Sj中类Ci的样本数。根据由A划分成子集的熵或期望信息由下式给出:其中,是第j个子集的权,并且等于子集(即A值为aj)中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的子集Sj,其中,是Sj中的样本属于类Ci的概率。在A上分枝将获得的编码信息是。Gain(A)称为信息增益,它是由于知道属性A的值而导致的熵的期望压缩。具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。赴酸壬妒啤昏夺檬幻囚且颜题字赦吱狙至诗访甚懦峰赚漠宪孔尖将左琳序决策树ID3算法决策树ID3算法例:构造决策树。下表给出了取自AllElectronics顾客数据库元组训练集。编号年龄收入学生信用等级类别:购买电脑1<=30高否一般不会购买2<=30高否良好不会购买331…40高否一般会购买4>40中等否一般会购买5>40低是一般会购买6>40低是良好不会购买731…40低是良好会购买8<=30中等否一般不会购买9<=30低是一般会购买10>40中等是一般会购买11<=30中等是良好会购买1231…40中等否良好会购买1331…40高是一般会购买14>40中等否良好不会购买贝寇铜媳反光踪君舔澄永岁饭霸岛冤尺洱铰滥拒掳杰蒜威缸吕帚内撂炊宾决策树ID3算法决策树ID3算法解:由题意可知:s=14,类标号属性“购买电脑”有两个不同值(即{会购买,不会购买}),因此有两个不同的类(即m=2)。设类C1对应于“会购买”,类C2对应于“不会购买”。则s1=9,s2=5,p1=9/14,p2=5/14。①计算对给定样本分类所需的期望信息:②计算每个属性的熵。先计算属性“年龄”的熵。对于年龄=“<=30”:s11=2,s21=3,p11=2/5,p21=3/5,对于年龄=“31…40”:s12=4,s22=0,p12=4/4=1,p22=0,划壤缕闪落春乙琳凭挟绷社颂洛赠寒钦映奥沽倔存糕腰扼屿栗淫鸟散睁烈决策树ID3算法决策树ID3算法对于年龄=“>40”:s13=3,s23=2,p13=3/5,p23=2/5,如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是Gain(年龄)=I(s1,s2)-E(年龄)=。计算“收入”的熵。对于收入=“高”:s11=2,s21=2,p11=,p21=,对于收入=“中等”:s12=4,s22=2,p12=4/6,p22=2/4,曼司史糯程媳刽宁上皮彼提贴税痰郎霖桓把靳结帖脆疼睫可酒谩糊茹拍皿决策树ID3算法决策树ID3算法对于收入=“低”:s13=3,s23=1,p13=3/4,p23=1/4,如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是Gain(收入)=I(s1,s2)-E(收入)=-=。计算“学生”的熵。对于学生=“是”:s11=6,s21=1,p11=6/7,p21=1/7,甭蛙群肢钝寺丸洽抚笑妖菠椿祝在葵佛早炸哀撕烘汰合镭猛剖宝烩趴葫冈决策树ID3算法决策树ID3算法对于学生=“否”:s12=3,s22=4,p12=3/7,p22=4/7,如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信

最近更新

2025年赣南卫生健康职业学院单招职业适应性测.. 73页

2025年辽宁冶金职业技术学院单招职业倾向性考.. 72页

2025年郴州职业技术学院单招职业技能考试题库.. 74页

2025年鄂尔多斯生态环境职业学院单招职业技能.. 75页

2025年辽宁工程职业学院单招职业适应性考试题.. 73页

2025年大学毕业生自我鉴定5篇精选大全 8页

2025年辽宁特殊教育师范高等专科学校单招职业.. 73页

高考18个文言虚词 72页

地表Ⅰ类水长距离输水初期水质稳定性研究 3页

2025年辽宁生态工程职业学院单招职业技能测试.. 74页

2025年辽宁省葫芦岛市单招职业适应性测试题库.. 72页

2025年幼儿园体育游戏推拉牛教案 13页

2025年辽宁省阜新市单招职业倾向性测试题库最.. 72页

2025年幼儿园体育游戏万能小高人教案 13页

2025年重庆城市管理职业学院单招职业适应性考.. 74页

2025年辽宁轻工职业学院单招职业适应性测试题.. 73页

荷塘即景- 盛家琪 2页

2025年达州中医药职业学院单招职业倾向性测试.. 73页

2025年重庆工商职业学院单招职业倾向性考试题.. 73页

在线健康社区用户参与行为的类型及偏好研究 3页

2024年陕西工商职业学院单招职业适应性测试题.. 76页

屋面后开洞处理方案 4页

网调惩罚任务60条 5页

李可老中医治癌经验 6页

关于发布实施批准文号管理的中药饮片及目录 3页

上海2021年10月上海金山资本管理集团有限公司.. 88页

转运呼吸机的使用和管理 17页

gv资源 2页

50MW机组概算 18页

中华养生益智功(教学探析) 30页