1 / 4
文档名称:

WEKA中的Id3决策树算法.pdf

格式:pdf   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

WEKA中的Id3决策树算法.pdf

上传人:yunde113 2014/11/24 文件大小:0 KB

下载得到文件列表

WEKA中的Id3决策树算法.pdf

文档介绍

文档介绍:万方数据
。乏罱×。中的霾呤魉惴李四海,张忠文引言霾呤魉惴╱一三。⒌牟蝗范ㄐ裕刂翟叫。系统越有序,反之则越无序。惴ㄖ惺褂眯畔㈧乩炊攘慷允菁谢炙枰5男畔⒘浚惴ㄑ≡裥息增益最大的属性作为分裂属性,自顶向下递归地构建决策树,直到所有实例都属于同一个类,没有更多的属性用来产生划分,则采用多数表决产生叶子节点。由于该算法是自顶向下的贪心算法,所以不能保证全局最优。设茄盗肥道琁是醒盗费镜母鍪珻蕒,⋯⋯,抢啾鹗粜缘牡趇个取值所对应的样本个数,为在谐鱿值母怕蔖/6訢中的实例进行分类所需要的期望信息为:按属性訢进行划分,假设蠪个取值#琣:,⋯⋯,口,虬词粜訟对趾蠖訢中的实例进行分类还需要的信息量为:则属性系男畔⒃鲆嫖#⒃鲆嬖酱笏得鞲莞檬粜远谢趾蠖訢中的每一个实例进行正确分类还需要的信息熵越少,也就使系统更趋向于有序。法选择信息增益最大的属性作为分裂属性递归地构造决策树。是笱а芯康目T词萃诰蚱教ǎ渲屑闪舜罅康幕餮八惴ǎㄊ菰ご怼关联、分类、聚类,并提供了可视化功能。由于是开放源代码,所以只要编写的算法符合其接口规范,就可以将新算法嵌入到中以扩充中原有的算法。:嗉坛凶訡啵渲械腷椒ǖ饔胢法构建分类器;紫鹊饔胏方法计算每个属性的信息增益,选取信息增益最大的属性作为分裂属性狝,接着调用方法,该方法根据狝产生与狝属性取值相当的划分,最后在每一棵子树上递归地调用方法。需要注意的是递归条件:.—甶第卷第年长春大学学报仕嘀幸窖г杭扑慊萄惺遥仕嗬贾摘要:惴ㄊ蔷霾呤餮肮槟珊褪萃诰蛑械暮诵姆椒ā1疚亩訧算法及其在中的实现进行了阐述,给出了使用剪枝阁值对决策树进行先剪枝的方法,最后通过实例对该方法的有效性进行了验证。关键词:决策树;粀籶·中图分类号:文献标志码:文章编号:———收稿日期:——作者简介:李四海,男,甘肃榆中人,讲师,硕士,主要从事数据挖掘,分布式计算方面研究。,【..口ぃ琹
万方数据
中惴ǖ氖笛榧***治狢甿狣;—甤当某个划分上所有属性的信息增益都为杂σ韵铝街智榭觯该划分上所有实例都属于同一类。该划分上所有属性都只有单一取值,但类标号仍然多于一个,由于此时没有更多的属性可用,所以返回对应实例最多的类标号。对于以上任何一种情况,都停止子树的生长,然后使用多数表决得到所期。是的类标号。在实际应用中,由于ǔV荒艽硇∈萘康难厩叶栽肷舾校杂惺辈木策时过于繁杂,此时可以边建树边剪枝∞佣こ龈蛹蚪嗖⒁子诶斫獾氖鳌1热缈梢允褂靡韵虏略剪枝:,停止子树的生长。娜≈堤』嵊跋焓鞯木ǘ龋ù笤蚴ゼ糁πЧMǔ8萘煊蛑械先验知识进行设定。方法利用对属性值的内部存储格式,使用实例枚举完成实例集在给定属性系幕帧U庵侄苑掷嘀档哪诓扛〉愦娲⒏袷絳,,,,⋯⋯钩绦虻闹葱懈蛹蚪唷⒏咝А型ü齮方法的递归调用打印出决策树。以下取中的隐形眼镜数据集猯檬菁泄灿形甯鍪粜裕琣昵幔心辏夏陖,近视,远视琣⒐猓簧⒐鈣,劾峒跎伲劾嵛薇浠瘆,类属性为不适合,适合佩戴软性,适合佩戴硬性韑。设定剪枝阈值傻木霾呤魅缤糽所示。可以看出眼泪属性重要性最高,离根节点最近,在后续子树的构造中,由于设置了剪枝阈值,当划分中类值对应实例个数所占比例超过剪