1 / 17
文档名称:

机器学习决策树算法ID3.doc

格式:doc   大小:483KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

机器学习决策树算法ID3.doc

上传人:一花一世 2019/4/26 文件大小:483 KB

下载得到文件列表

机器学习决策树算法ID3.doc

文档介绍

文档介绍:薈山东大学计算机学院实验报告莄羄实验题目:决策树算法ID3莁学号:莇日期::2014级4班肁姓名:袈Email:膆实验目的:薄熟悉matlab环境及相关函数的熟练使用。蒂学****如何构造一棵决策树,并且用matlab画出树形状。薀学****如何使用一棵决策树,即将测试数值代入时,如何判断属于哪一类。膈会写测试集代入的分类表达式和类别的逻辑表达式并化简。蚄分析该算法准确性。袂硬件环境: 肈windows10操作系统羇软件环境:螄matlab环境,AzureML平台芃实验步骤:螀一、背景知识及原理蚆决策树算法:树状结构,每一个叶子节点对应着一个分类袄决策树方法在分类、预测、规则提取等领域有着广泛的应用。在20世纪70年代后期和80年代初期,,决策树在机器学****数据挖掘领域得到极大的发展。,成为新的监督学****算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学****决策树的。蚄决策树是一树状结构,它的每一个叶子节点对应着一个分类,非叶子节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本进行拆分。对一个分类问题,从已知类标记的训练样本中学****并构造出决策树是一个自上而下分而治之的过程。膈蝿ID3算法简介及基本原理 ID3算法基于信息熵来选择最佳的测试属性,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行,测试属性有多少个不同的取值就将样本集划分为多少个子样本集,同时决策树上相应于该样本集的节点长出新的叶子节点。ID3算法根据信息论的理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性:信息增益值越大,不确定性越小。因此,ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性,这样可以得到当前情况下最纯的划分,从而得到较小的决策树。袃设S是s个数据样本的集合。假定类别属性具有m个不同的值:,设是类中的样本数。对一个给定的样本,它总的信息熵为,其中,是任意样本属于的概率,一般可以用估计。袁设一个属性A具有k个不同的值,利用属性A将集合S划分为k个子集,其中包含了集合S中属性A取值的样本。若选择属性A为测试属性,则这些子集就是从集合S的节点生长出来的新的叶节点。设是子集中类别为的样本数,则根据属性A划分样本的信息熵为 其中,,是子集中类别为的样本的概率。羀最后,用属性A划分样本集S后所得的信息增益(Gain)为蒈显然越小,Gain(A)的值就越大,说明选择测试属性A对于分类提供的信息越大,选择A之后对分类的不确定程度越小。属性A的k个不同的值对应的样本集S的k个子集或分支,通过递归调用上述过程(不包括已经选择的属性),生成其他属性作为节点的子节点和分支来生成整个决策树。ID3决策树算法作为一个典型的决策树学****算法,其核心是在决策树的各级节点上都用信息增益作为判断标准来进行属性的选择,使得在每个非叶子节点上进行测试时,都能获得最大的类别分类增益,使分类后的数据集的熵最小。这样的处理方法使得树的平均深度较小,从而有效地提高了分类效率。羃ID3算法的具体流程 1)对当前样本集合,计算所有属性的信息增益; 2)选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本集; 3)若子样本集的类别属性只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处;否则对子样本集递归调用本算法。节二、,这次仍然想用这个平台实验一下。测试使用决策树算法求出的准确率和召回率等以及改变参数对结果的影响。(第一个图是数据,前12个数据;第二个图是平台上的流程图)肃蚃肀参数配置:(随机种子0,)肆膃结果:测试集共3个数据,分错了2个,%,召回率1%。肄螂聿通过可视化平台的结果对比可以发现决策树算法的准确率很低,我感觉这个的原因是数据太少,所以偶然性太强,数据若是多一些,可能会好一些。,刚开始看到题感觉挺简单的,不就是算出熵,然后算信息增益得到每次要判断的属性,那树不就画出来了么。然而事实告诉我,用笔算的简单但是写程序就不那么容易了。每次传进去的是一批数据,得根据数据去画树。然后我就通过看清华大学那本机器学****的书,找到了一个伪代码的算法,思路没有错,就是一个递归算法,输入的变量是数据和属性,输出的变量是一棵树的结构。照着这个循环写完之后,运行出来又出现了错误,然后和同学讨论

最近更新

混合运算二年级市公开课获奖教案省名师优质课.. 5页

活动市公开课获奖教案省名师优质课赛课一等奖.. 6页

布托啡诺在肝脏手术后疼痛管理中的临床应用研.. 32页

每当走过老师的窗前市公开课获奖教案省名师优.. 3页

标点符号市公开课获奖教案省名师优质课赛课一.. 6页

昆虫的美术市公开课获奖教案省名师优质课赛课.. 4页

教学能力写市公开课获奖教案省名师优质课赛课.. 4页

接泡泡亲子市公开课获奖教案省名师优质课赛课.. 4页

扭扭建构动物市公开课获奖教案省名师优质课赛.. 4页

小儿重症肺炎护理查房培训体温护理方法 23页

小儿推拿手法穴位培训课件推拿治疗策略与穴位.. 33页

小儿推拿手法的耳后颈项穴位培训与镇痛技巧 27页

多机器人协同作业物流场景研究 33页

完美笑容由口腔与面部合作而得渠道美容院与口.. 27页

妇科疾病的中西医结合诊断与药疗法实践课程 29页

2024年保安上半年个人工作总结(精选5篇) 11页

2024年作业啊作业作文 6页

2024年体育教师的求职信(5篇) 11页

外资企业在医药行业药品市场的竞争力分析 32页

外科手术部位感染的局部抗菌药物输注策略 27页

海域补偿合同范本 62页

2024届北京各区高三二模语文试题分类汇编(诗歌.. 13页

电气柜改造方案 17页

产品开发各阶段质量控制评审流程 5页

施工方案专家论证审查会会议程序 2页

六年级下册音乐教案-3.2.1羊肠小道 |人教版.. 3页

小儿外科急腹症-ppt课件 62页

基层人民武装部的历史沿革 24页

村志编写倡议书 6页

军事+民兵爆破地雷教材.pdf 77页