1 / 3
文档名称:

3决策树的基本算法.doc

格式:doc   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

3决策树的基本算法.doc

上传人:xxj16588 2016/5/31 文件大小:0 KB

下载得到文件列表

3决策树的基本算法.doc

相关文档

文档介绍

文档介绍:3 决策树的基本算法----ID3 算法 ID3 算法的提出决策树方法的起源是概念学****系统(Concept Learning System, CLS), 然后发展到 ID3 方法而成为高峰。 Quinlan 提出的 ID3 [1,3,4] 算法通过对一个例子集进行学****生成一棵决策树,现假设一个例子仅属于两种分类之一:正例,即符合被学****的目标概念的例子;反例,即不符合目标概念的例子。另外,假设例子的所有属性都是离散属性。 ID3 算法描述在决策树归纳方法中,通常使用信息增益方法来帮助确定生成每个结点时所应选择的合适属性,这样就可以选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,以便使对以后所划分获得的训练样本子集进行分类所需要信息最小,也就是说,利用该属性进行当前(结点所含)样本集合划分,将会使得所产生的各样本子集中的“不同类别混合程度”降为最低。因此采用这样一种信息论方法将帮助有效减少对象分类所需要的划分次数。设S为一个包含s个数据样本的集合,类别属性可以取m个不同的值,对应于 m个不同的类别 C i,i∈{1,2,3, ……,m} 。假设 s i为类别 C i中的样本个数,那么要对一个给定数据对象进行分类所需要的信息量为 I(s1,s2, …,sm)= -p ilog(p i)(1) 其中 p i=即为 S中属于类别 C i的概率。设一个属性 A取v个不同的值{a 1,a 2,…,a v},利用属性 A可以将集合 S划分为v个子集{S1,S2, …,Sv}, 其中 Sj包含了 S集合中属性 A取aj值的数据样本, 若属性 A被选为测试属性(用于对当前样本集进行划分),设S ij为子集 S j中属于 C i类别的样本集,利用属性 A划分当前样本集合所需要的信息熵: 4 算法在教师课堂教学评估系统的应用决策树的构造主要分为两个阶段:建树阶段和调整阶段。以一个教师课堂教学评估系统为例,对决策树分类的应用进行讨论。主要讨论课堂教学评估数据库中的数据挖掘和知识发现。 数据转换和预处理该课堂教学评估指标体系表共分若干项,经研究可归纳为教学态度A 6、教学内容A 7、教学方法A 8、教学效果A 9、评价 A10 共五个项目(见表)。实际数据见表 4-1 。表4-1 教师课堂教学评估质量等级和区段数据 A1A6A7A8A9A10 90.