1 / 6
文档名称:

[精品]决策树算法及应用.doc

格式:doc   大小:92KB   页数:6页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

[精品]决策树算法及应用.doc

上传人:sssmppp 2019/11/30 文件大小:92 KB

下载得到文件列表

[精品]决策树算法及应用.doc

相关文档

文档介绍

文档介绍:决策树算法及应用一决策树算法简介⑴⑹⑻决策树算法是一种归纳分类算法,它通过对训练集的学****挖掘出有用的规则,用丁•对新集进行预测。决策树算法可设计成具冇良好可伸缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。因此,在过去的几十年中,决策树算法在机器学****machinelearning)和数据挖掘(datamining)领域一直受到广泛地重视。决策树算法以树状结构表示数据分类的结果。树的非叶结点表示对数据屈性(attribute)的测试。每个分枝代表一个测试输出,而每个叶结点代表一个分类。出根结点到各个叶结点的路径描述可得到各种分类规则。打前冇多种形式的决策树算法。其屮最值得注意的是CART和ID3/。许多其它的算法都是由它们演变而来。下面介绍决策树算法ID3(Quinlan,1979)在实际中的一例应用。决策树算法1D3使用信息增益(InformationGain)作为选择屈性对节点进行划分的指标。信息增益表示系统由于分类获得的信息量,该量由系统爛的减少值定量描述。®(Entropy)是一个反映信息量大小的概念。最终信息增益最高的划分将被作为分裂方案。决策树和决策规则是实际应用中分类问题的数据挖掘方法。决策树表示法是应用最广泛的逻辑方法,它通过一组输入-输出样本构建决策树的冇指导的学****方法。对于分类决策树來说,需要先对原始资料來进行分类训练,经出不断的属性分类后,得到预期的分类结果。判定树归纳的基木算法是贪心算法,它采用自上而下、分而治之的递归方式来构造一个决策树。ID3算法是一种著名的判定树归纳算法,伪代码如下:(训练样木samples,候选屈性attributelist){创建节点N:ifsamples都在同一个类Cthen返回N作为叶节点,以类C标记;ifattribute_list为空then返冋N为叶节点,标记为samples屮最普通类://多数表决定选择attribute_list屮冇最高信息增益的屈性test_attribute:标记节点N为tcst_attributc;foreachtest_attribute中的已知位ai//划分samples由节点N长出一个条件为test_attribute=ai的分枝;设Si是samples中testattribute=ai样本的集合;//一个划分IfSi为空then加上一个树叶,标记为samples中最普通的类;Else加上一个曲Genereite_desdecision_tree(Si,attribute_list_test_attribute)返冋的节点:}在树的毎个节点上使用具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分屮的样本分类所需的信息量最小,并确保找到一棵简单的树。二数据挖掘技术的基本概念⑺⑭数据挖掘是从人量数据中挖掘出隐含的、先询未知的、对决策冇潜在价值的知识和规则。它所挖掘出的规则蕴涵了数据库屮一组对象之间的特定关系,揭示出了许多有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,冇价值的知识、规则或高层次的信息能从数据库的相关数据集合中抽取出来,并从不同的角度显示,从而使大型数据库成为一个丰富可靠的资源,为知识归纳服务。数据挖掘发现的知识通常是以概念(C