文档介绍：决策树算法及应用一决策树算法简介⑴⑹⑻决策树算法是一种归纳分类算法,它通过对训练集的学****挖掘出有用的规则,用于对新集进行预测。决策树算法可设计成具有良好可仲缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。因此,在过去的几十年屮,决策树算法在机器学****machinelearning)和数据挖掘(datamining)领域一直受到广泛地重视。决策树算法以树状结构表示数据分类的结果。树的非叶结点表示对数据属性(attribute)的测试。每个分枝代表一个测试输出,而每个叶结点代表一个分类。由根结点到各个叶结点的路径描述可得到各种分类规则。目前有多种形式的决策树算法。其中最值得注意的是CART和TD3/。许多其它的算法都是由它们演变而来。下面介绍决策树算法ID3(Quinlan,1979)在实际中的一例应用。决策树算法1D3使用信息增益(InformationGain)作为选择属性对节点进行划分的指标。信息增益表示系统由于分类获得的信息量,该量由系统爛的减少值定量描述。(Entropy)是一个反映信息量大小的概念。最终信息增益最高的划分将被作为分裂方案。决策树和决策规则是实际应用中分类问题的数据挖掘方法。决策树表示法是应用最广泛的逻辑方法,它通过一组输入-输出样本构建决策树的有指导的学****方法。对于分类决策树来说,需要先对原始资料来进行分类训练,经由不断的属性分类后,得到预期的分类结果。判定树归纳的基本算法是贪心算法,它采用自上而下、分而治之的递归方式来构造一个决策树。ID3算法是一种著名的判定树归纳算法,伪代码如下:FunctionGeneratedecisiontree(训练样本samples,候选属性attributelist){创建节点N:ifsamples都在同一个类Cthen返回N作为叶节点,以类C标记;ifattribute_list为空then返冋N为叶节点,标记为samples中最普通类://多数表决定选择attributelist中有最高信息增益的属性testattribute:标记节点N为testattribute;foreachtest_attribute中的已知位ai//划分samples由节点N长出一个条件为test_attribute=ai的分枝;设Si是samples中testattribute二ai样木的集合;//一个划分IfSi为空then加上一个树叶,标记为samples中最普通的类;Else加I上一个由Generate_desdecision_tree(Si,attribute_list_test_attribute)返冋的节点:}在树的每个节点上使用具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并确保找到一棵简单的树。二数据挖掘技术的基本概念⑺⑭数据挖掘是从大量数据屮挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。它所挖掘出的规则蕴涵了数据库中一组对象之间的特定关系,揭示出了许多有用的信息,为经营决策、市场策划、金融预测等提供依据。通过数据挖掘,有价值的知识、规则或高层次的信息能从数据库的相关数据集合中抽取出来,并从不同的角度显示,从而使大型数据库成为一个丰富可靠的资源,为知