1 / 4
文档名称:

人工智能-决策树.doc

格式:doc   大小:27KB   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

人工智能-决策树.doc

上传人:1651012**** 2020/5/9 文件大小:27 KB

下载得到文件列表

人工智能-决策树.doc

文档介绍

文档介绍:介绍了决策树的基本概念和CART,CHAID,。引言决策树对比神经元网络的优点在于可以生成一些规则。当我们进行一些决策,同时需要相应的理由的时候,使用神经元网络就不行了。本章介绍三个算法CART,CHAID,。决策树是如何工作的决策树一般都是自上而下的来生成的。选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。决策树可以是二叉的,也可以是多叉的。对每个节点的衡量:通过该节点的记录数如果是叶子节点的话,分类的路径对叶子节点正确分类的比例。有些规则的效果可以比其他的一些规则要好。决策树对于常规统计方法的优点。CARTDiversity(整体)-diversity(左节点)-diversity(右节点),值越大,分割就越好。三种diversity的指标:min(P(c1),P(c2))2P(c1)P(c2)[P(c1)logP(c1)]+[P(c2)logP(c2)]这几个参数有相同的性质:当其中的类是均匀分布的时候,值最大;当有一个类的个数为0的时候,值为0。选择分割的时候,对每个字段都考虑;对每个字段中的值先排序,然后再一一计算。最后选出最佳的分割。树的生成:错误率的衡量:最初生成的树中也是有错误率的!因为有些叶子节点并不是“Pure”的。树的修剪:是不是当所以的叶子都很纯是,这棵树就能工作的很好呢?修剪的要点是:应该回溯多少、如何从众多的子树总寻找最佳的。鉴别生成候选子树:使用一个调整的错误率。AE(T)=E(T)+aleaf_count(T)。一步步的生成一些候选子树。对子树的评估:通过testset找到最佳子树对最佳子树进行评估:使用evaluationset。考虑代价(cost)的问题。。:树的生成方面。。,缺省的情况是每个值作为一个分支。Gain和gainratio。。(学院派):在overfitting之前就停止树的生长。必须都是种类变量。数值变量必须分成范围。。X2检验实际中使用决策树的一些问题主要是一些数据准备和数据表示方面的问题。案例:银行信用卡部门对数据细节的不熟悉。数据翻译问题。COBOL对时间元素的处理:OCCURS语句的处理。可以根据需要来增加一些字段:delta_balance,delta_interest_rate等等。CART算法不考虑字段之间的关系。定义类别。使用的工具在类别字段只可以有两个值。我们对原始数据进行一些映射处理。“silentattrition”。数据表示的问题。需要额外的数据。消除杂音。欺骗性的字段。有些字段其实和要预测的字段并不是独立的。可以通过决策树来进行这些字段的判断。过于总结性的数据。经验和教训。将决策树运用于事件序列:PVFutureView,一个工具。Case,某一时刻的快照。Attribute,组成Case的字段Feature,布尔变量,用于形成决策树的内部节点。Interpretations,由Attribute组成用于体现领域知识和关系的衍生字段。Interpre