1 / 45
文档名称:

决策树--很详的算法介绍.ppt

格式:ppt   大小:2,801KB   页数:45页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树--很详的算法介绍.ppt

上传人:weizifan339913 2019/2/1 文件大小:2.74 MB

下载得到文件列表

决策树--很详的算法介绍.ppt

文档介绍

文档介绍:*决策树(DecisionTree)**1、分类的意义数据库了解类别属性与特征预测分类模型—决策树分类模型—聚类一、分类(Classification)**数据库分类标记性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚*2、分类的技术(1)决策树*(2)聚类*3、分类的程序*模型建立(ModelBuilding)模型评估(ModelEvaluation)使用模型(UseModel)*决策树分类的步骤*数据库*训练样本(trainingsamples)建立模型测试样本(testingsamples)评估模型例:*资料训练样本婚姻年龄家庭 所得否是否是未婚已婚<35≧%*4、分类算法的评估*预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing)交叉验证法(cross-validation)例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。***速度:指产生和使用模型的计算花费。建模的速度、预测的速度强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。可诠释性:指模型的解释能力。**决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、)和最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。二、决策树(DecisionTree)