1 / 8
文档名称:

数据挖掘——决策树分类算法.doc

格式:doc   大小:55KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘——决策树分类算法.doc

上传人:rdwiirh 2021/3/16 文件大小:55 KB

下载得到文件列表

数据挖掘——决策树分类算法.doc

文档介绍

文档介绍:决策树分类算法
学 号:
学生所在学院:软件工程学院
学 生 姓 名 :葛强强
任 课 教 师 :汤亮
教师所在学院:软件工程学院
2015年11月
12软件1班
决策树分类算法
葛强强
12软件1班
摘 要:决策树方法是数据挖掘中一种重要的分类方法,决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性的测试,其分支代表测试的结果,而树的每个叶结点代表一个类别。通过决策树模型对一条记录进行分类,就是通过按照模型中属性测试结果从根到叶找到一条路径,最后叶节点的属性值就是该记录的分类结果。
关键词:数据挖掘,分类,决策树

近年来,随着数据库和数据仓库技术的广泛应用以及计算机技术的快速发展,人们利用信息技术搜集数据的能力大幅度提高,大量数据库被用于商业管理、政府办公、科学研究和工程开发等。面对海量的存储数据,如何从中有效地发现有价值的信息或知识,是一项非常艰巨的任务。数据挖掘就是为了应对这种要求而产生并迅速发展起来的。数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用的信息,提取的知识表示为概念、规则、规律、模式等形式。
分类在数据挖掘中是一项非常重要的任务。
分类的目的是学会一个分类函数或分类模型,把数据库中的数据项映射到给定类别中的某个类别。分类可用于预测,预测的目的是从历史数据记录中自动推导出对给定数据的趋势描述,从而能对未来数据进行预测。分类算法最知名的是决策树方法,决策树是用于分类的一种树结构。
1决策树介绍
决策树(decisiontree)技术是用于分类和预测
的主要技术,决策树学****是一种典型的以实例为基础的归纳学****算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性判断从该节点向下的分支,在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则,整棵树就对应着一组析取表达式规则。
把决策树当成一个布尔函数。函数的输入为物体或情况的一切属性(property),输出为”是”或“否”的决策值。在决策树中,每个树枝节点对应着一个有关某项属性的测试,每个树叶节点对应着一个布尔函数值,树中的每个分支,代表测试属性其中一个可能的值。
最为典型的决策树学****系统是ID3,它起源于概念学****系统CLS,最后又演化为能处理连续属性的C4.5(C5.0)等。它是一种指导的学****方法,该方法先根据训练子集形成决策树。如果该树不能对所有给出的训练子集正确分类,那么选择一些其它的训练子集加入到原来的子集中,重复该过程一直到时形成正确的决策集。当经过一批训练实例集的训练产生一棵决策树,决策树可以根据属性的取值对一个未知实例集进行分类。使用决策树对实例进行分类的时候,由树根开始对该对象的属性逐渐测试其值,并且顺着分支向下走,直至到达某个叶结点,此叶结点代表的类即为该对象所处的类。
决策树是应用非常广泛的分类方法,目前有多种决策树方法,如ID3,C4.5,PUBLIC,CART,CN2,SLIQ,SPRINT等。大多数已开发的决策树是一种核心算法的变体,下面先介绍一下决策树分类的基本