文档介绍:决策树第十组:郭浩韩学成何珺何军黄安迪§,它的目的是: 构造一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。 数据分类的过程一般来说主要包含两个步骤 第一步,建立一个描述已知数据集类别或概念的模型 第二步,利用所获得的模型进行分类操作§ 数据分类介绍-2第一步,建立一个描述已知数据集类别或概念的模型 该模型是通过对数据库中各数据进行内容的分析而获得的。 分类学习方法所使用的数据集称为训练样本集合,每一数据行都属于一个确定的数据类别,其类别值是由一个属性来描述的(被称为类别标记属性)。 因此分类学习又可称为监督学习,它是在已知训练样本类别情况下,通过学习建立相应模型。而无监督学习则是在训练样本的类别与类别个数均未知的情况下进行的,如聚类分析。§ 数据分类介绍-2第二步,利用所获得的模型进行分类操作 首先对模型分类准确率进行估计。 模型的准确性可以通过由该模型所正确分类的测试样本个数所占总测试样本的比例得到。即对于每一个测试样本,比较其已知的类别与学习所获模型的预测类别。如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来数据行或对象(其类别未知)进行分类,即利用学习所获得的模型进行预测,对未知类别的数据行或对象判断其类别(属性)取值。由训练数据产生分类规则由分类规则对新的样本数据进行分类§ 决策树介绍-2常用的分类预测算法:决策树归纳分类贝叶斯分类基于规则的分类用后向传播分类遗传算法、粗糙集方法、模糊集方法§ 决策树介绍-,是由Hunt等人研究人类概念建模时建立的学习系统CLS(conceptlearningsystem)。到了70年代末,,引进信息论中的有关思想,提出用信息增益(informationgain)作为特征判别能力的度量,来选择属性作为决策树的节点,并将建树的方法嵌在一个迭代的程序之中。当时他的主要目的在于减少树的深度,却忽略了叶子数目的研究。1975年和1984年,分别有人提出了CHAID和CART算法。1986年,。1988年,。1993年,。新算法在对预测变量的缺失值处理、剪枝技术、派生规则等方面作了较大的改进,。