文档介绍:相互介绍的正确方法
篇一:主要分类方法介绍
分类(Categorization or Classification)就是根据某种标准给对象贴标签(label),再依据标签来区分归类。
分类是事先定义好类别
(5)支持向量机
支持向量机(SVM,Support Vector Machine)是Vapnik依据统计学****理论提出的一种新的学****方法[43] ,它的最大特点是依据构造风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学****机的泛化力量,较好地解决了非线性、高维数、局部微小点等问题。对于分类问题,支持向量机算法依据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。
(6)基于关联规章的分类
关联规章挖掘是数据挖掘中一个重要的讨论领域。近年来,对于如何将关联规章挖掘用于分类问题,学者们进展了广泛的讨论。关联分类方法挖掘形如condset→C的规章,其中condset是项(或属性-值对)的集合,而C是类标号,这种形式的规章称为类关联规章(class
association rules,CARS)。关联分类方法一般由两步组成:第一步用关联规章挖掘算法从训练数据集中挖掘出全部满意指定支持度和置信度的类关联规章;其次步使用启发式方法从挖掘出的类关联规章中选择出一组高质量的规章用于分类。属于关联分类的算法主要包括CBA[44] ,ADT[45] ,CMAR[46] 等。
(7)集成学****Ensemble Learning)
实际应用的简单性和数据的多样性往往使得单一的分类方法不够有效。因此,学者们对多种分类方法的融合即集成学****进展了广泛的讨论。集成学****已成为国际机器学****界的讨论热点,并被称为当前机器学****四个主要讨论方向之一。
集成学****是一种机器学****范式,它试图通过连续调用单个的学****算法,获得不同的基学****器,然后依据规章组合这些学****器来解决同一个问题,可以显著的提高学****系统的泛化力量。组合多个基学****器主要采纳(加权)投票的方法,常见的算法有装袋[47] (Bagging),提升/推动[48, 49] (Boosting)等。
有关分类器的集成学****见图2-5。集成学****由于采纳了投票平均的方法组合多个分类器,所以有可能削减单个分类器的误差,获得对问题空间模型更加精确的表示,从而提高分类器的分类精确度。
图2-5:分类器的集成学****br/> 以上简洁介绍了各种主要的分类方法,应当说其都有各自不同的特点及优缺点。对于数据库负载的自动识别,应当选择哪种方法呢?用来比拟和评估分类方法的标准[50] 主要有:(1)猜测的精确率。模型正确地猜测新样本的类标号的力量;(2)计算速度。包括构造模型以及使用模型进展分类的时间;(3)强壮性。模型对噪声数据或空缺值数据正确猜测的力量;
(4)可伸缩性。对于数据量很大的数据集,有效构造模型的力量;(5)模型描述的简洁性和可解释性。模型描述愈简洁、愈简单理解,则愈受欢送。
各种分类算法比拟
最近在学****分类算法,顺便整理了各种分类算法的优缺点。
1决策树(Decision Trees)的优缺点
决策树的优点:
一、 。
二、 对于决策树,,比方去掉多余的或者空白的属性。
三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
四、 决策树是一个白盒模型。假如给定一个观看的模型,那么依据所产生的决
策树很简单推出相应的规律表达式。
五、 易于通过静态测试来对模型进展评测。表示有可能测量该模型的可信度。
六、 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
七、 可以对有很多属性的数据集构造决策树。