1 / 5
文档名称:

数据挖掘中分类算法分析与量化研究.pdf

格式:pdf   页数:5
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘中分类算法分析与量化研究.pdf

上传人:1875892**** 2016/7/29 文件大小:0 KB

下载得到文件列表

数据挖掘中分类算法分析与量化研究.pdf

相关文档

文档介绍

文档介绍:2008年1 2月第26卷第6期西北工业大学学报 Journal ofNorthwestern Polytechnical University Dec. 2008 数据挖掘中分类算法分析与量化研究张原,高向阳( 710072) 摘要:、Bayesian置信网络、序贯最小优化(SM0)3种主流数据挖掘分类算法进行了实验分析,分别得出了在相同训练、测试样本数据下3种算法建立模型所需时间、分类准确性、覆盖率及margin曲线。分析了训练样本数量对3种算法的不同影响,为使用者在不同的样本质量下选择相应的分类算法提供理论和实验依据。关键词:数据挖掘,分类算法,训练样本,margin曲线中图分类号: 文献标识码:A 文章编号:1000—2758(2008)06—0718—05 分类算法是数据挖掘中最重要的技术之一,它的目标是从数据集中提取能够描述类基本特征的模型,并利用这些模型把数据集中的每个对象都归人到其中某个已知的数据类中。分类和预测在理论方法上基本一致,其主要区别是分类的输出是离散的类标识,而预测的输出是连续值。本文重点讨论分类算法。分类算法分为2个阶段:①通过训练构造分类模型;②分类模型应用于测试样本得到样本分类信息;主要的难点是构造准确、高效的分类模型。训练样本丁中,所有样本将被分类到m个类标识{C,, C2,?,C—I}‘:丁形式化的表示为{口1,n2,?,口。:Ci)。 Ci(i=1,2,?,m)、口,(_f=1,2,?,口)表示样本属性。分类算法的计算代价也主要集中于分类模型的构造。分类方法的评价主要基于以下5项标准: ①预测的准确性:样本数据中正确分类所占的比例;②速度:产生模型和使用模型进行分类的时间代价,由于产生模型所需要的时间占总时间的绝大部分,所以实验中主要以模型产生时间作为分类方法速度衡量标准;③鲁棒性:对噪声数据或有空值得数据,模型正确预测的能力;④可处理数据量:对大量数据有效构造模型的能力,主要是指解决驻留磁盘数据的能力;⑤可理解性:模型提供的理解的层次。数据挖掘分类模型的构造方法目前包括:决策树方法、统计方法、机器学习方法、神经网络方法、类比学习方法、遗传算法、粗糙集方法、模糊集方法、基于案例的推理方法等。 算法,统计方法中的Bayesian置信网络,机器学习方法中SM0方法为重点,详细分析在数据挖掘系统中使用最为广泛的3种分类算法的综合性能。 1算法介绍 ,结合了剪枝算法去除了不可能分支和过拟合(overfitting)分支,以此避免了过拟合问题,并大幅度提高了计算速度。 。设训练样本为丁,样本共分为m个不同的类C一(i=1, 2,?,m)。设S是任意样本集,具有ISl个数据样本,freq(Ci,S)代表S中属于类e的样本数量。则对一个给定的样本分类所需的数学期望信息为蛳cs,一剽≈铲). 1092(freql(C]i,S).)) (1) 对训练样本集递归的应用树构造函数,使得训收稿日期:2007—09—10 作者简介:张原(1968一),西北工业大学博士生,主要从事系统工程研究。万方数据