1 / 52
文档名称:

基于svmrfe的特征选择方法研究.pdf

格式:pdf   大小:3,873KB   页数:52页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于svmrfe的特征选择方法研究.pdf

上传人:1322891254 2016/8/19 文件大小:3.78 MB

下载得到文件列表

基于svmrfe的特征选择方法研究.pdf

相关文档

文档介绍

文档介绍:大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:望重三丛二匪西篮幽左丛至叠塑作者签名: 弛疆日期:j塑丛..年—£月j殳日万方数据大连理工大学硕士学位论文摘要随着人类科技的进步发展和先进仪器设备的应用,人类得到了大量的数据。其中, 高维小样本数据作为生物信息数据的特点,给数据信息处理带来了新的挑战。为了从海量数据中提取有价值的信息,数据挖掘技术应运而生。数据挖掘是一个广义的定义,吸纳了诸如统计学、机器学****模式识别等技术。作为数据挖掘技术之一的特征选择技术, 被广泛应用于生物数据处理等各个领域。特征选择技术旨在去除噪音、冗余特征,挑选问题相关及具有良好区分类别能力的特征,达到“去伪存真”的目的。虽然会丢失一些特征的信息,但却使被选择的特征更能代表问题的本质。,泛化能力强的特征选择方法,它是SVM 与后项搜索策略的结合。本文研究了RFE的后向搜索过程以求改进。在每次迭代删除过程中,使用模拟退火策略,结合皮尔森相关系数作为度量标准,重新评估当前被删除的特征子集与当前剩余特征子集之间的关系,试图找回不相关的、非冗余特征,使其有一定几率重新加回当前特征子集。越早被删除的特征,被重新考察的机会越大。另外, 在“最优’’特征子集搜索过程中,在当前特征子集与“最优”特征子集准确率持平时, 使用互信息分别重新评价两者与类标间的关系,选择关系大的特征子集作为当前搜索到的“最优”特征子集。随着分析技术的发展,基因、蛋白等生物数据维数巨增,其中既存在噪音和不含问题相关信息的无关变量,也存在相互关联的特征,共同表征复杂的生命现象。因此在处理高维生物信息样本时,去除问题无关和冗余特征,选择区分反映不同类别的生物样本的特征,寻找相互关联的特征,有助于排除噪音干扰,反映问题的实质。变量重叠度可以处理特征在各类样本上分布重叠的问题,去除噪音变量和无关变量。变量关系得分考察变量之间的相互作用,发掘变量之间相互关联。本文考虑上述因素,使用变量(特征) 重叠度、变量关系得分,结合特征在超平面上的SVM权重,共同形成特征的综合评价得分,有助于确定反映不同种类疾病、药物疗效等的标志信息。实验结果表明,基于相关性度量选择的特征子集,多角度综合评价特征得分的方法都改善了特征选择性能。关键词:;模拟退火;相关性;TSP;重叠度万方数据基于SVM-RFE的特征选择方法研究 The Research ofFeatm'e Selection Algorithm Based onSVM—RFE Abstract Along withtheadvancement ofscience technology andtheapplication ofadvanced device, thehuge datahasbeen generated dimension infeatureand small sizeinsample, isthe characteristic ofbiologicdata,and brings thenew challenge tomankind forprocessing order toextract the valuableinformation from也e bigdata,也e datamining technology isapplied,which is ageneraldefinition and posed with statisticslearning, machine learning,patternreco嘶tion and featureselection is one ofthedatamining technology,and hasbeen applied widely inprocessing information inmay realm. The feature selectiontechnology aims ateliminatingnoise,irrelevant,redundancy and non-discriminated feature,achieving thetarget,to eliminatethe falseand may l