文档介绍:万方数据
最近邻分类的改良模型吴昊分类是数据挖掘与机器学习、文本检索、生物标志识别等现代学科中的一种重要的数据分析与处理方法,已经被广泛地应用于医疗诊断、商业欺诈检测、舆情分析、市场预测等领域,获得了巨大的成功。分类通常包含两个步骤:先从给定的标记数据中训练出一个分类器渤莆7掷嘧,然后使用分类器预测新数据的类。最近邻分类是一种懒惰算法,也是一种简单、有效的分类方法。分类不训练任何分类器,只有当给定了一个待分类数据后,它才开始工作:从给定的标记数据中找到一个跟待分类数据最近的标记数据,用这个标记数据的类来决定待分类数据的类。由于算法只取鲎罱谑莸憬欣嘣掷喾椒ū惶岢觯个最近邻数据点对待分类数据进行预测。掷嗍荖掷喾椒ǖ囊个简单扩展,也不训练任何分类器,只是确定档拇笮。备艘桓龃掷嗍莺螅却痈ǖ谋昙数据中找到龈掷嗍葑罱谋昙鞘荩缓笥谜鈑个标记数据中的最大类来决定待分类数据的类。由于惴ḿ虻ァ⒁,它通常是过拟合模矗圆馐允菪Ч茫ǘ允导适菰げ庑Ч睢:茏匀唬琸近邻选为数据挖掘的十大顶级算法之一⋯。第卷第年月广西大学学报:自然科学版文章编号:阄魇Ψ洞笱Ъ扑慊蒲в胄畔⒐こ萄г海阄鞴鹆摘要:提出一种最近邻分类的改良模型,综合考虑待分类数据的凇⑺舻拇睾驼鲅盗肥菁睦喾布,充分利用局部、部分和全局三种类分布信息,从而具有抗噪声的性能。实验表明,提出的最近邻分类改良模型具有较好的抗噪声鲁棒性,而且分类的准确率明显高于传统的掷嗨惴ā关键词:分类;噪声数据;惴中图分类号:文献标识码:,收稿日期:恍薅┤掌冢基金项目:国家自然科学基金资助项目;广西教育科学“十二·五规划课题”通讯联系人:吴吴,女,江苏高邮人,广西师范大学副教授;簍甤。:狽瑃甶琾甌瑃篶籲;:.珿,
万方数据
喙毓ぷ惴ㄊ腔诰嗬氲木植孔钣潘惴āH欢且蛭U庋木植糠掷嗑霾撸笔葜写嬖谠肷时,局部最优的基于距离的算法受到明显的影响。尽管合适的悼梢约跞踉肷荻苑掷嘈Ч挠响,但还是没有从根本上解决该问题。数据挖掘常常用于为其他目的或未来的未指明的应用而收集的算法,即使存在噪声也能产生可以接受的结果旧1疚脑趉算法局部最优的基础上,充分考虑待分类数据所属的簇和整个训练数据集的类分布信息,设计了一个综合模型掷嗨法。实验表明,提出的最近邻分类改良模型具有较好的抗噪声鲁棒性,而且分类的准确率明显高于传统的掷嗨惴ā器,或者分类模型盗酚敕瘢梢越欠治;谀P偷难胺甅屠炼柩胺嚼唷;谀P偷难胺ň褪且4颖昙堑囊阎J葜泄槟沙龇掷嘧樱饕O喙氐姆掷子有决策树掷嘧印⒈匆端分类子、神经网络分类子支持向量机分类子。懒惰学习不训练分类子,要等分类任务给定时再训练分类子,主要相关的分类算法包括基于范例的学习猙掷嗪妥罱分类。惴ㄊ且恢旨虻サ中阅苡帕嫉姆掷喾椒ǎ虼说玫焦惴憾钊氲难芯俊N南譡量性估计出,掷喾椒ǖ拇砦舐释ǔT诒匆端勾砦舐蔖土奖侗匆端勾砦舐之间,分类效果非常好。的距离大小作为权值,距离越近的近邻点在分类预测中具有更大的权重,减弱了分类算法对档拿舾程度。针对最近邻分类算法需要计算待分类数据与所有标记数据之间的距离,文献杓屏舜砘合庇涤蟹冻氲暮土属性的数据之间的距离函数。文献芯苛宋榷宰罱诘阊∪〔的可能影响,为了解决待分数据和最近邻点之间的距离可能被不重要的属性所支配,从而会导致维数灾难的问题。文献捎媒徊嫜橹ぷ魑7掷嘀柿康钠拦婪椒