文档介绍:他人已经发表或撰写过的研究成果,也不包含为获得要黼学或其他教育机构导师签名:工么毒、午矽踉骡度独创性声明歇和学位论文版权使用授权书学位论文作者签名:张弄本学位论文作者完全了解羲徽大孚有关保留、使用学位论文的规定,借阅·本人授概显徽太争以将学位论文的全部或部分内容编入有关数据库进行弦年岁月升日签字日期:年峦∪的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均学位论文作者签名:检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其已在论文中作了明确的说明并表示谢意。签字日期:有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ学位论文作者毕业去向:工作单位:电话:通讯地妇邮编:
摘要多见,例如诈骗信用卡的检测、信息检索、网络入侵检测、医疗诊断、文本分类在生产与生活中经常出现不均衡数据集问题,尤其在许多实际的应用领域更及生物信息检测等,其中更为重要的是少数类样本的预测。传统分类算法一般对均衡数据集具有较好的分类效果,其评价标准主要是基于精度的,而在不平衡数据集上分类效果不好,经常把少数类样本误分为大类,不能达到分类的目的。然而在不平衡数据集中,数量较小的少数类的识别率往往具有更大的意义。在不平衡数据集中,小类样本的分布比较松散,而且大量大类样本经常包围小类样本,这是小类样本的的学习面临的重大挑战之一。所以在不均衡数据集的分类问题的研究上,迫切需要新的分类方法和判别准则的出现。由于不平衡数据集在实际应用中经常碰到,它对传统的分类方法构成了巨大的挑战,如何有效地处理不平衡数据集引起了人们的关注。不均衡数据集分类也成了机器学习领域和数据挖掘的又一新的研究热点,同时也引起了模式识别、数据挖掘方面专家的研究兴趣。近年来,在⒒餮啊⒛J绞侗鸺笆萃诰虻纫恍┫喙氐难趸议上,都有关于不均衡数据集的相关专题讨论。针对下抽样的方法的不足,本文提出了一种基于劾嗟母慕惴ā为了保证整体性能的同时来提高小类样本的分类的准确率,并尽量防止含有重要信息的大类样本的丢失,我们采用了选择性抽样和随机抽样技术相结合方法对大类样本进行抽样,提出了一种基于甿聚类的下抽样的方法,通过在数据集上的实验验证其有效性。并将其应用于蛋白质相互作用位点的预测,有效的解决了蛋白质相互作用预测中存在的样本类别不均衡的问题,从而提高了蛋白质相互作用位点的识别率。总的来说,本文的主要研究内容如下:攀隽瞬痪馐菁芯亢图裳把芯康南肿础⒛康挠胍庖濉V饕<述了不均衡数据集分类面临的问题及解决策略、集成学习的实现方法及应用成果。A吮Vふ逍阅艿耐崩刺岣咝±嘌痉掷嗟淖既仿剩⒕×糠乐购
有重要信息的大类样本的丢失,引入了一种无监督的学习方法,提出了一种基于劾嗟南鲁檠姆椒āT赨数据集上的实验结果表明,这种基于划分的甿方法的下抽样算法能够有效的提高小类样本的识别率和保证整体的分类性能,该方法也可以解决现实生活中不均衡数据集分类问题。蚴隽说鞍字氏嗷プ饔梦坏阊芯康南肿从胍庖澹A私徊教岣叩鞍字相互作用位点的预测精度,本文提出了一种基于构造性神经网络集成的蛋白质相互作用位点预测的方法,以蛋白质序列谱和可及表面积为特征向量,采用窗口大小为进行蛋白质相互作用位点的预测,和传统的透哺撬惴ㄏ啾龋梅椒的整体预测性能较好,说明了基于覆盖的集成学习算法在蛋白质相互作用位点预测的正确性和有效性。攵缘鞍字氏嗷プ饔梦坏愕氖菁写嬖诘难纠啾鸩痪庀窒螅治它对蛋白质相互作用位点预测造成的影响。为了进一步提高界面残基的识别率,我们将基于甿聚类的下抽样方法应用到蛋白质相互作用位点的预测中,通过该方法获得均衡的蛋白质数据集,实验结果表明该方法能够有效的解决蛋白质相互作用位点预测出现的样本类别不均衡的问题,有效的提高了相互作用位点的识别率。关键词:不均衡数据集;下抽样方法;聚类;蛋白质相互作用位点;集成学习;覆盖算法安徽大学硕士学位论文不均衡数据集的研究及其在蛋白质相互作用位点预测中的应用
琣甌,西琣甶,瑃,.,,琻瑃..,瑃,瑆..甀.
删瑃甌甒,,,琣琲猵瑃甀..琾瓹,,.瓺畃瓼ⅲ
,篣籙籆;.,,;
目录室墼奎学硕士学位论文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究的背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文各章节的安排⋯⋯⋯⋯⋯⋯