1 / 70
文档名称:

硕士毕业论文-蛋白质生物功能的机器学习方法研究.doc

格式:doc   页数:70
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

硕士毕业论文-蛋白质生物功能的机器学习方法研究.doc

上传人:绝对好男人 2013/11/12 文件大小:0 KB

下载得到文件列表

硕士毕业论文-蛋白质生物功能的机器学习方法研究.doc

文档介绍

文档介绍:中图分类号: 单位代号:10280
密级: 学号:07720172


硕士学位论文
SHANGHAI UNIVERSITY
MASTER DISSERTATION


蛋白质生物功能的机器学习方法研究
作者朱昱倍
学科专业物理化学
导师陆文聪教授
完成日期二零壹零年五月
A Dissertation Submitted to Shanghai University
for the Master’s Degree in Science
Using Machine Learning Methods
In Invesigation of Protein’s Biological Functions
M. D. Candidate:Zhu Yubei
Supervisor:Prof. Lu Wencong
Major:Physical Chemistry
Science College, Shanghai University
May, 2010
摘要
近些年来,随着信息技术和生物检测手段的不断发展,生命科学的数据资源急剧膨胀。实验工作者在产生大量数据的同时,也对理论研究者提出了更多的难题。利用机器学习这一方法来分析这些数据,我们可以从中找出隐含的规律和模式,从而进一步加深对事物的认识。本文就是采取这一研究方法,对蛋白质的生物功能进行建模和预报。
在本文的工作中,我们使用了机器学习方法来对蛋白质和小分子的相互作用、蛋白质糖基化位点的识别进行建模和预报。另外我们还探讨了一系蛋白质列生物功能在线预报系统的建设和优化。本文的主体工作分为三个部分:
用集成学习算法对蛋白质和小分子的相互作用进行研究。我们针对代谢途径下的酶和底物之间的相关作用,建立了相互作用预报模型。通过对数据集的变量筛选和降维的评价,我们保留了原有的变量集合。在后续的建模过程中分别用AdaBoost,Bagging, SVM, KNN, 决策树对酶和底物进行建模。10组交叉验证和独力测试集的结构显示,集成学习方法AdaBoost,Bagging的分类能力最好,都达到了71%以上。而我们接着又把不同的分类器组合集成后发现,前2个性能最好的集成学习算法和KNN组合后的体系具有最好的推广能力,其独立测试集中正样本的正确率又在原先最好的结果下提高了近4%,%。结果证明,多重集成学习算法可以用来研究蛋白质和小分子相互作用,所得到的模型有很好的预测性能。此外,我们根据所建立的酶和底物相互作用的预测模型,同时开发了相应的在线预报系统。
用CFS-Wrapper筛选变量法结合AdaBoost集成方法对蛋白质O端糖基化位点进行研究。在许多的生化过程中都需要有O-端糖链的参与。然而糖基化是一个复杂的过程,迄今为止还未得出一个固定的模式。我们对收集到的糖基化和非糖基化肽段, 并用肽段中残基的物化参数,以AAIndex库中的数据进行表征。分别尝试了CFS方法以及PCA主成分变换进行变量筛选。在进行初步的变量筛选后,分别用SVM、KNN、、AdaBoost、Bagging对不同的变量筛选方法进行多组交叉验证和独立测试集的评价。接着确定以AdaBoost建模和CFS变量筛选结果为基础,做进一步的Wrapper筛选。最终筛选出23个变量的子集。其十组交叉验证
%、%。根据该模型,我们开发了蛋白质糖基化点位的在线预报系统。
利用Java网页技术、weka软件、第三方开发包等工具开发出了一系列蛋白质生物功能在线预报系统。我们分别从设计原理,实现方法以及优化手段等提出了自己的看法和见解。这些在线预报系统涉及到亚细胞定位、翻译后修饰、蛋白质相互作用、酶和底物作用等方面的内容。其中采取MVC的设计模式简化了构建在线预报服务的实现工作,提高了工作效率。并且在诸如weka、httpclient、多线程等技术的使用下使我们的预报系统具有更好的用户体验。
关键词:蛋白质生物功能、机器学习,集成学习,组合分类器,酶和底物,O端糖基化,AdaBoost, CFS,在线预报服务器
Abstract
In recent years, data resources of biology are growing rapidly for the developments in IT and detection technology. When the experimental scientists get their research data, they also create many problems to the theoretical scientists. Us