1 / 82
文档名称:

面向代谢组学数据的分类算法的分析.pdf

格式:pdf   页数:82页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向代谢组学数据的分类算法的分析.pdf

上传人:gd433 2016/3/26 文件大小:0 KB

下载得到文件列表

面向代谢组学数据的分类算法的分析.pdf

相关文档

文档介绍

文档介绍:A Thesis inPattern Recognition and Intelligent System Research on Classification Algorithm Based on Metabolomics Data By Xu Guoqing Supervisor:Associate Professor Wang Fei Northeastern University June 2013 万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:讶闯詹日期:Ⅻl弓耳易目巧口学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后: 半年臼厂一年口一年半口两年口学位论文作者签名:坼目瓜签字日期:Ⅻl弓I耳5 A这日导师签名:王栏签字日期:Ⅻ17罐6园坫目万方数据东北大学硕士学位论文摘要面向代谢组学数据的分类算法研究摘要代谢组学(Metabonomics)是继基因组学(Genomics)、转录组学(Transcriptomics) 和蛋白质组学(Proteomics)之后兴起的系统生物学的又一重要分支学科,是定性和定量结合起来描述生物内源性代谢物质的整体状况及其对内外环境变化做出应答的规律性科学。针对代谢组学的研究在医药领域、发病机理探讨、基于代谢组的人体生理状况研究等都有非常重要的研究价值和现实意义。本文以代谢组学核磁共振数据(Nuclear ic Resonance,NMR)和代谢组学液相色谱质谱联用仪数据(Liquid Chromatography Mass Spectrometry,LCMS)为研究对象,针对各个数据的特点分别研究了主成分分析法(PCA)、偏最d,--乘法(PLS)及等距映射算法(ISOMAP)的分类精度和算法适用性,并且在此基础上对于PCA和PLS 算法的不足之处进行优化提出核主成分分析法(KPCA)和正交偏最d'--乘法(OPLS)。其中,在数据预处理环节本文首次将独立成分分析法(ponents Analysis,ICA)应用于代谢组学数据预处理,结果显示ICA算法能够把代谢组学数据分离出相互独立的分量,有效减少数据的噪声信号。由于很多分类算法都借鉴了PCA 的算法思想,所以本文仔细阐述了PCA算法的原理,然后使用PCA对第一组NMR数据进行分类,分别绘制了样本点的二维得分图和三维得分图(Score Plot),其中基于性别的分类效果一般,基于药物类别的分类效果欠佳。考虑到可能是PCA算法线性模型的局限性,提出优化算法即基于核的主成分分析法(KPCA)。通过对比显示KPCA的分类效果有明显的提升,但面对多影响因子问题时KPCA仍然没有达到预期的分类效果。针对此问题提出偏最小二乘法(PLS),PLS算法成功解决了多影响因子问题,为了使类与类之间的分离性最大,所以又对PLS进行优化,提出正交偏最小二乘法(OPLS),然后又从载荷图角度(Loading Plot)对分类结果和生物标志物即主动变量(Biomarker)进行了全面的解释。最后为了和传统分类算法对比,提出了新型的等距映射算法(ISOMAP),并重点研究了该算法针对未知数据预测能力,然后通过交叉验证(CrossValidation)证明了算法的准确性和可靠性。关键词:代谢组学;数据分类;PCA;PLS;ISOMAP 万方数据东北大学硕士学位论文 Abstract Research on Classification Algorithm Based onMetabolomics Data Ab stract Metabolomics is an important branch of Systems Biology after Genomics, Transcriptomics,Proteomics,it is a regularity discipline which describes biological endogenous metabolites and theirimpact on the overall state of internal and external environmental bining qualitative andquantitati