1 / 98
文档名称:

微阵列数据分析中基因选择及样本分类方法研究.pdf

格式:pdf   页数:98页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

微阵列数据分析中基因选择及样本分类方法研究.pdf

上传人:nb6785 2015/11/13 文件大小:0 KB

下载得到文件列表

微阵列数据分析中基因选择及样本分类方法研究.pdf

相关文档

文档介绍

文档介绍:摘要关键词:生物信息学,微阵列,差异表达基因,基因选择,多重假设检验,集对比微阵列技术给生物学研究领域提供了极为丰富、详尽的基因表达信息。对微阵列数据的分析研究可以帮助人们理解生命现象的机理,并促进医学向更精确的诊疗方向发展。鉴于基因微阵列数据的高维小样本、高噪声等特点,迫切需要借助于先进的计算方法来分析和利用这些原始信息。微阵列数据分析是生物信息学的重要研究课题,检测差异表达基因、最大化样本分类准确率是其中两大关键技术。本文从基因选择、基因约简、样本分类三方面展开研究,并取得如下研究成果:首先研究了差异表达基因选择问题,提出了基因差异表达显著性阂值的计算方法。该方法通过构造一个优化的统计量,根据给定的错误率指标估算出统计量的阈值,使得统计量大于该阈值的基因可被认为是差异表达基因。仿真及真实微阵列数据上的实验结果验证了该方法的有效性。在本论文中,差异表达基因被用作样本分类的特征基因。在确定基因是否差异表达的基础上,为了减少特征基因冗余对样本分类的影响,研究了多种基因约简方法。约简是基于粗糙集理论的知识发现过程。经典的粗糙集理论建立在等价关系基础上之上,其结果对数据噪声较为敏感。本论文提出了秩相关分析、近似分布约简、区间值分析等基因约简方法。实验结果表明,通过这些方法优化的特征基因集有效地提高了样本分类的准确率。微阵列数据的小样本特性给现有的分类算法带来了新的挑战。本文提出了一个基于主曲线的微阵列数据分类方法。该方法首先在训练数据集上计算出每类样本的主曲线,然后根据测试样本与各类样本的主曲线间距离的期望方差来确定测试样本所属的类别。实验结果表明,该方法在处理样本数量偏少的数据集时,较之其他几种主流分类方法有一定的优势。较优势关系,主曲线博士论文微阵列数据分析中的基因选择及样本分类方法研究
—琹—.,,,築琈.,琣,甌,..瓻琍博士论文...甀.,
髀了新兴的交叉科学——生物信息学。“生物信息学庖幻首钤缬蒆科学的进步使得人类可以越来越深入地探索自然界生命,甚至包括人类自身的秘密。自年美国科学家凇犊蒲А吩又旧戏⒈淼亩涛闹新氏忍岢“测定人类的整个基因组序列闹髡乓岳础綢擞肽J缴锘蜃榈牟庑蚬ぷ鹘极为迅速。人类基因组多年前就己被人类自己破译了。早在年,菘中就已存贮了,趸蛱跄浚⑶遥庖皇置鲈路环】。数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘。与正在以指数方式增长的生物学数据相比,人类相关知识的增长却十分缓慢。一方面是巨量的数据;另一方面是人们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这一矛盾催生博士于世纪年代提出,最初的名字是“,后来改为“’’【俊根据牛津英语词典的定义,生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。生物信息学简介一般意义上,生物信息学是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的一门学科,它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘【稹>咛宥裕镄畔⒀ё魑新的学科领域,它是把基因组蛄行畔⒎治鲎魑T赐罚诨竦玫鞍字时嗦肭男畔⒑进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的三个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括三个主要部分【浚新算法和统计学方法研究;骼嗍莸姆治龊徒馐停研制有效利用和管理数据的新工具。生物信息学基本上是分子生物学与信息技术的结合体。生物信息学的研究材料和结果是各种各样的生物学数据,研究工具是计算机,研究方法包括对生物学数据的搜索占蜕秆、处理嗉⒄怼⒐芾砗拖允及利用扑恪⒛D。生物信息学的主要研究重点如下【】:甃微阵列数据分析中的基因选择及样本分类方法研究博士论文
蛄斜榷生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分子序列进行分析,也就是研究新的计算方法,从大量的序列信息中获取基因结构、功能和进化等知识。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定,拼接,基因的表达分析,到偷鞍字实慕峁构δ茉げ猓镏智自凳鞯墓菇ǖ榷夹枰=猩锓肿有蛄械相似性比较。生物信息学中的序列比对算法的研究具有非常重要的理论价值和实践意义。鞍字式峁贡榷院驮げ一种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是