文档名称：

基于统计的的分析微阵列数据挖掘技术.docx

格式：docx 大小：1,204KB 页数：63页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于统计的的分析微阵列数据挖掘技术.docx

上传人:2890135236 2017/4/24 文件大小：1.18 MB

下载得到文件列表

基于统计的的分析微阵列数据挖掘技术.docx

相关文档

文档介绍

文档介绍：独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名: 日期: 年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定) 签名: 导师签名: 日期: 年月日中文摘要中文摘要微阵列技术已经广泛地应用于生物学和医学等领域,它已经成为生物学研究中一种重要的实验方法。微阵列的出现使得我们能够在基因组范围内同时研究大量基因的表达差异。一个典型的基因表达数据中含有数千或甚至数万基因在几个或几十个不同条件下的表达丰度值。目前,各种不同的数据挖掘方法被应用于微阵列数据的分析研究,以揭示潜在的基因表达模式,对基因和样本进行分类研究和解释。本文主要采用三种基于统计学的方法来对微阵列数据进行分析。聚类分析是一种对数据进行分类的基本的统计方法。聚类得到的分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员相似性较小。目前对基因的聚类分析的应用很多,但很少对微阵列数据聚类结果的有效性进行评估。采用不同的聚类方法,得到的结果可能相差很大,因此,很有必要对聚类结果进行评估,以选择一个比较合适的聚类方法。本文细致地研究了不同的基因距离度量和不同的聚类有效性评估方法,结果表明,相关系数能够很好地刻画出基因表达谱之间的相似性,而各种不同的聚类有效性评估方法均可对聚类研究进行指导。主成分分析(PCA) 往往用于多元数据的降维,以利于后续的分析任务或降低分析代价。 PCA 已经成为一种有效的微阵列数据分析方法。一个典型的微阵列数据,很难直接比较全部基因表达谱的差异,对大批量基因的分类也很难实现。本文采用一种基于主成分空间得分的基因选择方法。把微阵列数据投影到主成分空间后,不仅能够对选取的几个主成分给予合理的生物学解释,还有助于发现有意义的基因表达模式及相关的基因,这有助于基因周期性表达研究和基因调控网络研究。特别地,本文推荐首先将基因表达谱进行分块,然后对各块进行 PCA 分析,这样可以防止某些特殊的基因表达模式被忽略掉,并且有助于找出相关的基因以便进一步地研究。与 PCA 不同的是,独立成分分析(ICA) 对数据的分解,使得各成分之间相互尽可能地统计独立,主要用于盲源分析(BSS) 。本文采用线性 ICA 分析微阵列数据,提取出若干表达模式,它们分别代表着影响基因表达的某一潜变量。这些 I 电子科技大学硕士学位论文提取出来的模式与用 PCA 提取出来的基因表达模式非常吻合。然而,对微阵列的 ICA 分析,目前还没有比较合理的解释。关键词: 微阵列、数据挖掘、聚类分析、主成分分析、独立成分分析Ⅱ ABSTRACT ABSTRACT Microarray technique is already extensively applied in the biology and medical sciences, it has e a kind of important experiment mean in biology research .The invention of microarrays allows us to study simultaneously variations of genes at the genome-wide scale. A typical gene expression data set consists of thousands or even tens of thousands of genes, and a few dozen experiments. the correspond data analysis methods are also being quickly developed. Currently, various data mining methods are used to mine the underlying gene expression modes, which may introduce reasonable interpretations in identifying groups of genes or samples. In this paper