1 / 63
文档名称:

基于统计的的分析微阵列数据挖掘技术.docx

格式:docx   大小:1,087KB   页数:63页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于统计的的分析微阵列数据挖掘技术.docx

上传人:changjinlai 2018/5/24 文件大小:1.06 MB

下载得到文件列表

基于统计的的分析微阵列数据挖掘技术.docx

相关文档

文档介绍

文档介绍:独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工
作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的
地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不
包含为获得电子科技大学或其它教育机构的学位或证书而使用过的
材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中
作了明确的说明并表示谢意。
签名:

日期:



月日
关于论文使用授权的说明
本学位论文作者完全了解电子科技大学有关保留、使用学位论
文的规定,有权保留并向国家有关部门或机构送交论文的复印件和
磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位
论文的全部或部分内容编入有关数据库进行检索,可以采用影印、
缩印或扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后应遵守此规定)
签名:

导师签名:
日期:






中文摘要
中文摘要
微阵列技术已经广泛地应用于生物学和医学等领域,它已经成为生物学研
究中一种重要的实验方法。微阵列的出现使得我们能够在基因组范围内同时研
究大量基因的表达差异。一个典型的基因表达数据中含有数千或甚至数万基因
在几个或几十个不同条件下的表达丰度值。目前,各种不同的数据挖掘方法被
应用于微阵列数据的分析研究,以揭示潜在的基因表达模式,对基因和样本进
行分类研究和解释。本文主要采用三种基于统计学的方法来对微阵列数据进行
分析。
聚类分析是一种对数据进行分类的基本的统计方法。聚类得到的分组,一
般是组内各成员在数学特征上彼此相似,但与其它组中的成员相似性较小。目
前对基因的聚类分析的应用很多,但很少对微阵列数据聚类结果的有效性进行
评估。采用不同的聚类方法,得到的结果可能相差很大,因此,很有必要对聚
类结果进行评估,以选择一个比较合适的聚类方法。本文细致地研究了不同的
基因距离度量和不同的聚类有效性评估方法,结果表明,相关系数能够很好地
刻画出基因表达谱之间的相似性,而各种不同的聚类有效性评估方法均可对聚
类研究进行指导。
主成分分析(PCA)往往用于多元数据的降维,以利于后续的分析任务或降低
分析代价。PCA 已经成为一种有效的微阵列数据分析方法。一个典型的微阵列数
据,很难直接比较全部基因表达谱的差异,对大批量基因的分类也很难实现。
本文采用一种基于主成分空间得分的基因选择方法。把微阵列数据投影到主成
分空间后,不仅能够对选取的几个主成分给予合理的生物学解释,还有助于发
现有意义的基因表达模式及相关的基因,这有助于基因周期性表达研究和基因
调控网络研究。特别地,本文推荐首先将基因表达谱进行分块,然后对各块进
行 PCA 分析,这样可以防止某些特殊的基因表达模式被忽略掉,并且有助于找出
相关的基因以便进一步地研究。
与 PCA 不同的是,独立成分分析(ICA)对数据的分解,使得各成分之间相互
尽可能地统计独立,主要用于盲源分析(BSS)。本文采用线性 ICA 分析微阵列
数据,提取出若干表达模式,它们分别代表着影响基因表达的某一潜变量。这些
I
电子科技大学硕士学位论文
提取出来的模式与用 PCA 提取出来的基因表达模式非常吻合。然而,对微阵列的
ICA 分析,目前还没有比较合理的解释。
关键词:微阵列、数据挖掘、聚类分析、主成分分析、独立成分分析

ABSTRACT
ABSTRACT
Microarray technique is already extensively applied in the biology
and medical sciences, it has e a kind of important experiment mean
in biology research .The invention of microarrays allows us to study
simultaneously variations of genes at the genome-wide scale. A typical
gene expression data set consists of thousands or even tens of thousands
of genes, and a few dozen experiments. the correspond data analysis
methods are also being quickly developed. Currently, various data mining
methods are used to mine the unde