1 / 55
文档名称:

基因微阵列数据的双向聚类算法研究.pdf

格式:pdf   大小:1,633KB   页数:55页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基因微阵列数据的双向聚类算法研究.pdf

上传人:陈潇睡不醒 2021/11/10 文件大小:1.59 MB

下载得到文件列表

基因微阵列数据的双向聚类算法研究.pdf

文档介绍

文档介绍:摘要
基因芯片是由大量 DNA 或寡核苷酸探针密集排列所形成的探针阵列。基因芯片
上探针与经荧光标记的目标样品进行生物反应,利用专用芯片检测系统并借助于一定
的软件即可得到基因表达数据。这个技术应用于不同发展阶段,不同人体组织,不同
临床条件以及不同生物体等条件下的基因表达水平的测量。基因芯片的出现正在给生
命科学研究、疾病诊断、新药开发、食品卫生监督等领域带来一场革命。
本文的贡献主要体现在以下几个方面:
首先,对基因数据分析中的一种双向聚类方法—格子模型法进行了深入的分析,
并对其进行了改进。格子模型是一个混合有二进制变量和连续变量的模型。对于该模
型,传统的用于连续变量的优化算法不再适用。为此,本文提出了一种新颖的神经网
络方法来解决这种混合有二进制变量和连续变量的优化问题,并将该方法应用于酵母
数据分析,实验结果表明使用这种方法后双聚类的精度得到了很大的提高。
其次,本文还对基因数据分析的另一种方法非负矩阵分解方法进行了改进。传统
的非负矩阵分解算法有一定缺陷,其初始值是随机设定的,因此在迭代过程中会出现
微小的抖动。为此本文在迭代计算过程中加入了数据平滑处理,并将该方法用于一组
白血病微阵列数据分析。实验结果表明,改进过的非负矩阵分解算法提高了分类的准
确率,同时这个方法避免了 NMF 算法的“零值”问题。
第三,本文介绍了 NNMF 算法的基本原理,对其加入了一个平滑处理,增加了
数据元素之间的联系,同时这个方法由于抬高了数据,避免了 NMF 算法中的“零值”
问题。本文首次将 NNMF 算法应用于生物信息学中,用白血病微阵列数据进行了实
验。实验结果表明,该方法提高了分类的准确率及算法的收敛速度。

关键词:基因数据分析,双向聚类,格子模型,神经网络,非负矩阵因子分解,
数据平滑处理

作 者: 张 瑾
指导老师:王加俊
ABSTRACT
Gene chips are high density probe arrays composed of large amount of DNA or
oligonucleotide probes. The probes on the chip hybridize with the fluorescently marked
target samples. The gene expression data can be obtained by using the special chips
detection systems and with the help of some software. The applications of such a
technology are in measuring gene expression levels in different developmental stages,
different body tissues, different clinical conditions and different organisms, etc. Gene chips
are now bringing a great revolution in the fields of life science research, disease diagnosis,
new drug development and food hygiene supervision.
The contributions of this thesis are as follows:
Firstly, a novel neural-network approach is proposed for the plaid model where both
the binary and continuous variables are contained and the traditionally used optimization
methods for problems with o