文档介绍:摘要
摘 要
生物信息学最近几年高速发展,其中 DNA 基因表达芯片问世,它可以测量成
千上万的基因表达水平,并生成数据集。基因表达数据矩阵包含生物学的很多信
息,通过分析基因表达数据矩阵,可以进一步探索基因数据内在的联系,从而发现
和医治一些遗传疾病。
传统的聚类方法只是从行或者列单个方向上进行聚类,但是由于有些基因样
本不会在所有的行或者列中都呈现一定规律,因此我们必须从行和列两个方向上
进行聚类,这就促成了双向聚类算法的提出,并且双向聚类算法在探索基因奥秘
中发挥了巨大的作用。
本论文采用蚁群算法的思想来解决双向聚类问题,提出了一种基于蚁群的双
向聚类算法。这种算法建立基于蚁群算法的双向聚类模型寻找双向聚类簇,通过
派出相当数量的蚂蚁进行搜索,使得解集不断更新以获得全局最优。论文主要包
括以下内容:
1. 算法运用 Cheng 和 Church 提出的均方残差值概念评判双向聚类簇的质量,
建立基于蚁群算法的双向聚类模型。通过双向聚类模型寻找均方残差值小,体积
大的双向聚类簇。
2. 算法中的搜索策略是自适应的,通过蚂蚁的随机搜索和相互配合,调整信
息素数组的大小以影响之后蚂蚁的探索方向,使用正反馈机制不断的优化 bicluster
的质量,同时使用负反馈机制保证搜索的全局性。
,对算法的相关参数的选取进行了实验。
使用基于蚁群算法的双向聚类算法对酵母菌基因表达谱数据集进行分析处理,寻
找这个基因表达数据集中的双向聚类簇。分析基于蚁群的双向聚类算法的实验结
果,并将实验结果与其他双向聚类算法进行对比。
将基于蚁群算法的双向聚类算法运用到基因表达数据上,能够快速的找到双
向聚类簇,基于蚁群算法的双向聚类算法采用负反馈机制,避免陷入局部最优,
通过使用正反馈策略和大量的蚂蚁提高了结果的质量。同时,蚁群算法的分布式
特性可以使任务轻松的分解,方便多台主机同时工作。
关键词:双向聚类,蚁群算法,分布式
I
ABSTRACT
ABSTRACT
Bioinformatics is developing rapidly in recent years, which DNA gene expression
chips come out, and it can measure thousands of gene expression levels, and generate a
data set. The gene expression data matrix contains biological information, through the
analysis of gene expression data matrix, we can further explore the genetic data
intrinsically linked to the discovery and cure some genetic diseases.
Traditional clustering methods cluster only from a single row or column
, due to some genetic samples will not show certain regularity in all
the columns or rows. Therefore, we must cluster matrix from rows and columns in both
directions. This lead to a two-way clustering algorithm proposed, and two-way
clustering algorithm has played a huge role in exploring the genetic mysteries.
In this thesis, we use the idea of ant colony algorithm to solve the two-way