文档介绍：基于微阵列数据分析的癌症诊断?基于微阵列数据分析的癌症诊断刘庆峰,王雪松,程玉虎中国矿业大学信息与电气工程学院,江苏徐州(221116)E-mail:{liuqf158,wangxuesongcumt}@摘要:在癌症诊断中,癌症的发展伴有复杂的基因表达谱变化,因此通过微阵列实验中基因表达数据的获取为癌症诊断和预测提供了新的手段。基因表达谱数据具有小样本高维数特点,而功能相似基因的表达高度相关,导致大量的冗余基因,因此找出对疾病有鉴别作用的相关基因对提高癌症诊断准确性具有重大的意义。针对基因表达谱数据的高维性,首先采用秩和检验的统计方法选取相关基因,然后结合K均值聚类与模糊C均值聚类方法建立诊断模型,提高诊断的正确性,实现癌症类型的有效诊断。关键词:K均值聚类;模糊C均值聚类;秩和检验;癌症诊断1引言自从人类基因组计划开展以来,生命科学取得了极大的发展。功能基因组织的研究重点之一就是寻找与疾病相关基因的功能,通过基因表达的研究实现疾病的诊断和基因治疗。利用微阵列基因表达谱数据的分析来检测癌症不仅能够预测癌症类型,还能够辅助研究人员开发与研制新的抗癌药物。因此利用基因表达谱数据研究癌症检测具有非常重要的实际意义。症检测中,识别样本的癌症类型是非常关键的一步。非监督学****和监督学****在对样在癌[1]本类型的识别中应用最为广泛,根据基因表达数据集如何建立有效的癌症识别模式,以预测样本的癌症类型,在基于微阵列基因表达数据的癌症检测中具有非常重要的地位。现有的癌症识别算法各自都有优缺点,没有那一种算法有绝对的压倒性优势。目前很多的研究人员采用分类的方法建立诊断模型,其中将神经网络和支持向量机应用于癌症诊断的应用比较多。然而分类的方法是一种监督学****方法,需要采用训练样本来构造判别函数,函数构造的好坏直接影响最终的诊断结果。与分类方法相比,聚类方法不需要事先知道部分样本的类别,因此,利用聚类方法构建癌症诊断模型消除了数据集中样本对模型的限制。微阵列基因表达数据有高维性和高噪声,这对癌症的检测与分类带来了极大的困难。因此,建立合适的癌症识别模型在癌症诊断中是最先需要解决的问题。微阵列基因表达谱中,样本数一般为几十至几百,基因的数量却可到达几千至几万,这在癌症检测中容易导致“维数灾难”问题。在这些基因中,真正与疾病相关的基因并不多,其余大量与疾病组织样本无关的基因会带来很大干扰,增加癌症检测的复杂度。如何将相关基因选取出来,减小无关基因对癌症类型诊断的影响也是十分重要的。特征选取方法是一种能有效降维的方法,它不仅可以提高癌症类型诊断的正确率,而且还为寻找对疾病有鉴别力的特征基因排除了大量无关基因的干扰。本文旨在利用K均值和模糊C均值(FuzzyC-Means,FCM)聚类方法建立诊断模型,采用秩和检验的统计方法选取相关基因,通过特征选取提高诊断的正确率,实现癌症类型的有效诊断。2基于特征选取的基因表达谱聚类分析癌症诊断模型诊断模型如图1所示。本课题得到高等学校博士学科点专项科研基金(20070290537,200802901506)的资助本文的工作是利用K均值和FCM聚类方法对经过秩和检验选取相关基因后癌症数据集中的样本进行聚类,实现癌症类型的诊断。由于数据集中样本数很小,因此初始聚类中心随机选择,通过多次聚类,对聚类结果进行比较,判断样本的类别。图1聚类分析癌症诊断模型2