1 / 88
文档名称:

基因微阵列特征选择和分类方法研究.pdf

格式:pdf   页数:88页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基因微阵列特征选择和分类方法研究.pdf

上传人:beny00001 2016/5/19 文件大小:0 KB

下载得到文件列表

基因微阵列特征选择和分类方法研究.pdf

文档介绍

文档介绍:Thesis forMaSter Degrce 摘要本论文依托湖南省杰出青年基金项目“DNA微阵列基因选择及肿瘤检测方法研究”,以基因微阵列数据为主要研究对象,对特征选择及分类算法展开研究。 20世纪90年代末,生物芯片技术随着人类基因组的研究应运而生。它是一种融微电子学、生物学、物理学、化学、计算机科学于一体的高度交叉的新技术, 具有重大的研究价值。DNA微阵列(DNA Microarray),又称基因芯片,是基于核酸探针互补杂交技术原理开发的。由于基因芯片能够检测细胞基因表达水平,并且具有高速度、高通量、集约化的特点,所以可以一次性对大量序列进行检测和基因分析,从而得到高维的DNA微阵列基因表达数据。DNA微阵列数据为通过数据挖掘在基因水平进行疾病诊断、基因治疗等提供了前提和可能性。在当前的肿瘤分类诊断中,肿瘤的诊断高度依赖于病理学工作者对肿瘤组织的主观判断,缺乏准确的诊断依据。众所周知,肿瘤的产生是由于病变组织的相关的基因发生了基因突变,而突变基因的表达水平与正常基因的表达水平是不一样的。因此即使疑似病变组织没有显著变化(即缺乏常规的病理学外观特征),利用基因表达谱也可以对之做出早期诊断,从而可以提高肿瘤诊断的精度。另外,利用基因芯片, 还可以根据基因表达谱的变化来区分形态上相似的肿瘤,这样有助于精确识别肿瘤类型,并根据相应的病变基因对不同类型的肿瘤开发不同的药物(如基因靶向药物),有助于提出准确的治疗手段,从而增大治愈肿瘤的机会。但是由于DNA微阵列是某组织或细胞中所有基因的表达数据,维数通常达到几千或上万维,而在实际临床治疗中病例样本一般较少,对于一些比较罕见的疾病,样本数更少,从而导致基因微阵列数据维数远高于样本数目。这是模式识别领域中典型的高维小样本问题(Small Sample Size,SSS)。高维小样本数据的学****和分类一直是模式识别中难点问题。主要原因在于:(1)超高维数容易导致维数灾难(Curse ofDimensionality),从而导致学****性能严重下降;(2)DNA微阵列数据一般样本数极少,使得传统的基于概率的学****方法(如贝叶斯学****理论)失去效能,无法进行有效的分类识别;(3)在高维数据中,大多数特征是噪声特征, 容易掩盖数据本身的结构(如类间差别信息等),从而造成分类学****性能严重下降。因此在基因微阵列数据分析中,(1)采用适合小样本高维数据的学****算法并提高其学****和分类的性能;(2)对高维数据进行特征选择以降低其数据维数或者准确确定相关致病基因是基因微阵列数据分析的两个核心任务。无论是肿瘤检测还是基因选择,分类都是最核心的问题。近年来,研究人员 ReSearch on Featurc Selection柚d ClaSs讯cation Based on DNA Micmarray 提出了多种分类学****算法,,,多层感知器,KFDA(Kemel Fisher DiscriminaIltAnalysis)等。90年代中期,vapnik等人提出了基于统计学****理论的支持向量机(SVM)算法。SVM通过最大化不同类数据之间的间隔(Margin)确定最优分类超平面,实现了结构风险最小化原则,有效克服了过学****Ovef6tting) 问题,具有良好的泛化性能。同时,由于SVM的分类超平面通过最大化间隔得到, 因而消除了对数据正态分布的要求,因而特别适合DNA微阵列等小样本高维数据的学****和分类。SVM的另外一大优势是通过采用核函数(Kemel Function),将线性不可分数据隐式映射到高维线性特征空间中,然后利用线性分类技术进行分类, 很好地解决了非线性数据的分类问题。基于这些优点,SVM在基因表达数据分类问题上得到了广泛的应用。尽管支持向量机在小样本问题上表现出了良好的性能,但是如何有效确定支持向量机的模型是一个挑战性问题。支持向量机是核方法(Kernel Method)的典型算法,然而对于同一数据,核函数以及核函数参数的选择,对支持向量机的分类性能有很大影响,因而需要对SVM参数进行调整,以选择最优的SVM参数。参数选择又称为模型选择(Model Selection),是模式识别研究的重要内容。由于支持向量机的模型选择本质上是一个非凸()的多模(Multimodal) 问题,一般存在多个局部极值,因而难以确定全局最优模型。传统的网格法(Grid Search)利用交叉验证(Cross Validation)在整个参数空间进行网格搜索,该方法简单,能够确定一个较好的模型,但是对于较多参数的模型选择问题,计算代价较高。梯度搜索法(Gradient Search)通过最小化SVM泛化性能界获得最优的SVM 模型,该方法具有计算代价小,适合多参数优化的场合。但是鉴于模型选择