1 / 90
文档名称:

基因微阵列特征选择与分类方法及研究.pdf

格式:pdf   页数:90页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基因微阵列特征选择与分类方法及研究.pdf

上传人:2982835315 2015/10/12 文件大小:0 KB

下载得到文件列表

基因微阵列特征选择与分类方法及研究.pdf

文档介绍

文档介绍:湖南大学
硕士学位论文
基因微阵列特征选择与分类方法研究
姓名:谭明奎
申请学位级别:硕士
专业:控制科学与工程
指导教师:李树涛
20090327
摘要本论文依托湖南省杰出青年基金项目“��⒄罅谢�蜓≡窦爸琢黾觳夥椒�研究”,以基因微阵列数据为主要研究对象,对特征选择及分类算法展开研究。�世纪�年代末,生物芯片技术随着人类基因组的研究应运而生。它是一种融微电子学、生物学、物理学、化学、计算机科学于一体的高度交叉的新技术,具有重大的研究价值。��⒄罅����������殖苹�蛐酒��腔�诤�酸探针互补杂交技术原理开发的。由于基因芯片能够检测细胞基因表达水平,并且具有高速度、高通量、集约化的特点,所以可以一次性对大量序列进行检测和基因分析,从而得到高维的��⒄罅谢�虮泶锸�荨��微阵列数据为通过数据挖掘在基因水平进行疾病诊断、基因治疗等提供了前提和可能性。在当前的肿瘤分类诊断中,肿瘤的诊断高度依赖于病理学工作者对肿瘤组织的主观判断,缺乏准确的诊断依据。众所周知,肿瘤的产生是由于病变组织的相关的基因发生了基因突变,而突变基因的表达水平与正常基因的表达水平是不一样的。因此即使疑似病变组织没有显著变化�慈狈Τ9娴牟±硌�夤厶卣�,利用基因表达谱也还可以根据基因表达谱的变化来区分形态上相似的肿瘤,这样有助于精确识别肿瘤类型,并根据相应的病变基因对不同类型的肿瘤开发不同的药物�缁�虬邢�药物��兄�谔岢鲎既返闹瘟剖侄危�佣�龃笾斡�琢龅幕�帷�但是由于��⒄罅惺悄匙橹�蛳赴�兴�谢�虻谋泶锸�荩���ǔ4锏�几千或上万维,而在实际临床治疗中病例样本一般较少,对于一些比较罕见的疾病,样本数更少,从而导致基因微阵列数据维数远高于样本数目。这是模式识别��,��。高维小样本数据的学****和分类一直是模式识别中难点问题。主要原因在于:���呶��菀椎贾挛�����������佣�贾卵�靶阅苎现叵陆担����⒄罅�数据一般样本数极少,使得传统的基于概率的学****方法�绫匆端寡�袄砺�失去效能,无法进行有效的分类识别;��诟呶��葜校�蠖嗍�卣魇窃肷�卣鳎�容易掩盖数据本身的结构�缋嗉洳畋鹦畔⒌�,从而造成分类学****性能严重下降。因此在基因微阵列数据分析中,��捎檬屎闲⊙�靖呶��莸难�八惴ú⑻岣�其学****和分类的性能;��愿呶��萁�刑卣餮≡褚越档推涫�菸��蛘咦既�无论是肿瘤检测还是基因选择,分类都是最核心的问题。近年来,研究人员可以对之做出早期诊断,从而可以提高肿瘤诊断的精度。另外,利用基因芯片,领域中典型的高维小样本问题���灾难���确定相关致病基因是基因微阵列数据分析的两个核心任务。������
提出了多种分类学****算法,如�甆�珻��,多层感知器,����������取��甏�衅冢瑅���热颂岢隽嘶�谕臣蒲�袄砺鄣�支持向量机���惴ā��通过最大化不同类数据之间的间隔����确定最优分类超平面,实现了结构风险最小化原则,有效克服了过学****��问题,具有良好的泛化性能。同时,由于��姆掷喑�矫嫱ü�畲蠡�涓舻玫剑�因而消除了对数据正态分布的要求,因而特别适合��⒄罅械刃⊙�靖呶���的学****和分类。��牧硗庖淮笥攀剖峭ü�捎煤撕�������������性不可分数据隐式映射到高维线性特征空间中,然后利用线性分类技术进行分类,很好地解决了非线性数据的分类问题。基于这些优点,��诨�虮泶锸�莘掷�尽管支持向量机在小样本问题上表现出了良好的性能,但是如何有效确定支持向量机的模型是一个挑战性问题。支持向量机是核方法����型算法,然而对于同一数据,核函数以及核函数参数的选择,对支持向量机的分类性能有很大影响,因而需要对��问��械髡��匝≡褡钣诺腟�参数。参�����,是模式识别研究的重要内容。由于支持向量机的模型选择本质上是一个非凸��.�����的多模������问题,一般存在多个局部极值,因而难以确定全局最优模型。传统的网格法���������谡�霾问�占浣�型�袼阉鳎�梅椒�简单,能够确定一个较好的模型,但是对于较多参数的模型选择问题,计算代价����ü�钚』疭�泛化性能界获得最优的��模型,该方法具有计算代价小,适合多参数优化的场合。但是鉴于模型选择的非凸性,以及梯度算法对初值的敏感性,基于梯度算法的模型选择容易陷入局部极值问题。更为严重的是,如果初始参数点没有得到正确的设置,可能根本无法得到一个合适的模型。针对多模优化问题,运用进化算法�������求解是一个有效的解决途径,然而进化算法一般都具有早熟和收敛速度慢的缺点,而且通常只能收敛到一个局部最优点,因而无法有效解决��哪P陀呕�侍狻�针对多模优化中存在的这些问题,本文首先提出了一种混合��瓸������.���������猄���的进化策略,能够有效改善传统