1 / 69
文档名称:

基因表达数据的特征选择及其分类算法研究-计算机应用技术专业论文.docx

格式:docx   大小:499KB   页数:69页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基因表达数据的特征选择及其分类算法研究-计算机应用技术专业论文.docx

上传人:wz_198613 2019/1/13 文件大小:499 KB

下载得到文件列表

基因表达数据的特征选择及其分类算法研究-计算机应用技术专业论文.docx

文档介绍

文档介绍:eneExpressionDataByShashaWeiADissertationSubmittedtoChinaJiliangUniversityInpartialfulfillmentoftherequirementForthedegreeofMasterofEngineeringChinaJiliangUniversityNovember,2014独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国计量学院或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名: 签字日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解中国计量学院 有关保留、使用学位论文的规定。特授权中国计量学院可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名: 导师签名:签字日期:年 月 日 签字日期: 年 月 日致 谢在论文完成、研究生生涯即将画上圆满的句号之际,首先,我要感谢我的导师陆慧娟教授,在论文写作过程中,她帮助我选定方向,查找文献,修改不足之处,碰到瓶颈的时候,及时给我提供思路,每天兢兢业业,给了我非常大的鼓励和关怀。在写作遇到困难时,她不辞辛苦,牺牲周六日,在实验室跟我一起写程序,一起学****和进步。在生活上,她像慈母一般温暖,对我的日常生活关爱有加,她的谆谆教诲我一直铭记于心。在此,我对陆老师表示由衷的感谢和深深的敬意!研究生期间,在学术上,我多次得到王明怡、朱建明、金群、陆羿、高志刚、夏海霞等老师的帮助,尤其是高志刚老师,他仔细认真,我的每篇论文都得到了他宝贵的意见和建议。老师们帮我解决了很多学术上和专业上的疑问,对我的论文起到了指导性的作用,在此,真诚的感谢他们对我悉心的指导和无私的帮助。感谢师兄陆江江,师姐安春霖,引领我走进研究生的大门,教会我做实验,指导我写论文,他们的努力与奋斗是我学****的榜样。感谢12级同学,感谢金伟、苏金阳、陈亮、陈会、左正魏、王艺静、宁永恒、吴坤、崔晨、张美艳,谢谢这两年半中他们对我的帮助以及给我带来的快乐。感谢师妹陈晓青,师弟王石磊、刘亚卿、杜邦俊,他们给予我活力,让我保持积极向上的心态。最后,特别感谢我的父母,他们支持我的学业,在我迷茫倦怠的时候及时引导我走出困境,是我最坚实的后盾和永远的港湾,感谢我的父母,感谢他们的关爱、支持和包容。魏莎莎2014年11月基因表达数据的特征选择及其分类算法研究摘要:随着基因组学的不断发展,DNA微阵列技术为生命科学提供新的解决问题的思路与方法。基因表达数据是一般为矩阵形式,分析的是基因发生的改变,基因间的互相关系以及基因活动产生的影响等,具有维数高、样本少、分布不平衡等特点。基因表达数据可以为疾病的诊断和治疗提供可靠的分类结果。分析基因表达数据时,需要对其进行特征选择,从而降低数据的维数,降低后期的生物学分析成本。选择出对分类起重要作用的那部分基因可以为疾病的预防与诊断等提供更准确的依据。本文将针对基因表达数据的特征选择和分类算法进行研究,主要内容包括:(1)提出基于互信息最大化的模型无关的特征选择方法。利用互信息最大化方法对基因进行初步筛选,能去除大量噪声,有效减少冗余基因,为遗传算法提供比较理想的种群初始化环境,特征选择转变为全局优化问题。选择得出的特征子集可直接用于其他类型的分类器,分类精度较高。(2)提出基于云平台的特征选择方法。结合了云计算与特征选择方法的特点,利用5台PC模拟搭建Hadoop云计算平台,用Map任务计算各自特征集的信息熵,在Reduce步骤中,对上一步得到的互信息进行排序,筛选特征,汇总后运送到客户机,在客户机端用ELM对获得的基因特征进行训练和测试,算法能够在保证一定分类精度的情况下快速进行特征选择,降低了时间复杂度。(3)提出基于鱼群优化算法的改进RELM基因表达数据分类方法。用鱼群优化算法优化RELM的输入层权值,对输出权值矩阵采用Cholesky分解,改进后的基因表达数据分类算法泛化性能好,分类精度较高。(4)改进了正则极限学****机的隐层偏置,提高了基因表达数据的分类精度。i方法优化,改进后的算法应用到肿瘤数据集中,分类精度较高。本文主要针对特征选择和分类问题开展研究,并将研究成果应用在Breast、Colon、Leukemia、SRBCT等基因表达数据集上,丰富了特征选择的方法,基因表达数据分类的准确率得到提升,为生物学以及生命科学领域的基因表达数