1 / 24
文档名称:

数学建模论文-基于临床与基因图谱的结肠癌基因标签提取.doc

格式:doc   页数:24
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数学建模论文-基于临床与基因图谱的结肠癌基因标签提取.doc

上传人:3346389411 2013/12/12 文件大小:0 KB

下载得到文件列表

数学建模论文-基于临床与基因图谱的结肠癌基因标签提取.doc

文档介绍

文档介绍:精品设计
全国第七届研究生数学建模竞赛
题目基于临床与基因图谱的结肠癌基因标签提取
摘要
由于基因间的调控和相互作用表现为“功能基因组合”形式,基因的功能与作用是集体作用的结果,而非单个基因单独作用的结果,表现在分类特征对样本的分类能力方面就是以特征集合的形式整体体现出来的。根据这个生物学知识,本文考察由多个基因构成的基因簇作为区分正常人和癌症患者的分类因素,利用独立成分分析(ICA)技术对已给出的基因表达采样数据进行分析,最大程度地降低基因之间强烈的相互影响,从而获得对判断是否患有肿瘤或者癌症的最有直接关系但数目较少的潜在因素,即基因簇信息。随后,我们采用了支持向量机(SVM)依据提取出的潜在因素(基因簇)进行分类,筛选出致病的癌症基因15个。另外,我们还运用基于灵敏度的支持向量机对基因本身进行分类,而不是基于基因簇。利用得到的结果与基于独立成分分析的方法所提取的基因提供比较。发现所筛选的基因簇中有三个基因与灵敏度支持向量机方法筛选的基因相同。
对预处理过后的1908个基因,通过独立成分分析提取出61个基因簇,这些基因簇中含有与分类无关的基因簇,即噪声,以及与分类相关的分类因素5个。事实上,为了能够得到最好的分类因素,我们将问题转化为一类信号稀疏表示的优化问题。此外,为了进一步进行基因分类,我们利用含噪声的ICA和带松弛因子的非光滑优化模型研究带有噪声的基因图谱信息。通过含噪声模型与不含噪声模型进行对比,说明含噪模型的优势。
最后,借助于条件概率模型,对病人数据进行了筛选,将临床结论与基因图谱相结合,通过已有文献以及生物信息网站所获取资料发现,所筛选的大部分基因标签与当今临床医学所得到的直肠癌研究结论相吻合。
关键词:含噪基因簇独立成分分析支持向量机非光滑优化模型临床基因标签
一、问题的重述
癌症起源于正常组织在物理或化学致癌物的诱导下基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。随着大规模基因表达谱( Gene expression profile ,或称为基因表达分布图)  技术的发展,人类各种组织的正常的基因表达已经获得,各类病人的基因表达分布图都有了参考的基准,因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。通常由于基因数目很大,所以在判断肿瘤基因标签的过程中,我们需要剔除掉大量
“无关基因”,从而大大缩小需要搜索的致癌基因范围。
(其中22个为正常人样本,40个人为癌症病人样本),每个样本中包含2000条基因数据,我们着重需要解决以下几个问题:
(1) 由于基因表示之间存在着很强的相关性,所以对于某种特定的肿瘤,似乎会有大量的基因都与该肿瘤类型识别相关,但一般认为与一种肿瘤直接相关的突
变基因数目很少。对于给定的数据需要选择最好的分类因素;
(2) 相对于基因数目,样本往往很小,对于给定的结肠癌数据需要从分类的角
度确定相应的基因“标签”;
(3) 基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提取信息时会产生偏差,需要建立噪声模型去分析给定数据中的噪声对确定基因标签产生有利的影响;
(4) 在肿瘤研究领域通常会已知若干个信息基因(如APC、RAS基因)与某种癌症的关系密切,需要建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。
二、模型假设
1. 基因表达谱数据中虽然含有噪声,但随机噪声的强度不会淹没真正的基因信息。
2. 不同基因信号之间的冗余关系是存在的。
三、数据预处理
基因芯片经激光扫描仪扫描,再经图像分析软件进行处理,得到反映基因表达水平的数据序列。这些数据用于差异表达基因的鉴别和基因表达模式的分析之前,还需要进行初步的处理。如为了从生物学角度上更好地解释及使数据满足特定的数据分布,需要对荧光强度数据进行对数转换;实验中系统误差的存在使得不能对不同样本的数据进行直接比较,因此针对系统偏倚产生的原因而进行数据归一化是必要的,也是数据预处理中重要的一个步骤。
数据的对数转换
对数据进行对数转换是基于以下一些方面的原因。
首先是在生物学上易于理解和解释。假设两个基因在对照样品中的背景校正强度值均为1000,而在另外一种实验条件下的强度值分别为100和10000。如果从对照与实验的绝对值来看,一个基因表达的变化远远大于另一基因,即。但是,从生物学的角度出发,两个基因变化的是相等的,都是10倍的变化。用对数转换可以消除这种由两个相对变化间的不成比例所引起的误导。

最近更新

2024年宿迁职业技术学院单招职业倾向性测试题.. 40页

2024年山东电子职业技术学院单招职业技能测试.. 39页

2024年山东省淄博市单招职业适应性测试模拟测.. 39页

2024年山西林业职业技术学院单招职业技能测试.. 41页

2024年山西艺术职业学院单招职业技能测试模拟.. 42页

2024年山西铁道职业技术学院单招职业技能测试.. 41页

2024年常德科技职业技术学院单招职业适应性考.. 40页

2024年广东女子职业技术学院单招综合素质考试.. 40页

2024年广东水利电力职业技术学院单招综合素质.. 39页

2024年广东省潮州市单招职业倾向性考试题库带.. 41页

2024年广东舞蹈戏剧职业学院单招职业适应性测.. 38页

2024年广州科技贸易职业学院单招职业倾向性考.. 39页

2024年广西物流职业技术学院单招职业适应性考.. 42页

2024年广西经贸职业技术学院单招综合素质考试.. 41页

2024年开封大学单招职业技能测试题库必考题 39页

2024年徐州生物工程职业技术学院单招职业技能.. 39页

2024年徽商职业学院单招职业适应性考试模拟测.. 41页

2024年惠州工程职业学院单招职业适应性考试题.. 40页

2024年成都航空职业技术学院单招职业适应性测.. 39页

2024年承德应用技术职业学院单招职业适应性考.. 40页

2024年新乡医学院三全学院单招综合素质考试模.. 41页

2024年新疆职业大学单招职业倾向性考试题库带.. 39页

2024年无锡城市职业技术学院单招职业倾向性测.. 40页

2024年昆明工业职业技术学院单招职业技能考试.. 40页

2024年朔州陶瓷职业技术学院单招职业适应性考.. 39页

2024年林州建筑职业技术学院单招综合素质考试.. 39页

2025年医院感染管理质量控制评价内容及考核标.. 2页

2024年常州机电职业技术学院单招职业适应性测.. 78页

食品安全自查、从业人员健康管理、进货查验记.. 9页

民间非盈利组织会计制度 7页