1 / 23
文档名称:

精选数学建模华中赛b题优秀论文.doc

格式:doc   大小:612KB   页数:23页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

精选数学建模华中赛b题优秀论文.doc

上传人:sunny 2022/8/25 文件大小:612 KB

下载得到文件列表

精选数学建模华中赛b题优秀论文.doc

相关文档

文档介绍

文档介绍:精选数学建模华中赛B题优秀论文
第八届华中地区大学生数学建模邀请赛
承 诺 书
我们仔细阅读了第八届华中地区大学生数学建模邀请赛的竞赛细那么。
我们完全明白,在竞赛开始后参赛队员不能以任何方式〔包括电话、电子2/Wisconsin,其中9 个人出现了严重的感染病症,另外的8个人没有出现病症。接种后,每隔大约8 h从血液中采集样本测量基因表达谱数据,实验数据一共有16 个时间点( 单位: h) ,包括baseline ( -24) ,0,5,12,21,29,36,45,53,60,69,77,84,93,101,108,共268 个样本。基因表达谱数据见附件1,其中前8个为未出现严重感染病症的数据,后9个为出现严重感染病症的数据。〔其中行代表探针号,对应着不同的基因;列为各个个体血液样本在各个时间节点的数据〕个体出现感染病症的时间节点示意图见附件2。
问题:
1〕根据实验数据重构基因调控网络;
2〕通过比拟出现感染病症的志愿者和健康志愿者的样本数据,试确定病毒感染人体后导致志愿者是否会出现严重临床病症的重要蛋白。
问题分析
一个基因的表达受其他基因的影响,而这个基因又影响其他基因的表达,这种相互影响相互制约的关系构成了复杂的基因调控网络。更一般些,几乎所有的细胞活动都被基因网络所控制。生命是存储并加工信息的复杂系统,孤立地研究单个基因及其表达往往不能确切地反映生命现象本身的内在规律。因此,需要从复杂系统的角度研究基因网络。
对于问题一,考察我们如何根据已有的基因表达谱〔附录一〕去重构基因调控网络,从而推断调控网络各节点之间潜在的调控关系。考虑“反向分析法〞来重构基因调控网络,常见的基因调控网络模型有布尔网络模型、线性组合模型和贝叶斯网络模型等等。然而题目所给的数据集十分庞大,如果直接将这一万个基因全部带入模型,那么计算量是惊人的。所以需要用到多元统计方法中的主成分分析和聚类分析去实现降维的操作。
对于问题二,在已经重构好的基因网络的根底上寻找导致病毒感染人体以后导致志援者是否产生严重临床病症的蛋白质。首先我们要对数据进行分析,寻找与染病相关系数大的基因,然后依据附录一的sheet2中对于基因的描述去进一步确定关键蛋白质。
2
模型假设
针对本问题,建立如下合理假设:
题目所给数据准确可靠;
〔2〕假设不考虑个体差异性;
〔3〕基因表达呈高斯分布 ;
符号说明
表示第n个基因基于时间序列的第m组数据;
表示一个基因;
为回归系数;
代表基因X在时间点t具有的表达值;
为常数;
为误差项。


问题一需要根据所给的基因表达谱数据来重构基因调控网络,附录一中的sheet1中给出了17个志愿者体内的10000种基因,随着注入病毒后的时间变化而出现的数值变化。由于数据集过大,所以第一步要做的就是对这一万种基因进行筛选降维操作。只选取局部具有代表性的数据代入模型,从而减少计算量。对于数据的处理局部,采用多元统计中的常用方法,主成分分析和聚类分析。


由于这道题目的数据量庞大,所以,如何筛选数据就成了很重要的一步。我们这里采取先对10000组数据做主成分分析,形成1000组新变量,再对这些新变量进行聚类分析,进一步降维。
3

主成分分析的根本思想:
主成分分析的根本思想是通过构造10000个基因初始数据的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原先所有基因的信息〔降维〕,从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丧失信息的前提下从所研究的个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息。
主成分分析的实现:
设有个样品,个变量〔指标〕的数据矩阵。此题中n=10000,表示10000种基因;m=268,表示基于时间序列的基因数据变化指标。

寻找个新变量,使得
1、
2、彼此不相关
主成分的系数向量的分量刻划出第个变量关于第个主成分的重要性。
可以证明,假设为维随机向量,它的协方差矩阵的个特征值为,相应的标准正交化的特征向量为,那么的第主成分为。
称为主成分的奉献率,为主成分的累计奉献率,它表达了前个主成分中包含原变量的信息量大小,通常取使累计奉献率在85%以上即可。当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个