文档介绍:山东大学
博士学位论文
全基因组中网络缺失基因和微型转座子的发现及研究
姓名:陈勇
申请学位级别:博士
专业:运筹学与控制论
指导教师:李国君
20081020
全基因组中网络缺失基因和微型转座子的发现及研究摘要彼此间和代谢物间的物理和化学作用连接成复杂的网络关系,搞清楚完整的基因一蛋白质一新陈代谢网络的拓扑结构、局部组织形式和动态行为是系统生物学的最终随着生物技术的发展,人们获得了大量的基因组数据并用以了解基因组的机制。越来越多的基因组被测序,分子生物学已进入了所谓的后基因组时代。现在我们能够直接探索基因组的一些全局特性,例如能够得到任意感兴趣基因在全基因组水平上的分布,并通过比较多种相关基因组来理解生物的各种机能等等。基因通过目标。但是,现有的基因网络或者代谢途径乖对睹挥型晟疲矶喙建的网络中存在着大量的缺失基因或者说“网络漏洞”,许多基因的功能和在网络中的具体位置还没有确定,生物网络中的许多节点和连接关系还有待于确定,这就是网络缺失基因问题。发现这些网络中的缺失基因是系统生物学中一个重要的挑战性工作。另外,具有翻转互补终端序列的微型转座子虺莆⑿妥W踊蛘是基因组中的一种重要的功能基因,它能够通过自身的位置转移、增加拷贝数等行为影响基因组的大小和基因的功能实现。在基因组水平中,发现所有的微型转座了及其分布能够让我们更加深入地了解基因组的功能实现以及进化历史。对于发现缺失基因问题和发现微型转座了问题,本文分别给出了有效的算法,能够快速准确地在全基因组水平下发现所有可能缺失基因和微型转座子。本文的主要的研究内容和创新点如下:·主要研究内容对于发现缺失基因问题,我们利用信息,基因相似性信息以及畔⒐乖炝艘桓龌蜃椴慰纪迹⒗猛悸鬯惴ê蜕杓屏诵碌山东大学博士学位论文陈勇蕉ù笱в胂低晨蒲аг海媚希
信息融合和基因排序方法,在整个基因组水平下发现缺失基因。为了进一步提高方法的精度和效率,我们又利用了畔ⅲ菏紫任颐歉隽艘桓鲅罢襪的有效算法,并利用该算法计算了目标基因组中的所有可能的缓蠼ǜ眯息运用到基因组参考图中。实验结果表明,该方法非常有效,不但在目标网络中发现了大量的相关缺失基因,进一步揭示了基因网络的结构和功能特性,极大地提高了现有基因网络的精度,而且具有极强的鲁棒性。对于发现微型转座子问题,我们首次给出了一个在基因组范围内寻找和分析微型转座子的算法,并且实现了网络在线服务低://///。在许多原核生物基因组的应用试验中,我们的系统首次发现了大量的具有近期活性的微型转座子,并且该系统还首次发现了微型转座子与、微型转座子与相邻基因之间存在着影响关系,这些发现为揭示基因组的动态变化以及基因功能实现奠定了基础。第一章绪论,首先给出了本文中用到的牛物学,图论以及计算复杂性理论的基础知识介绍。第二章首次给出了一个利用信息,基因相似性信息以及畔⒗捶⑾滞缛笔Щ虻姆椒āMü冉匣蜃榇笮『徒叵担颐枪选择了龌蜃槔垂乖旎蜃椴慰纪肌8貌慰纪家运械幕蛭6サ悖礁龌因之间有边存在当且仅当它们在同一个中,或者它们是相似基因。对于目标颐抢闷渌械囊阎;蜃魑2慰蓟颍傺罢宜械讲慰蓟蚬系最为紧密的基因来构成候选基因集合,并给出了分层的信息融合和排序的方法来确定最终的基因排序。我们测试了数据库中甤乃个结果显示如果目标幸阎;虻母鍪笥个,该方法的正预测值可以达到%,并且随着基因个数的增加,可以达到%,这一预测精度远远大于现有的相关算法,而且参数分析显示该方法具有高度的鲁棒性。同时许多预测的结果已经被近期更新的菘獾慕峁な凳钦返摹J笛榻峁狗⑾中矶赡茉诟叩慕峁共愦紊暇哂泄δ芤恢滦裕饨徊缴罨藀的结构和功能特性研究。山东大学博士学位论文
第三章,给出了一个寻找挠行惴ǎ盟惴ㄌ岢隽诵蛄辛诩⒏怕蚀分矩阵等新的概念,并利用递归的计算策略来去除噪音。在许多实际的牛物序列的测试中,该算法能够比相关的算法更有效的发现真正的第四章,为了进一步提高发现缺失基因方法的精度,我们又引入了息。我们首先利用第三章中发现乃惴枋隽四勘昊蜃橹兴械膔结构,然后将此信息融合到第二章中的基因组参考图中。试验显示,畔进一步提高了寻找缺失基因算法的精度,对于所有基因个数大于的平均的式徊教岣吡嗽%。第五章首次给出了一个全基因组水平下发现所有可能微型转座子的算法,并且实现了在线服务低://///。该算法可以按照微型转座子的结构和序列相似性进行分类,同时输出许多相关统计和进化信息。应用系统,我们成功地在橹ち艘丫被深入研究的微型转座子族同时还发现了新的具有近期活性的微型转座子。另外,我们首次在蟹⑾至硕喔鑫⑿妥W子族,这些微型转座予族均具有保守的终端结构和高度的序列相似性,并且发现了近期活性的进化痕迹。且恢旨ǘ四脱蔚南妇这是首次在此极端细菌中发现微型转座子,这些大量微型转座子族的存在进一步揭示了微型转座予可能参