1 / 8
文档名称:

基因识别问题及其算法实现.doc

格式:doc   大小:224KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基因识别问题及其算法实现.doc

上传人:guoxiachuanyue014 2021/11/12 文件大小:224 KB

下载得到文件列表

基因识别问题及其算法实现.doc

相关文档

文档介绍

文档介绍:: .
#
基因识别问题及其算法实现
一、背景介绍
DNA是生物遗传信息的载体,其化学名称为脱氧核糖核酸( Deoxyribo nucleic acid,缩
写为DNA )°DNA分子是一种长链聚合物, DNA序列由腺嘌呤(Ade nine, A),鸟嘌呤(Gua nine,
G),胞嘧啶(Cytosine, C),胸腺嘧啶(Thymine, T)这四种核苷酸(nucleotide)符号按一定 的顺序连接而成。其中带有遗传讯息的 DNA片段称为基因(Gene)(见图1第一行)。其他的
DNA序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。
在真核生物的DNA序列中,基因通常被划分为许多间隔的片段 (见图1第二行),其中编 码蛋白质的部分,即编码序列( Coding Sequenee)片段,称为外显子(Exon),不编码的部 分称为内含子(Intron )。外显子在DNA序列剪接(Splicing)后仍然会被保存下来,并可在
#
#
图1真核生物DNA序列(基因序列)结构示意图
蛋白质合成过程中被转录(
transcription )、复制(replication )而合成为蛋白质(见图 2)。
DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋 白质(protein)上去并实现各种生命功能。
DNA序列
蛋白质序列
图2蛋白质结构示意图
对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,
其代价高昂。诺贝尔奖获得者 (Walter Gilbert,1932 ―;【美】,第一个制备
出混合脱氧核糖核酸的科学家) 1991年曾经指出: 现在,基于全部基因序列都将知晓,并
以电子可操作的方式驻留在数据库中, 新的生物学研究模式的出发点应是理论的。 一个科学
家将从理论推测出发, 然后再回到实验中去, 追踪或验证这些理论假设。”随着世界人类基
因组工程计划的顺利完成,通过物理或数学的方法从大量的 DNA序列中获取丰富的生物信
息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信
息学领域的一个研究热点 。
二、数字序列映射与频谱 3-周期性:
对给定的DNA序列,怎么去识别出其中的编码序列 (即外显子),也称为基因预测, 是
一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。
基因预测问题的一类方法是基于统计学的 ⑴。很多国际生物数据网站上也有 “基因识别”
的算法。比如知名的数据网站 http://ge 提供的基因识别软件
GENSCAN由斯坦福大学研究人员研发的、 可免费使用的基因预测软件),主要就是基于隐马
尔科夫链(HMM方法。但是,它预测人的基因组中有 45000个基因,相当于现在普遍认可
数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的 DNA序列作为训练数据
集来确定模型中的参数, 从而提高模型的预测水平。 但在