文档介绍:第六章基因预测和基因结构分析
人们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色。例如,DNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因子结合位点等信息;蛋白质的分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区段、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。虽然用实验的方法是多年以来解决这类问题的主要途径,但新的思路是利用已有的对生物大分子结构和功能特性的认识,用生物信息学的方法通过计算机模拟和计算来“预测”出这些信息或提供与之相关的辅助信息。由于生物信息学的特点,可以用较低的成本和较快的时间就能获得可靠的结果。近10年来生物学序列信息的爆炸性增长大大促进了各种序列分析和预测技术的发展,目前已经可以用理论预测的方法获得大量的结构和功能信息。要注意的是,尽管各种预测方法都基于现有的生物学数据和已有的生物学知识,但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件,因此最好对同一个生物学问题尽量多用几种分析程序,综合分析各种方法得到的结果和结果的可靠性。此外,生物信息学的分析只是为生物学研究提供参考,这些信息能提高研究的效率或提供研究的思路,但很多问题还需要通过实验的方法得到验证。
在构建一个基因结构预测模型时,一些主要问题是值得注意的:(1)对真核生物序列,遮蔽重复序列应先于其它分析过程;(2)大多程序都有特定生物物种适用性;(3)许多程序只能特定适用于基因组DNA数据或者只适用于cDNA的数据;(4)序列的长度也是一个重要因素。
针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
重复序列分析
对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。常见的重复序列分析程序有GrailEXP等,可以在Web界面上使用这些程序,或者用Email来进行。
数据库搜索
把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段,在上一节中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序