文档介绍:所谓同源序列
序列谱(Profiles)方法则是利用多序列比对结果的全部信息构造每一个位点的残基替代、插入、删除分数表。从序列谱可以看出,哪些残基可以出现在某个特定位点,哪些位点是高度保守的,哪些是位点突变可能性较大,哪些位点或区域可以插入空位,等等。显然,序列谱分数表相当复杂,它不仅包含了序列比对的信息,还用到了进化和结构方面的研究结果。例如,对发生在二级结构内部的插入或删除,序列谱方法给予额外的罚分处理。
序列谱内在的复杂性使其拥有非常强大的识别能力,对于PROSITE数据库中识别能力较低的正则表达式,是一个很好的补充。在序列间进化距离很远时,模式识别方法变得无能为力,而序列谱则是值得一试的方法。
隐马尔可夫模型
另一种利用全局信息的方法是用隐马尔可夫模型((Hidden Markov Models,简称HMM)从序列比对中提取信息。HMM是描述大量相互联系状态之间发生转换概率的模型,本质上是一条表示匹配、缺失或插入状态的链,用来检测序列比对结果中的保守区。序列比对结果中的每一个保守残基可以用一个匹配状态来描述。同样,空位的插入可用插入状态描述,残基缺失状态则表示允许在本该匹配的位置发生缺失。因此,为一个多序列比对的结果构造隐马尔可夫链需要把所有的位置都用匹配、插入或者缺失这三种状态中的一种表示
隐马尔可夫模型是Pfam数据库的基础。除了隐马尔可夫模型外,Pfam数据库还提供用来产生隐马尔可夫模型的种子序列的比对结果,以及经过迭代的序列处理的最终比对结果。这些序列比对的结果力图说明进化上的功能和结构保守区。然而,与人手工开发的作为PROSITE数据库补充的序列谱不同,Pfam数据库主要是计算机程序自动完成的。因此,经过反复迭代得到的序列可能出错,检测到的序列可能与目标序列并非相关。因此,最终比对结果如不经过仔细分析,可能存在不少问题,其给出的结构和功能信息必须慎用。
其它
以上我们已经分析了一些常用二次数据库的构建方法和它们的优缺点。此外,还有其它一些二次数据库,有的相对较小,如SMART 结构域数据库(Schultz 等,1998),有的功能相对有限,如通过PIMA软件自动生成的模式数据库(Smith 和 Smith,1992),另外还有是通过DOMAINER程序自动创建的蛋白质结构域数据库ProDom(Sonnhammer 和 Kahn),等等。
在理解了各种二次数据库的构建方法和各自的优缺点后,我们更应该把生物学意义放在第一位,才能对未知序列进行准确分析,搞清匹配结果究竟来自直系同源、旁系同源或某个模块,千万不能对搜索结果不加分析地予以轻信。
二次数据库搜索实例
PROSITE数据库搜索
PROSITE数据库基于一般的正则表达式,可以访问
ls/,该页面上有两个主要的链接,Scan SWISS-PROT and TrEMBL with a pattern链接可以使用正则表达式来搜索满足该正则表达式的序列。Scan a sequence for the occurrence of PROSITE patterns链接可以由蛋白质序列在PROSITE数据库中进行相似性搜索来预测该蛋白质的所属家族。点击链接Scan a sequence for the o