文档介绍:序列比对
序列比对基本概念、打分矩阵与算法
1
序列比对的根本任务是:
发现序列之间的相似性
辨别序列之间的差异
目的:
相似序列相似的结构,相似的功能
判别序列之间的同源性
推测序列之间的进化关系
•
•
•
2
主要内容
一、概述
1、生物序列之间的关系
2、序列比对的概念
3、序列比对的意义
二、序列比对的得分系统
1、核酸的得分矩阵
2、蛋白质的得分矩阵
3、空位罚分体系
三、序列比对的算法
3
1、生物序列之间的关系
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经序列内残基或者序列片段的替换、插入、缺失等遗传编译过程分别演化而来。
相似性高并不一定来自同一祖先。
4
原序列:ACGTTAGCGCTAGCTGCTAGCTAG
替换:ACGCTAGCGCTAGCTGCTAGCTAG
插入:ACGCTAGCGCTAGCTAGCTAGCTAG
缺失:ACGCTAGCGCAGCTGCTAGCTG
5
同源性(homology)
同源性:两条序列有一个共同的进化祖先,那么它们是同源的。
相似性(similarity):序列间相似性的量度。
同源性是序列同源或者不同源的一种论断,而相似性或者一致性是二个序列相关性的量化,是两个不同的概念。
两序列有90%的相似性
两序列有90%的同源性
6
直系同源(orthology):不同物种内的同源序列。
旁系同源(paralogy):同一物种内的同源序列。
7
人类与模式生物——小鼠
因为他们各自的 kit基因都存在缺陷
8
基本概念:
序列:由一些字母组成的字符串,包括核酸和蛋白质序列。
字母表(alphabet),核酸序列(DNA序列)的字母表为ATGC,再加一个gap(-)。
gap空位。
字符串长度:AT-的长度为7。
子序列【可以非连续】或子串(subsequence):原序列中任意连续的一段序列,包括0长度和全长的序列。
随机序列:每个位置出现ATGC中任何一个字符的概率都是1/4。也就没有什么生物学方面的意义。非随机序列也就是有生物学意义的序列。
距离:两序列之间差异程度的一个量化数字,如两个序列完全相同则距离为0。
2、序列比对的概念
9
序列比对(alignment),是根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
ACGCTAGCGCTAGCTGCTAGCTAG
ACGTTAGCGCTAGCTGCTAGCTAG
ACGCTAGCGCTAGCTGCTAGCTAG
ACGCTAGCGCAAGCTGCTAGCTG-
ACGCTAGCGCAAGCTGCTAGCT- G
10