文档介绍：核苷酸序列分析
胡松年 2005 《基因表达序列标签(EST)数据分析手册》第七章
吴祖建等 2011 《生物信息学分析实践》

重复序列分析
开放读码框(open reading frame, ORF)的识别
基因结构分析
内含子/外显子剪切位点识别
选择性剪切分析
CpG 岛的识别
核心启动子/转录因子结合位点/转录启始位点的识别
转录终止信号的预测
GC含量/密码子偏好性分析
核苷酸序列分析
重复序列分析
原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列(repetitive sequences)不多。
哺乳动物基因组中则存在大量重复序列,分为3类:
高度重复序列。一般较短,长10~300bp,重复106次左右,占基因组10%~60%,在人类基因组中约占20%,功能还不明确。
核苷酸序列分析
ORF
重复序列分析
中度重复序列。长10~300bp,重复10~105次,占基因组10~40%。哺乳类中含量最多的一种称为Alu的序列,长约300bp,重复3×105次,在人类基因组中约占7%,功能不是很清楚。
单拷贝序列。这类序列基本上不重复,占哺乳类基因组的50%~80%,在人类基因组中约占65%。
由于大量重复序列影响序列分析,因此在对真核基因分析前,最好把重复序列屏蔽掉。
核苷酸序列分析
ORF
-bin/WEBRepeatMasker
Arabidopsis thaliana chromosome 2, part sequence ()
Output
开放读码框的识别
开放读码框(open reading frame, ORF)
是一段起始密码子(ATG)和终止密码子(TAA, TAG, TGA)之间的碱基序列
ORF 是潜在的蛋白质编码区
原核生物中多数基因的编码序列在100氨基酸以上;真核生物的编码区由内含子和外显子组成,其外显子的平均长度约为50个氨基酸。
预测ORF的方法有两类:基于统计分析和模式识别(如GENSCAN, GeneMark, GRAIL II 等),基于同源比对。
核苷酸序列分析
ORF
开放读码框的识别
Kozak规则: ORF中起始密码子ATG前后的碱基具有特定的偏好性。若将第一个ATG中的碱基分别标为1、2、3位,则Kozak规则可描述如下:
第4位的偏好碱基为G;
ATG的5’端的15bp范围内的侧翼序列内不含碱基T;
第3、6、9位G为偏好碱基;
除第3、6、9位,在整个侧翼序列区中,C为偏好碱基。
核苷酸序列分析
ORF
核苷酸序列分析
ORF
开放读码框的识别
预测ORF的方法都是针对特定物种而设计的,如GENSCAN最初是针对人类的,后扩展对脊椎动物、果蝇、拟南芥、玉米基因的预测。
GlimerM适于恶性疟原虫、拟南芥、曲霉菌和水稻
对mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等
核苷酸序列分析
ORF