1 / 66
文档名称:

核苷酸序列分析.ppt

格式:ppt   大小:3,255KB   页数:66
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

核苷酸序列分析.ppt

上传人:文库新人 2018/12/1 文件大小:3.18 MB

下载得到文件列表

核苷酸序列分析.ppt

文档介绍

文档介绍:重复序列分析
开放读码框(open reading frame, ORF)的识别
基因结构分析
内含子/外显子剪切位点识别
选择性剪切分析
CpG 岛的识别
核心启动子/转录因子结合位点/转录启始位点的识别
转录终止信号的预测
GC含量/密码子偏好性分析
核苷酸序列分析
重复序列分析
原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列(repetitive sequences)不多。
哺乳动物基因组中则存在大量重复序列,分为3类:
高度重复序列。一般较短,长10~300bp,重复106次左右,占基因组10%~60%,在人类基因组中约占20%,功能还不明确。
核苷酸序列分析
ORF
重复序列分析
中度重复序列。长10~300bp,重复10~105次,占基因组10~40%。哺乳类中含量最多的一种称为Alu的序列,长约300bp,重复3×105次,在人类基因组中约占7%,功能不是很清楚。
单拷贝序列。这类序列基本上不重复,占哺乳类基因组的50%~80%,在人类基因组中约占65%。
由于大量重复序列影响序列分析,因此在对真核基因分析前,最好把重复序列屏蔽掉。
核苷酸序列分析
ORF
-bin/WEBRepeatMasker
Arabidopsis thaliana chromosome 2, part sequence ()
Output
开放读码框的识别
开放读码框(open reading frame, ORF)
是一段起始密码子(ATG)和终止密码子(TAA, TAG, TGA)之间的碱基序列
ORF 是潜在的蛋白质编码区
原核生物中多数基因的编码序列在100氨基酸以上;真核生物的编码区由内含子和外显子组成,其外显子的平均长度约为50个氨基酸。
预测ORF的方法有两类:基于统计分析和模式识别(如GENSCAN, GeneMark, GRAIL II 等),基于同源比对。
核苷酸序列分析
ORF
开放读码框的识别
Kozak规则: ORF中起始密码子ATG前后的碱基具有特定的偏好性。若将第一个ATG中的碱基分别标为1、2、3位,则Kozak规则可描述如下:
第4位的偏好碱基为G;
ATG的5’端的15bp范围内的侧翼序列内不含碱基T;
第3、6、9位G为偏好碱基;
除第3、6、9位,在整个侧翼序列区中,C为偏好碱基。
核苷酸序列分析
ORF
基因开放阅读框/基因结构分析识别工具
Getorf

Web/Linux
Plotorf

Web/Linux
ORF Finder
.gov/gorf/
Web
BestORF
.htm
Web
GENSCAN

Web/Linux
GeneMark
/genemark/
/
Web
Gene Finder
http://rulai./tools/genefinder/(Dr. Michael Zhang )
Web
FGENESH
.htm
Web/Linux
GlimmerM
/glimmerm/
Linux
FgeneSB/
FgeneSV
.htm
Web
Generation
/
Web
GeneBuilder
/~webgene/
Web
FGENESH+ /++
.htm
Web/Linux
GenomeScan

Web
GeneWise
/Software/Wise2/
Web
GRAIL
/
Web/Linux/
Windows
BCM Gene Finder
-search/gene-
Web
核苷酸序列分析
ORF
开放读码框的识别
预测ORF的方法都是针对特定物种而设计的,如GENSCAN最初是针对人类的,后扩展对脊椎