文档介绍:实验三:基因序列分析
基因与蛋白质组学数据分析
实验项目三:基因序列分析
一、 实验目的和要求:
掌握基因可读框的识别;
掌握启动子区域的预测
掌握CpG岛的预测
掌握转录终止信号的预测
采用mRNA序列预测基因:Spidey的使用
掌握各预测服务器结果的分析
.
2
原核生物基因结构
1 长开放阅读框
2 高基因密度
3 简单的基因结构
4 基因组中GC含量变化非常大
特点:
.
3
真核生物基因结构
特点:
1 基因结构复杂
2 具有复杂的基因转录调控方式
3 具有丰富的可变剪接
4 有明显的CpG岛、密码子使用具有偏好性
.
4
基因组序列分析
.
5
例:What is Gene Prediction? Given an uncharacterized DNA sequence, find out: does the gene starts and ends? regions code for a protein?
AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC
gene 1
gene 2
gene 3
exon
intergenic region
intron
.
6
.
7
一 开放读码框的识别
开放读码框(open reading frame, ORF)
是一段起始密码子和终止密码子之间的碱基序列
ORF 是潜在的蛋白质编码区
基因预测
.
8
基因开放阅读框/基因结构分析识别工具
Getorf
EMBOSS
通用
Plotorf
EMBOSS
通用
ORF Finder
NCBI
通用
BestORF
Softberry
真核
GENSCAN
MIT
脊椎、拟南芥、玉米
Gene Finder
/
Zhang lab
人、小鼠、拟南芥、酵母
FGENESH
Softberry
真核
GeneMark
/
GIT
原核
GLIMMER
http://w