文档介绍:实验项目三:基因序列分析
一、 实验目的和要求:
掌握基因可读框的识别;
掌握启动子区域的预测
掌握CpG岛的预测
掌握转录终止信号的预测
采用mRNA序列预测基因:Spidey的使用
掌握各预测服务器结果的分析
*
第一页,共49页。
原核生物基因结构
1 长开放阅读框
2 高基因密度
3 简单的基因结构
4 基因组中GC含量变化非常大
特点:
*
第二页,共49页。
真核生物基因结构
特点:
1 基因结构复杂
2 具有复杂的基因转录调控方式
3 具有丰富的可变剪接
4 有明显的CpG岛、密码子使用具有偏好性
*
第三页,共49页。
基因组序列分析
*
第四页,共49页。
例:What is Gene Prediction? Given an uncharacterized DNA sequence, find out: does the gene starts and ends? regions code for a protein?
AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC
gene 1
gene 2
gene 3
exon
intergenic region
intron
*
第五页,共49页。
*
第六页,共49页。
一 开放读码框的识别
开放读码框(open reading frame, ORF)
是一段起始密码子和终止密码子之间的碱基序列
ORF 是潜在的蛋白质编码区
基因预测
*
第七页,共49页。
基因开放阅读框/基因结构分析识别工具
Getorf
EMBOSS
通用
Plotorf
EMBOSS
通用
ORF Finder
NCBI
通用
BestORF
Softberry
真核
GENSCAN
MIT
脊椎、拟南芥、玉米
Gene Finder
Zhang lab
人、小鼠、拟南芥、酵母
FGENESH
Softberry
真核
GeneMark
GIT
原核
GLIMMER
Maryland
原核
FgeneSB
Softberry
细菌
FgeneSV
Softberry
病毒
Generation
ORNL
原核
FGENESH+
Softberry
原核
GenomeScan
MIT
脊椎、拟南芥、玉米
GeneWise
EBI
人、蠕虫
GRAIL
ORNL
人、小鼠、拟南芥、果蝇
*
第八页,共49页。
1. ORF Finder的使用及结果分析
*
第九页,共49页。
1. ORF Finder的使用及结果分析
*
第十页,共49页