文档介绍:AGceptorsiteIntronPoly-TC3UTR◆重复序列分析◆开放读码框(openreadingframe,ORF)的识别◆基因结构分析◆内含子/外显子剪切位点识别◆选择性剪切分析◆CpG岛的识别◆核心启动子/转录因子结合位点/转录启始位点的识别◆转录终止信号的预测◆GC含量/密码子偏好性分析ORF重复序列分析·原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列(repetitivesequences)不多。·哺乳动物基因组中则存在大量重复序列,分为3类:高度重复序列。一般较短,长10~-300bp,重复10次左右,占基因组10%~60%,在人类基因组中约占20%,。长10~300b,重复10~105次,占基因组10~40%。哺乳类中含量最多的一种称为Alu的序列,长约300bp,重复3×105次在人类基因组中约占7%,。这类序列基本上不重复,占哺乳类基因组的50%~80%,在人类基因组中约占65%。由于大量重复序列影响序列分析,因此在对真核基因分析前,最好把重复序列屏蔽掉。/cgi-bin/WEBRepeatMasSystemse-bin/:,RHubley&cPGreen,:open-330(RMLib:20110920)CheckCurrentQueueStatusBasicOptionsSelectasequencefiletossorpastethesequencesSequence:Arabidopsisthalianachromosome2,partFASTAformat,Largesequence()takeawhiletoprocessSelectthesearchtoOutputwhensearchingtheseCrossmatchisslowerbutoftenmoresensitivethantheSearchEngine:oabblastomblastecrossmatch((openreadingframe,ORF)是一段起始密码子(ATG)和终止密码子(TAA,TAG,TGA)之间的碱基序列ORF是潜在的蛋白质编码区原核生物中多数基因的编码序列在100氨基酸以上;真核生物的编码区由内含子和外显子组成,其外显子的平均长度约为50个氨基酸。预测ORF的方法有两类:基于统计分析和模式识别(如GENSCAN,GeneMark,GRAILⅡ等),基于同源比对。视ORF开放读码框的识别Kozak规则:ORF中起始密码子ATG前后的碱基具有特定的偏好性。若将第一个ATG中的碱基分别标为1、2、3位,则Kozak规则可描述如下:;’端的15bp范围内的侧翼序列内不含碱基T;、6、、6、9位,在整个侧翼序列区中,C为偏好碱基。视基因开放阅读框/基因结构分析识别工具OrfGetorf.htmgenscan/linuxGeneMark/genemark/Web://rulai./tools/genefinder/()/.htmebFgenesvGenerationGenebuilder/-webgene/+/++http:/Web/LinuxGenomescan