文档介绍:第五章核酸序列分析
一、碱基组成
DNA序列一个显而易见的特征是四种碱基类型的分布。几乎所有的研究都证明碱基是以不同频率分布的。
表1 九种完整DNA序列的碱基组成
表2 人类胎儿球蛋白基因不同区段的碱基组成
表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。
除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。
重复序列大致可以分成三类,即低度重复序列、中度重复序列和高度重复序列。
中度重复序列的重复次数在10~105之间,占总DNA的10%~40%,如小鼠基因组的中度重复序列占20%,果蝇的占15%。通常是非编码序列。它包括一些蛋白质基因和RNA基因,
高度重复序列的重复次数大于106,基本的重复序列长度从几个碱基到几百个碱基或更长,占基因组的10%~60%。既有重复几百万份的基因,如rRNA基因和某些tRNA基因,更多的则是很短的非编码序列的重复,这类序列是不能转录的.
高度重复序列
高度重复序列按其长度可分为:
卫星DNA:重复序列的长度在5~100bp,这些序列聚集在一起,串联排列,总长度可达100mb(mega base)。它们在人群中的多态性不强
小卫星DNA:重复序列的长度15~70bp,串联排列,~30kb。这类重复序列在人群中存在高度的多态性。
微卫星DNA:重复序列的长度在2~6bp,也有高度的多态性。
三、RNA二级结构预测
尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还是一个未知数。即使有此局限性,二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。
四、从序列中寻找基因
基因组(genome)是指细胞或生物体的遗传物质的总量。即整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传信息。
基因(gene)被认为是DNA长链上一个由特定核苷酸组成并具有特定遗传功能的片段。
人类基因组DNA总长度约3×109bp(碱基对),包括约3~4万个基因。有些基因是一个个独立分布的,在基因与基因之间隔着较长间隔DNA即非编码区;有些基因则紧密排列在一起形成基因簇即基因复合体(plex or gene clusters)。无论是编码区还是非编码区,在人类基因组中主要以四类DNA序列存在,即单一序列、轻度重复序列、中度重复序列和高度重复序列。
基因按其功能可分为结构基因和调控基因:
结构基因可被转录形成mRNA,并进而转译成多肽链;
调控基因是指某些可调节控制结构基因表达的基因。
在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。
结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开。断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。