文档介绍:生物信息数据库与生物信息中心
/
/
二、重要生物信息数据库
HMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISILFFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLD
蛋白质序列是由20种氨基酸的单字母符号排成的序列。
蛋白质数据库种类和特点
名称
维护单位
注释
冗余度
数据量
更新
PIR
NCBI、JIPID、MIPS
部分完善
较大
较大
较慢
SwissProt
EBI、SIB
完善
小
不大
较慢
NRL3D
NCBI
完善
小
小
较慢
TrEMBL
EBI、SIB
不完善
大
大
快
GenPept
NCBI
不完善
大
大
快
NRDB
EBI
一般
小
大
较快
OWL
HGMP
一般
小
大
较慢
生物大分子三维结构数据库
蛋白质结构数据库
PDB
蛋白质分类数据库
SCOP和CATH
蛋白质结构库(PDB)
实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB()中。PDB是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB贮存有由X射线和核磁共振(NMR)确定的结构数据。
蛋白质结构
蛋白质结构存放着构成蛋白质分子的所有原子的三维空间坐标值。
蛋白质结构分类数据库
SCOP (Structural Classification of Proteins)
CATH( Class, Architecture, Topology, Homology)
蛋白质结构分类数据库SCOP
描述了结构和进化关系。
SCOP数据库从不同层次对蛋白质结构进行分类,以反映它们结构和进化的相关性。
第一个分类层次为家族,通常将序列相似性程度在30%以上的蛋白质归入同一家族,有比较明确的进化关系。
超家族:序列相似性较低,结构和功能特性表明它们有共同的进化起源,将其视作超家族。
折叠类型:无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。
蛋白质结构分类数据库CATH
类型Class、构架Architecture 、拓扑结构Topology和同源性Homology 。
分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即a主类、b主类,a-b类(a/b型和a+b型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。
CATH数据库的第二个分类依据为由α螺旋和β折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。
第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。
第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。
CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列同源性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。
蛋白质结构分类数据库CATH
基因组数据库
GDB
人类基因组数据库
AceDB
线虫(Caenorhabditis elegans)基因组数据库
四、数据库检索工具
Entrez
SRS
/
Entrez--GenBank
SRS
(Sequence Retrieval System )
SRS是欧洲分子生物学网EMBnet的主要检索工具。
SRS, Sequence Retrieval System, is a powerful database management system developed specifically for biological databases. The goal of SRS is to provide an efficient access to databases with biological contents