文档介绍:蛋白质组学研究的数据库
随着模型有机体和人类的基因组的完全测序,人们的注意力转向了蛋白质组学-蛋白质的大规模识别和定性。蛋白质组学随着强有力的新技术的出现而进展快速。蛋白质组学的数据库发展成为知识资源,提供了不同于传统形式的信息资源库。
尽管蛋白质组学技术增加了研究的蛋白质数目,单个蛋白质的识别和定性仍然是关键的。从物理证据(比如在凝胶上的迁移或者肽段的质量)识别蛋白质成分通常是起点。在此之后出现蛋白质的全序列,通常从已知的DNA序列推知,然后作出结构和功能推测。在模型有机体诸如酵母,超过一半的蛋白质已经被功能分析,大约10%已经在至少一个实验室中被研究。然而,即使对于这些蛋白质许多功能还有待发现。
蛋白质组学技术与传统方法不同,能够从许多蛋白质立即收集数据,增加我们关于在生理改变和疾病的每个时期的蛋白质表达、修饰、定位、翻转和蛋白质-蛋白质相互作用的知识。这里我们综述现存数据库和知识资源,展示如何从物理数据识别蛋白质、蛋白质的识别如何获得序列以及如何从序列分析预测结构和功能。最后,我们讨论模型有机体数据库,它提供了蛋白质功能的更多线索,以及蛋白质组数据库,它帮助研究者根据发表的研究文献所含的知识积累分析蛋白质组数据。
从实验数据识别蛋白质
今天的主要技术是二维凝胶电泳(2DE)和质谱(MS)。两种方法都是通过物理参数分辨蛋白质和肽段。在将来,更多的蛋白质可以通过蛋白质芯片上的亲和力因素直接识别,蛋白质芯片是一个与DNA 微阵列技术相似的方法,目前被用于定量mRNA表达。所有的蛋白质组分析的方法都需要数据库完成识别。
2DE技术通过大小和电荷分析蛋白质。在仔细的标化条件下,单是凝胶上的位置就足够识别一些蛋白质。SWISS-2DPAGE,一个在ExPASy服务器上的数据库,为在2D凝胶上预测蛋白质迁移提供了许多标化的凝胶图象和工具。比较已知细胞类型或组织的凝胶和SWISS-2DPAGE的图象集可以帮助识别关键标志物,但是实际上详细的比对低到中等丰度的蛋白质有困难,除非凝胶在同一实验室中在严格控制的条件下跑胶。其难度是由于蛋白质样品本身的变化性、样品制备的不可重复性以及任何凝胶系统不能完全分辨样品中的所有蛋白质。MS有希望帮助排除凝胶对凝胶方式比对的需要。
(/ 科研规划)
MS彻底改革了蛋白质组学。可以从凝胶分离的蛋白质酶解肽段获得高度精确的质量,在有有效的数据库情况下它们就足够进行蛋白质识别。通过肽段质量识别蛋白质的资源包括ExPASy的PeptIdent工具、PROWL的PepFrag、Protein Prospector的MS-FIT和MA-TAG以及SEQUEST。这些资源包括从已知和预测的蛋白质序列的理论摘要编辑的肽段数据库。通过肽质量识别蛋白质被证明足够有力来识别单一样本的多个蛋白质,有时能够直接分析纯化的蛋白质复合体。
-PROT、TreEMBL和美国的国立生物技术信息中心(NCBI)的蛋白质序列非重复(nr)集合。SWISS-PROT是一个ExPASy服务器上的蛋白质序列的注解的集合;TrEMBL是一个给以自动注解的蛋白质预测序列的大集合,直到