文档介绍:第三章关键词和词组为基础的数据库检索
随着大量生物学实验数据的积累,众多的生物学数据库也相继出现,它们各自按照一定的标准收集和处理生物学实验数据,并提供相关的数据查询、处理等服务。如何从浩瀚的数据库中获取有用信息,怎样处理提取的数据,进而从中获得与生物结构、功能相关的信息成为科学工作者面临的一个急待解决的问题。用户想要有效、迅速的获取生物信息,首先必须对因特网上的生物信息资源相当了解。我们在上一章中已经详细讲述了重要的生物学一级和二级数据库。在正确选择了可能包含要查询信息的数据库后,我们就要选用合适的检索工具对其进行检索。在生物信息数据库发展的同时,各数据库开发和维护单位也在同时进行高效率的数据库检索体统的研发。检索体系可分为两大类:以关键词或词组为基础进行检索和以核苷酸或蛋白质序列为基础进行检索。前者的代表是NCBI开发的Entrez系统和EBI开发的SRS系统,而后者的代表则是NCBI的BLAST和EBI的FASTA。
Entrez检索系统
Entrez 是NCBI提供的以关键词和词组为基础的数据库检索系统。与 Entrez 体系相连的数据库有8大类29个,其包括文献数据库如Pubmed、OMIM、Books等;核苷酸序列数据库如Genbank、Gene、SNP、UniSTS等;蛋白质序列数据库如Proteins等;结构数据库如Struture、3D Domains等;生物分类数据库如Taxonomy等;基因组数据库如Genome、Genome Project等;表达数据库如UniGene、GEO profiles等; 以及其他数据库如PubChem Substance、Cancer Chromosomes等。所有的数据库既可独立检索,也可同时检索,数据库之间建有超级链接,可直接进行交互访问使用。
Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。详细的Entrez使用说明可以在该主页上获得。
Entrez检索方法
用户登录NCBI网站后可在检索栏的下拉列表中选择相应的数据库,在检索提问栏内输入检索词开始检索;也可通过“Limits”设定限定项后再进行检索。
可在下列检索领域(Search Fields)中选择关键词或词组进行检索:
登陆号(Accession):也可为GI号
anism):包含与该蛋白或核酸序列相关物种的学名和俗名。
基因名(Gene Name):基因的标准名称。
特性(Gene description):一个或几个关键词,用来描述该序列的类型。
片段长度(Sequence length)
特色(Feature key):基因特性。
关键词(Keywords):可以使用较特定的索引条目来检索以上数据库。
作者姓名(Author Name):文章作者名单,通常名字为首个字母的缩写。
附属机构(Affiliation):包括该检索领域建立时的相关信息,原作者地址,有时亦有其他作者地址
杂志名(Jo