文档介绍:一、数据库(Database)
用于收集、整理、储存、加工、发布和检索数据的系统。
生物类的数据库种类很多(序列、结构、生物分子互作、其他)
投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中
数据库记录通常包括两部分
原始数据
对这些数据进行的生物学意义的注释
一个数据库通常链接了多个相关数据库
核苷酸数据库-水稻抗病相关基因OsDR8
DQ176424
Taxonomy 数据库
Pubmed 数据库
NCBI-Protein 数据库
(一)数据库工具
建立纯文本数据库
GenBank 数据库、EMBL 核苷酸数据库
数据库工具
SQL(结构化查询语言)是世界上流行的和标准化的数据库语言
能够快速灵活存储记录文件和图像
下载网址
http://download./
Access
SQL
Oracle
AceDB 数据库工具
AceDB:A C. elegans DataBase(线虫数据库)
被广泛应用的管理和提供基因组数据的工具
数据形式丰富
遗传图谱
G181
RM224
R1506
Xa26
S12886
L1044
NBS119
RM144
Y6855RA
11
新陈代谢途径
物理图谱
1 ctcactacag ataa aaaaaatcga aaaac attattag gttgtgtact gatacagaaa ag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca gttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac
(二)各种生物数据库
1、核苷酸数据库
DNA、mRNA、tRNA、rRNA序列
RNA序列以cDNA序列的形式收集
核苷酸序列直接来源于实验数据
大量氨基酸序列
主要是非实验来源数据
coding sequence (CDS)
EXON
INTRON
CDS (coding sequence)
ORF (open reading frame)
数据库种类很多
三大核苷酸数据库
GenBank、EMBL核苷酸数据库、DDBJ
United States Patent and Trademark Office (USPTO)
European Patent Office (EPO)
Japan Patent Office (JPO)
收集了专利的核苷酸序列
信息资源共享:以天为基础进行数据库之间的序列数据交换
(1)GenBank
.gov/
美国NCBI的数据库,有部分蛋白质序列
数据每天更新,每年发行六版release ftp://
Release 172()
106,073,709 entries
105,277,306,080 bases
来源于260,000多个物种
大约12%的序列来源于人(Homo sapiens)
…
…
Growth of GenBank
Locus name(位点名)
Accession number (注册号或登陆号)
GI(GenInfo identifier)
NID(Nucleotide ID)
每个序列有一个flatfile
每条序列有三个专有的编号或标识(identifier)
LOCUS line
Sample record
.gov/Sitemap/