1 / 62
文档名称:

生物信息学之数据库及在线分析工具.ppt

格式:ppt   大小:1,613KB   页数:62页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

生物信息学之数据库及在线分析工具.ppt

上传人:文库新人 2018/10/4 文件大小:1.58 MB

下载得到文件列表

生物信息学之数据库及在线分析工具.ppt

文档介绍

文档介绍:一、数据库(Database)
用于收集、整理、储存、加工、发布和检索数据的系统。
生物类的数据库种类很多(序列、结构、生物分子互作、其他)
投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中
数据库记录通常包括两部分
原始数据
对这些数据进行的生物学意义的注释
一个数据库通常链接了多个相关数据库
核苷酸数据库-水稻抗病相关基因OsDR8
DQ176424
Taxonomy 数据库
Pubmed 数据库
NCBI-Protein 数据库
(一)数据库工具
建立纯文本数据库
GenBank 数据库、EMBL 核苷酸数据库
数据库工具
SQL(结构化查询语言)是世界上流行的和标准化的数据库语言
能够快速灵活存储记录文件和图像
下载网址
http://download./
Access
SQL
Oracle
AceDB 数据库工具
AceDB:A C. elegans DataBase(线虫数据库)
被广泛应用的管理和提供基因组数据的工具
数据形式丰富
遗传图谱
G181


RM224

R1506

Xa26
S12886



L1044
NBS119
RM144
Y6855RA

11
新陈代谢途径
物理图谱
1 ctcactacag ataa aaaaaatcga aaaac attattag gttgtgtact gatacagaaa ag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca gttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac
(二)各种生物数据库
1、核苷酸数据库
DNA、mRNA、tRNA、rRNA序列
RNA序列以cDNA序列的形式收集
核苷酸序列直接来源于实验数据
大量氨基酸序列
主要是非实验来源数据
coding sequence (CDS)
EXON
INTRON
CDS (coding sequence)
ORF (open reading frame)
数据库种类很多
三大核苷酸数据库
GenBank、EMBL核苷酸数据库、DDBJ
United States Patent and Trademark Office (USPTO)
European Patent Office (EPO)
Japan Patent Office (JPO)
收集了专利的核苷酸序列
信息资源共享:以天为基础进行数据库之间的序列数据交换
(1)GenBank
.gov/
美国NCBI的数据库,有部分蛋白质序列
数据每天更新,每年发行六版release ftp://
Release 172()
106,073,709 entries
105,277,306,080 bases
来源于260,000多个物种
大约12%的序列来源于人(Homo sapiens)


Growth of GenBank
Locus name(位点名)
Accession number (注册号或登陆号)
GI(GenInfo identifier)
NID(Nucleotide ID)
每个序列有一个flatfile
每条序列有三个专有的编号或标识(identifier)
LOCUS line
Sample record
.gov/Sitemap/