1 / 9
文档名称:

序列文件格式:fasta格式和Flatfile格式.doc

格式:doc   大小:36KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

序列文件格式:fasta格式和Flatfile格式.doc

上传人:花开花落 2019/5/14 文件大小:36 KB

下载得到文件列表

序列文件格式:fasta格式和Flatfile格式.doc

文档介绍

文档介绍:1、序列文件格式:fasta格式和Flatfile格式fasta格式数据库被用来存放原始数据,以及一系列附加的注释。不同的检索工具和程序利用了这些信息中的不同部分。纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如GenBankflatfile,)。这些记录还有二进代码版,更加紧凑,计算机处理也更快。但不幸的是,由于历史的原因,对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。GBFF的简单性,使我们都可以获得易用的工具,这也是EMBL和GBFF极大通用性的重要原因。作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA(或Pearson格式)文件表示的核苷酸序列数据:>L04459*******************或同样的,一个蛋白质记录:>P31373*******************FASTA格式广泛应用于许多分子生物学软件包之中。作为最简单的情况(正如上面所显示的),大于号(>)表示一个新文件的开始。标记符��上面第一个例子开始部分的L04459��后面是大写或小写字母的DNA序列,通常60个字符一行(但这并非是标准规定)。如果需要的话,用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。例如,在不违反上面规定的前提下,可以在FASTA的说明行中加入更多的内容,使这个简单的格式包含更多的信息,就象下面这样:>|*******************现在这个FASTA文件中包含了gi号码(见下面)、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。,。(在计算机中这些数据保存为一行,如果打印出来,将比本书的页面宽出许多。所以,这里做了折行处理)。在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工具用来在这些格式之间转换数据。,它可以生成GenBank、EMBL、GenPept、Swiss-Prot以及FASTA格式的文件。这一程序包含在NCBI工具软件包之中。DonGilbert的READSEQ是另一个广泛使用的工具,已包含在许多软件包中。在使用这些工具进行格式转换时,用户应当注意,有些GenBank或EMBL格式下的特性将被丢失。READSEQ只工作于序列自身,并不处理注释部分。那些只需要序列数据的程序最好使用FASTA格式的序列来进行查询。尽管FASTA格式的信息含量比其他格式少,但它提供了人和计算机都可理解的处理原始数据的简单方法。GenBankFlatfile格式GenBankflatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。在本书写作的时候,它也是从GenBank到DDBJ和EMBL数据库,以及EMBL、DDBJ之间或向其他数据库交换数据时所采用的格式。DDBJf