1 / 16
文档名称:

无参考基因的转录组分析.pdf

格式:pdf   大小:738KB   页数:16页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

无参考基因的转录组分析.pdf

上传人:毒药 Posion 2022/5/16 文件大小:738 KB

下载得到文件列表

无参考基因的转录组分析.pdf

文档介绍

文档介绍:: .
reads
3. 去除低质量 reads(质量值 Q≤5 的碱基数占整个 read 的 50%以上)
4. 获得 Clean reads
Clean Reads 数据
原始序列数据经过去除杂质后得到的数据。产量统计和后续信息分析分析都基于 Clean Reads。
测序产量统计表格示例
Samples Total Reads Total Nucleotides (nt) Q20 percentage N percentage GC percentage *
Sample_A 1,634,670 122,600,250 % % %
* Total Nucleotides = Total Reads1 x Read1 size + Total Reads2 x Read2 size; Total Reads and Total
Nucleotides are actually clean reads and clean nucleotides; Q20 percentage is proportion of
nucleotides with quality value larger than 20; N percentage is proportion of unknown nucleotides in
clean reads; GC percentage is proportion of guanidine and cytosine nucleotides among total
、组装结果
我们使用短 reads 组装软件 SOAPdenovo[5]做转录组从头组装。SOAPdenovo 首先将具有
一定长度 overlap 的 reads 连成更长的片段,这些通过 reads overlap 关系得到的不含 N
的组装片段我们称之称为 Contig。然后,我们将 reads 比对回 Contig,通过 paired-end reads
能确定来自同一转录本的不同 Contig 以及这些 Contig 之间的距离,SOAPdenovo 将这些
Contig 连在一起,中间未知序列用 N 表示,这样就得到 Scaffold。进一步利用 paired-end
reads 对 Scaffold 做补洞处理,最后得到含 N 最少,两端不能再延长的序列,我们称之为
Unigene。如果同一物种做了多个样品测序,则不同样品组装得到的 Unigene 可通过序列聚
类软件做进一步序列拼接和去冗余处理,得到尽可能长的非冗余 Unigene。
最后,将 Unigene 序列与蛋白数据库 nr、Swiss-Prot、KEGG 和 COG 做 blastx 比对
(evalue<),取比对结果最好的蛋白确定 Unigene 的序列方向。如果不同库之间的
比对结果有矛盾,则按 nr、Swiss-Prot、KEGG 和 COG 的优先级确定 Unigene 的序列方向,
跟以上四个库皆比不上的 Unigene 我们用软件 ESTScan[3]预测其编码区并确定序列的方向。
对于能确定序列方向的 Unigene 我们给出其从 5'到 3'方向的序列,对于无法确定序列方向
的 Unigene 我们给出组装软件得到的序列。