1 / 55
文档名称:

宏基因组结题报告及结果文件解读.pptx

格式:pptx   大小:6,904KB   页数:55页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

宏基因组结题报告及结果文件解读.pptx

上传人:dsmhb 2017/9/4 文件大小:6.74 MB

下载得到文件列表

宏基因组结题报告及结果文件解读.pptx

文档介绍

文档介绍:宏基因组学
结题报告及结果文件解读
微生物事业部
2017-3-15
什么是宏基因(metagenome)?
“绕过对微生物个体进行分离培养,应用基因组学技术对自然环境中的微生物群落进行研究”
Meta
genome
微生物体系整体组成
功能基因及其丰度信息
不同处理对物种和基因的影响
难分离培养菌株的基因组序列
微生物和宿主的相互作用
宏基因组研究能得到什么?
Metagenomics 信息分析流程图
meta可以准确预测高gc放线菌
一、质控
二、组装
三、基因预测
四、宏基因组物种注释
五、宏基因组功能注释
目录:
reads:经过测序得到的一条条序列
Single-end(SE) reads:单末端测序得到的序列
Paired-end(PE) reads:双末端测序得到的序列
read length:测序读长。eg:50bp,100bp......
GC content:GC含量。eg:70%,50%......
Q20、Q30...:(质量值大于 20)和 (质量值大于 30)的碱基数目的百分比
一、质控
基本概念
质控步骤
a)去除所含低质量碱基(质量值≤38)超过一定比例(参考值: reads 长度的 40%)的 reads
b)去除 N 碱基达到一定比例的 reads(参考值:reads 长度的 10%)
c)去除与 Adapter 之间 overlap 超过一定阈值(参考值: 15bp)的 reads
d)一般生物样本(粪便、肠道内容物等),需与宿主数据库进行比对,过滤掉可能来源于宿主的 reads (SoapAligner 软件,参考一致性≥90%)
一、质控
#Sample 表示样品名称;InsertSize(bp)表示使用 350bp 文库;
RawData 表示下机原始数据;
CleanData 表示过滤得到的有效数据;
Clean_Q20,Clean_Q30 表示 CleanData (质量值大于 20)和 (质量值大于 30)的碱基数目的百分比;
Clean_GC(%) 表示 CleanData 中碱基的 GC 含量;Effective(%) 表示有效数据( CleanData )与原始数据( RawData )的百分比。
一、质控
一、质控
|----
|--
|-- total.
|--
|-- QC_raw_report/
|--sampleA/
| |--
| |--
| |--
| |--
| |--
| |--
结果文件解读:
碱基含量分布
碱基质量分布
Kmer:具有指定长度为K (如K=11)的DNA序列,默认值为55
Kmer个数与Kmer长度公式:N=L-K+1 ,
假设read长(L)为31bp,K=11,一共可以产生31-11+1=21个Kmer;
Overlap:当两序列A、B的边缘区域满足设定的序列相似性,则A和B序列存在 Overlap关系。
A
B
kmer
二、组装
基本概念
Contig:通过序列的Overlap关系搭建起来的非冗余序列集;

Scaffold:通过使用具有paired-end关系的reads对Contig序列集进行连接后得到的序列集;有N
Gap:序列中未确定的区域,通常用N或n表示。
二、组装