1 / 6
文档名称:

《二代测序分析》.ppt

格式:ppt   大小:31KB   页数:6页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《二代测序分析》.ppt

上传人:相惜 2021/3/3 文件大小:31 KB

下载得到文件列表

《二代测序分析》.ppt

文档介绍

文档介绍:工作进展
1
整理课件
RNA-sequences 分析方法
hisat+stringtie+ballgown
2
整理课件
HISAT
1:index算法基于BWT和以BWT为基础的FM index: FM 算法是以BWT为基础,在计算的过程中加了两个参数,一个是OCC,Occ[c,r]表示在BWT(T)中第r行之前出现字符c的个数,因为如果把整个基因组存进去,每次都要重头数一遍,消耗量太大,所以是以几百行为一组为一个check point,这样内存就小了,也方便检索;另外一个是SA, 记录第r行在参考基因组中是什么位置,这个过程是在BWT操作中实现的。
2:建立index的方式:全基因组FM index和局部index(特色,新的建索引库策略)核心算法会用到tophat3上HISAT在基因组范围内有48000个局部FM index每个长度64k,通过测试数据和真实数据的比较,发现这是一个最快的软件。
HISAT的基本设计原理:HISAT利用bowtie2来建立很多低水平结果的FM index,这些index包含两种类型:1:全基因组index;2:大量的小FMindex,每个代表64k,也因为建了很多小的index,所以总的内存使用情况也较低3 :%,分为三类:1:每个外显子至少16bp();每个外显子8-15bp(),每个外显子1-7bp();%。针对每种reads都有相应的比对策略基本的比对策略的思想是先在众多index中找,如果比对上多个地方,就往两边延伸;
4:基本的性能对比速度:110,193条reads/s, tophat 1,954;利用模拟数据正确比对率(%),tophat2();在跨越2个exon,只有1-7bp的reads来说;  uniq比对率HISAT()tophat2()
另外敏感度和准确性
HISAT(,) Tophat2(,)
100bp,,tophat2 1170分钟
3
整理课件
stringtie
StringTie和Cufflinks算法对比
cufflinks parsimony算法  (简约算法):生成最少的亚型,这种算法没有考虑转录丰度,在isoforms方面算的不准。其在算表达量的时候,按照图上的说法是用了最大似然冗余算法。
stringTie先将reads分为不同的类,然后再针对每个类的reads生成一个拼接图来确定转录本,之后每个转录本产生一个流神经网络的最大流算法来评估表达水平这个算法的意思对应过来就是在一个基因处的若干个转录本,如何分配reads的数目才能让每个转录本的数目都处在最多的状态。这个算法是求解最优化的。
在RNA组装方面优劣势对比
在组装方面StringTie具有一些优势,在低表达的部分,阈值过滤5%的StringTie比阈值过滤10%的准确度和敏感度还要高(这里的准确度和敏感度