1 / 5
文档名称:

bigscale大规模单细胞测序数据分析利器.doc

格式:doc   大小:25KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

bigscale大规模单细胞测序数据分析利器.doc

上传人:学习的一点 2021/7/25 文件大小:25 KB

下载得到文件列表

bigscale大规模单细胞测序数据分析利器.doc

文档介绍

文档介绍:bigSCale,大规模单细胞测序数据分析利器
bigSCale: an analytical framework for big-scale single-cell
西班牙研究人员在Genome Research上发表了一个用于对单细胞进行大规模分析的工具-bigSCale,该工具包括对成千上万的细胞进行降维,聚类,差异分析,鉴定每个细胞群体的特异表达基因等。随着单细胞测序技术的火热,现在产生了越来越多的单细胞测序数据,比如各种人类细胞图谱计划等,bigSCale的产生使得研究人员不再惧怕大型数据分析带来的各种挑战。下面我们来看一下整个文章的分析结果:
bigSCale的分析框架scRNA-seq数据在基因表达谱中会呈现出很多噪音,包括扩增偏差,测序深度差异等,bigSCale因此建立了一个概率模型,用来定义细胞间的表型距离。1,为了产生这个模型,转录组表达高度相似的细胞被归为一组,这一过程也叫做preclustering,这样分出的每个group中的细胞被认为是生物学重复,后续用来评估技术噪音。在进行preclustering的时候需要先对表达谱进行标准化处理,包括(1)将reads或者UMI按照library size进行标准化,(2)对标准化的表达值进行log转化,(3)将每个基因的表达值进一步标准化到相同的间隔,(4)计算细胞间的皮尔逊相关系数,利用ward's linkage进行层次聚类,确保高度相似的细胞被聚到一个group。然后组内表达差异被用来估计噪音,bigSCale会给每个基因一个P值,代表细胞与细胞间表达变化的可能性。2,差异基因分析时,bigSCale会给每个基因一个P值,表示两组细胞表达变化的可能性。bigSCale会对进行比较的两组细胞进行所有细胞对的比较,在任意两个细胞进行比较过程中,重复出现的差异基因会进行累计得分,这些得分最后矫正成P值。3,进行细胞聚类时,计算所有细胞对的距离,产生一个距离矩阵,进而把细胞归到不同组。在进行聚类计算的时候bigSCale选取的是那些变异度大的基因,一些相关系高的基因,孤立的基因,或者与性别相关,与细胞周期相关的基因都被剔除。4,鉴定出cell cluster之后,下一步就是进行迭代的差异分析,寻找能代表每一个cell cluster的基因marker5,bigSCale具有极高的处理速度,能够直接分析高达100000个细胞的数据。鉴定差异表达基因为了评估bigSCale在寻找差异基因方面的表现,研究人员对1920个来源于四个综合征患者(WB,Dup7,注:这些患者在chr7特定区域有连续多个基因发生缺失或者扩增,这些基因是否能检出可以用来评估算法敏感性)的细胞和735个来源于健康捐赠者的细胞利用不同算法(bigSCale, monocle2, BPSC, SCDE等)进行差异分析。对WB1患者进行分析,分析结果显示bigSCale对12个下调基因的检出具有最高敏感性(图A),同时它检出的基因数也最多(图B)。在对剩下三个患者的分析中,bigSCale依然表现很佳(图C),在差异基因分析方面优于其他方法。之后研究人员又通过分析simulated data sets(包括不同数据量间的比较等)来比较bigSCale和其他工具在寻找