文档介绍：bigSCale，大规模单细胞测序数据分析利器
bigSCale: an analytical framework for big-scale single-cell
西班牙研究人员在Genome Research上发表了一个用于对单细胞进行大规模分析的工具-bigSCale，该工具包括对成千上万的细胞进行降维，聚类，差异分析，鉴定每个细胞群体的特异表达基因等。随着单细胞测序技术的火热，现在产生了越来越多的单细胞测序数据，比如各种人类细胞图谱计划等，bigSCale的产生使得研究人员不再惧怕大型数据分析带来的各种挑战。下面我们来看一下整个文章的分析结果：
bigSCale的分析框架scRNA-seq数据在基因表达谱中会呈现出很多噪音，包括扩增偏差，测序深度差异等，bigSCale因此建立了一个概率模型，用来定义细胞间的表型距离。1,为了产生这个模型，转录组表达高度相似的细胞被归为一组，这一过程也叫做preclustering，这样分出的每个group中的细胞被认为是生物学重复，后续用来评估技术噪音。在进行preclustering的时候需要先对表达谱进行标准化处理，包括（1）将reads或者UMI按照library size进行标准化，（2）对标准化的表达值进行log转化，（3）将每个基因的表达值进一步标准化到相同的间隔，（4）计算细胞间的皮尔逊相关系数，利用ward's linkage进行层次聚类，确保高度相似的细胞被聚到一个group。然后组内表达差异被用来估计噪音，bigSCale会给每个基因一个P值，代表细胞与细胞间表达变化的可能性。2，差异基因分析时，bigSCale会给每个基因一个P值，表示两组细胞表达变化的可能性。bigSCale会对进行比较的两组细胞进行所有细胞对的比较，在任意两个细胞进行比较过程中，重复出现的差异基因会进行累计得分，这些得分最后矫正成P值。3，进行细胞聚类时，计算所有细胞对的距离，产生一个距离矩阵，进而把细胞归到不同组。在进行聚类计算的时候bigSCale选取的是那些变异度大的基因，一些相关系高的基因，孤立的基因，或者与性别相关，与细胞周期相关的基因都被剔除。4，鉴定出cell cluster之后，下一步就是进行迭代的差异分析，寻找能代表每一个cell cluster的基因marker5，bigSCale具有极高的处理速度，能够直接分析高达100000个细胞的数据。鉴定差异表达基因为了评估bigSCale在寻找差异基因方面的表现，研究人员对1920个来源于四个综合征患者（WB,Dup7，注：这些患者在chr7特定区域有连续多个基因发生缺失或者扩增，这些基因是否能检出可以用来评估算法敏感性）的细胞和735个来源于健康捐赠者的细胞利用不同算法（bigSCale, monocle2, BPSC, SCDE等）进行差异分析。对WB1患者进行分析，分析结果显示bigSCale对12个下调基因的检出具有最高敏感性（图A），同时它检出的基因数也最多（图B）。在对剩下三个患者的分析中，bigSCale依然表现很佳（图C），在差异基因分析方面优于其他方法。之后研究人员又通过分析simulated data sets（包括不同数据量间的比较等）来比较bigSCale和其他工具在寻找