文档介绍:基因功能富集分析的研究进展
随着高通量测序技术的飞速发展及相关技术的广泛应 用,生物医学相关研究领域已进入了大规模组学数据呈指数 增长的后基因组时代[1]. 一方面,这使得生物医学研究得以 从单个基因的分析转变为系统水平上的研究,对于揭示生物 ,如此 庞大的数据量也给信息的有效提取和分析带来了巨大的挑 ,研究者通常会对基 因功能进行富集分析,期望发现在生物学过程中起关键作用 的生物通路,从而揭示和理解生物学过程的基本分子机制. 现在,基因功能的富集分析已成为功能组学数据分析的常规 手段,并随着高通量组学数据的发展,如从基因芯片数据到 RNA-seq数据的转变,开发出了一系列相应的分析方法,最 早开发的过代表分析(over-representation analysis, ORA)仅针 对一组基因,而高通量组学数据的发展使得功能集打分 (functional class scoring, FCS)应运而生,随着对于生物学通 路及复杂网络的深入完善和了解,又相继开发了基于通路拓 扑结构(pathway topology, PT)和基于网络拓扑结构(network topology, NT) 法进行简要的总结评述,以方便研究者了解相关领域,并选 择适合的研究工具.
1基因功能富集分析的基因功能数据库和数据类型 基因功能富集分析中的基因功能指的是众多代表一定的基 因功能特征和生物过程的基因功能集(gene set)[2],由这些基 因功能集构成的常用基因功能数据库有G0[3],生物学通路, 包含生化反应、代谢或信号通路的KEGG[4,5], Reactome[6], Biocarta⑺等,整合数据库,如MsigDB⑻ 究中,研究者通常会获得一组他们感兴趣的基因,如在疾病 和正常组织中有显著差异表达的基因,在药物或外界环境刺 其中隐含的生物学分子机制,研究者可针对这组感兴趣的基 因,进行基因功能的富集分析,发现在其中有显著富集的特 定生物学通路,从而从分子机制上来解释所观察到的生物学 ,高通量组学技术,如基因表达芯片 (microarray)或RNA-seq,可获得基因组中所有基因的表达水 ,研究者也可以直接针对 全基因组基因表达谱信息来进行富集分析,从中鉴定出案例 和对照状态下在研究对象中发生显著表达差异的生物通路, ,对于基因表达芯片和 RNA-seq,在富集分析过程中原始数据的处理方式是不同的. 其中,基因芯片记录的是连续的荧光信号强度值,而 RNA-seq记录的是RNA序列的读段个数[9],需要采用不同
,基于不同的假 说和统计方法,研究者也开发出了不同的富集分析算法和模 ,一方面极大地 促进了研究者的科研工作进展,另一方面也给研究者在选择 分类综述,具体方法及工具详见表1.
2基因功能富集分析方法基于算法的分类
基因功能富集分析的方法基于数据来源和算法大致可以分 为4大类:ORA, FCS, PT, NT的方法(图1).下文将对每类算 法分别介绍.
(ORA)方法
(1),
ORA针对的数据是一组感兴趣的基因(基因列表),其目的是 本步骤包括先将给定的基因列表与待测功能集做交集,找出 其中共同的基因并进行计数(统计值),最后利用统计检验的 方式来评估观察的计数值是否显著高于随机,即待测功能集 , Fisher精确检验和二项分布检验[45],而其中最为广泛使用 的是Fisher精确检验,即利用2X2的列联表,根据超几何分
布来检验基因列表中的基因在待测功能集中是否显著富 集.(2) 的使用,包括 DAVID, GOstat, Gen- MAPP DAVID 提供的基因功能集数据库最为全面,不仅包含大量不同物种 的基因功能注释信息,也涵盖了主流的生物通路注释库如 GO条目和KEGG通路,而且还提供了基因名称转换功能, ,DAVID已成为目前应用最广 泛的ORA分析工具.(3) 学