文档介绍:Document number:PBGCG-0857-BTDO-0089-PTT1998
基因检测行业分析
精准医疗与遗传基因检测的行业分析(长文完整版)
伴随着精准医疗的提出,本已热门的遗传基因检测被越来越多百种人类疾病和性状的相关联基因被发现,但对于大多数疾病而言,仅仅只有很小一部分的遗传基因被识别出来,更何况,相关联并不表明该基因就是引起疾病的罪魁祸首,即关联性不等同于因果性。
因此,几乎所有复杂的疾病,迄今为止,即使是已知的具有高度遗传性的疾病,现有的遗传基因风险分析往往只能部分解释疾病的发生(Do C.,, et al., 2012)。比如,对于10种复杂疾病(阿尔茨海默病,双相性精神障碍,乳腺癌,冠状动脉疾病,克罗恩病,前列腺癌,精神分裂症,系统性红斑狼疮,1型糖尿病,2型糖尿病)的发生,只有约% 到%是被已知的易变基因变种所解释了的 (So HC., et al., 2011)。这说明仅凭我们现在已发现的基因,对这些包含遗传因素的疾病的产生进行预测是很不完善的。也就是说,大多数情况下依托单核苷酸多态性(SNP)(可笼统理解为一种DNA基因变异)建立的风险预测模型对于现有已知标记(染色体上一个可以被识别的区域)只能获得较差的预测值(Do C.,et al., 2012)。
因此,在临床上,人们对于使用遗传基因进行疾病的风险预测十分谨慎。此外,基因组学涉及的不仅仅只有基因方面的影响,还有环境方面的影响,也包括了更复杂的基因与基因,基因与环境之间的交互影响等等,从而增加了收集数据并依此建模的复杂性。
四、遗传基因检测里的数据分析
上面提到,使用基因信息所得到的风险预测模型并不理想。那么怎么判断预测模型的好坏呢这儿就有必要了解一下全基因组关联研究(GWAS) 具体是怎么回事和数据分析是如何应用在里面的。全基因组关联研究又称为常见变种相关性研究(common-variant association study: CVAS)。它是一种针对个体的许多常见共同基因变种的检查,用以判别是否有任何变种与某一性状(比如疾病表现特征)相关联。GWAS通常侧重于研究单核苷酸多态性(SNPs)和一些有性状的主要疾病的关联性。最常见的此类研究方法称为表型检测,即把参与者根据他们的临床表现特征分成两组,比如患者组和健康人口组,然后分别检测并比较他们的SNP。如果某一类型的变种(等位基因)或多或少经常出现在患者组中并被统计验证它出现不是偶然的,该SNP就被认为和此疾病是相关联的。该相关性SNP所标识的人类基因组某一区域就被认为会影响患病的风险。此处再强调一下,相关性不等同于因果性。
通过GWAS研究所发现的与特定疾病有关联性的SNP并不能被认为就会引起或增加患病的风险。而依据基因的风险预测模型就是根据SNP和 疾病相关的强弱程度计算出个体患病风险系数,并在此系数基础上进一步将个体划分入不同患病风险的组别。预测判断精准与否直接影响到个体是被正确划入风险高的组别还是风险低的组别。
最常用的一个判别风险划分精准度的指标,原本是应用在信号检测理论中的叫做:接收者操作特征曲线,receiver operatingcharacteristiccurve,缩写为ROC。曲线下的面积称为Area under curve
,缩写为AUC。这两者我们综合起来用于判别风险划分精准度。由于事实上,几乎没有什么预测模型是完美的,因此人们需要计算这个预测模型划分的正确率和错误率。相应的,在此我们来介绍一下四个基本概念:真实高风险,虚假高风险,虚假低风险,和真实低风险,见图一。在我们知道最后个体患病结果的情况下,通过模型预测分类后估计的风险及非风险个体数量。
图一:
真实风险是真实高风险和真实低风险的总和,也就是归类归对了,被划分为高风险的个人的确患病了,而被划为低风险的人没有得病。虚假风险则是虚假高风险和虚假低风险的总和,即归类归错了。我们通过图二来演示。从左到右,分类标准从十分保守趋向十分激进。左一的小图所设的分类标准要求超高的预测值才能被划入高风险组,从而造就了许多虚假的低风险(即许多被判定为低风险的人最终得病了)。而在右一的小图中,较低的风险预测值就可以被划分为高风险组,从而造就了许多虚假高风险。由此可见,选择分类标准极大地影响了预测模型的最终分类错误率。
图二:
好的分类标准当然是要有尽可能多的真实高风险数量和真实低风险数量,和尽可能少的虚假高风险数量和虚假低风险数量。一般而言,“激进”与否往往取决于个人被归类后,虚假高风险和虚假低风险,哪个会对其造成更严重的医疗健康后果。我们一般通过4个比率来体现一个分类标准的正确率和错误率,如图三和下面的公式所示(后面保险业对遗传基因检测的态度和此有很大关系,所以这儿有必要简单