1 / 9
文档名称:

寻找“离群值”—统计学在体外诊断中的应用(二).pdf

格式:pdf   大小:1,098KB   页数:9页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

寻找“离群值”—统计学在体外诊断中的应用(二).pdf

上传人:1781111**** 2024/5/11 文件大小:1.07 MB

下载得到文件列表

寻找“离群值”—统计学在体外诊断中的应用(二).pdf

相关文档

文档介绍

文档介绍:该【寻找“离群值”—统计学在体外诊断中的应用(二) 】是由【1781111****】上传分享,文档一共【9】页,该文档可以免费在线阅读,需要了解更多关于【寻找“离群值”—统计学在体外诊断中的应用(二) 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..阶段,在GMP条件下生产出3批产品,进行产品分析性能评价、临床性能评价、稳定性研究、参考区间或阳性判断值确定、注册检验等工作,这里面就涉及到抽样,从生产出的产品中随机抽取出一定数量,做实验,获得一系列数据,通过对这些数据进行分析处理,最后获得产品的特征参数。这一篇我们重点关注数据离群值的判断和处理。实验获得的数据,我们不能不管三七二十一,直接上来就计算均值、标准差、偏差。大多数的统计量,如均值、标准差、相关系数等,以及基于这些统计量的分析,均对离群值高度敏感。关注离群值,就是关注数据质量。如图1所示,左边是不去离群值的回归分析,右边是去掉离群值后的回归分析,可以看出回归线差别巨大。如果统计学上认为应该舍弃的数据留用了,势必会降低后续分析的可靠性。相反,本应该留用的数据被舍弃,虽然精密度提高,但却夸大了分析结果的可靠性,从而增加风险。图1离群值剔除和不剔除情况下的回归线/9:..什么是离群值在一组平行测定中,若有个别数据离开其他数据较远,则把此数据视为可疑,即离群值(outlier)。离群值出现会有两种情形,一种出现在数据的单侧,即都为“鹤立鸡群”的高值,或都为“拖后腿”的低值;第二种是出现在双侧,两边都有“不合群”的,即既有高值,也有低值。离群值产生有两种来源,一是技术错误造成的,即样品错误、测试时的操作错误、仪器故障、计算错误、录入测试结果时的简单书写错误等造成的,这样的离群值可以直接剔除,或剔除后再做实验补数据;第二种来源是不能用技术错误解释的,产生于试验条件、试验方法等因素的偶然偏离,这时就要进行统计处理来决定离群值是保留还是剔除。离群值的取舍对分析结果会产生很大影响,必须谨慎对待,在离群值产生的原因不明之前,不应简单决定其取舍。在做离群值检验时,要预先规定检出离群值个数的上限,若检出的离群值个数超过了这个上限时,对此样本应做慎重的研究和处理。02离群值的几种常见检验方法在统计学上检验离群值之前,建议先做散点图,这样通过散点图可以一目了然、直观地判断数据情况。如图二所示,离群点是孤立的一个或几个数据点,远离数据集中其他数据点。/9:..图2绘制散点图然后,我们再用统计学方法计算是否是离群值。本篇我们重点关注正态样本(事实上除去正态分布,还有重尾分布、偏态分布等类型,这些分布类型出现得较少,另外也比较复杂,因此我们可以不用重点关注)。设有一组正态样本的观测值,按其大小顺序排列为x,x,x,……,x。其123n中最小值x或最大值x为离群值(x)。对于离群值的统计检验,大都是建1nout立在被检测的总体服从正态分布。基于此,在给定的检出水平α()或显著水平α*()和样本容量n条件下,可查表获得临界值,再通过计算统计量后与临界值比较,若统计量大于临界值就判为异常。临界值表通常给出的是置信度P,对双侧检验而言,P=1?α/2;对单侧检验而言,P=1?α。标准差已知情况/9:..(Nair)检验法(样本量3≤n≤100),根据下式计算统计量R。nσ是已知的总体标准差。根据检出水平α和样本容量查奈尔检验的临界值表值R,若R>R,判定为离群值,否则未发现离群值。P(n)nP(n)(限定离群值数量为1时)更多情况下,数据的标准差是未知的,此时可采用的检验离群值的方法较多,本篇仅仅介绍常用的格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法。1、格拉布斯(Grubbs)检验法2、狄克逊(Dixon)检验法此法由Dixon在1950年提出,它的原理是通过离群值与临近值的差值与极差的比值,这一统计量r来判断是否存在离群值。由于样本容量大ij/9:..算公式不同,具体见下表。判断离群值是最大值还是最小值,再根据样本容量n代入对应的统计量计算公式,求出统计值r(或r')。确定检出水平α,查狄克逊检验的临ijij界值表值D。当r或r'>D,判定为离群值,否则未发现离群值。P(n)ijijP(n)、t检验法·(三)标准差未知情况(离群值数量大于1时)/9:..1时,可使用偏度-峰度检验法或狄克逊检验法的重复使用方法。、偏度-峰度检验法偏度检验法适用于离群值出现在单侧的情形。式中样本从小到大排列后的第i个数据称之为x。确定检出水平α,查i偏度检验的临界值表值b,当b>b,判定为离群值,否则未发现离***(n)sP(n)值。当存在有多个离群值时,先选择最内侧的离群值进行检验。例如,当存在有两个上侧离群值x、x,暂时去除x,测量次数减1,检验x是nn?1nn?1否为离群值。若不为离群值,测量次数为n,再检测x是否为离群值。若nx为离群值,x自然也就舍弃了。n?1n峰度检验法适用于双侧情形。确定检出水平α,查峰度检验的临界值表值P’(n)。当b>P’b(n),判定离均值最远的值为离群值,去除bk离群值后,重复峰度检验法检验是否仍然存在离群值,否则未发现离群值。2、格拉布斯(Grubbs)检验法原理同上。/9:..、狄克逊(Dixon)检验法原理同上。·(四)组间数据等精度检验以上的方法主要针对的是组内数据的检验。对于组间数据,可用柯克伦(Cochran)进行等精度检验,判断数据组间是否有显著性差异,然后再决定是否予以剔除。举一个例子,国家标准物质的定值有几种方法,其中一种方法是可由多个实验室合作定值。合作实验室的数目或独立定值组数应符合统计学的要求(当采用同一种方法时,独立定值组数一般不少于8个,当采用多种方法时,一般不少于6个)。当各个实验室的数据收集上来时,我们要对实验室间数据进行等精度检验。对于不等精度的数据,实验室根据具体情况进行剔除或采用不等精度加权方式处理。给定p个由相同的n次重复测试结果计算的标准差s,柯克伦检验统i计量C定义为其中,s是这组标准差中的最大值。如果C大于临界值,则视为统max计离群值。03离群值检验的示例例1:/9:..10次重复测试,将得到的数据按从小到大的顺序排列,91,96,99,101,104,108,111,114,119,138。检验是否存在上侧离群值。已经检验出该数据服从正态分布。确定检出水平α=,查表得到G(10)=,因为G>G(10),。方法二狄克逊法确定检出水平α=,查表得到D(10)=,因为r<D(10),。不同的离群值检验方法可能会有不同的结果。本例中,狄克逊法通过极差比来判断是否存在离群值,当数据本身较为分散,极差比反映离群值的灵敏度就可能会下降,可能存在以假当真的情况。例2:/9:..家实验室对ApoA-1候选标物进行协作定值,定值数据见表2。表2协作定值测量结果单位:g/L对测量结果进行等精度柯克伦(Cochran)检验,s=,C(,6,6)=,C<C(,6,6),表明各实验室间数据为等精度。/9