文档介绍:: .
目录摘要I
关键词I1引言1
2异常值的判别方法1
检验(3S).....x,若认x为可疑值•计算余下n-1个数据平均值123n
x一及标准差s,即x_=丄工x,sJ丄工(xL)2n1n—in1n—1in—in—2in—ii-i,ij1i二匕ij.
然后,按t分布来判别被剔除的值x是否为异常值.
若|x->k(na),则x为异常值,应予剔除,否则为正常值,应予以保
留•其中:a为显著水平;n数据个数;k(n,a)为检验系数,可通过查表得到.
(Dixon)准则
设有一组测量数据x<x<x<…x,且为正态分布,则可能为异常值的测123n
量数据必然出现在两端,即x或x.
1n
狄克松给出了不同样本数量n时检验统计量的计算公式(见表1).当显著水
平a为1%或5%时,狄克松给出了其临界值D•如果测量数据的检验统计量1-a(n)
D>D,则x为异常值,如果测量数据的检验统计量D>D,则x为异1-a(n)11-a(n)n
常值.
表1狄克松检验统计量计算公式为
数据个数n
统计量D
x为可疑值D
1
x为可疑值D
n
3<n<7
(x-x)/(x-x)
21n1
(x-x)/(x-x)
nn-1n1
8<n<10
(x-x)/(x-x)
21n-11
(x-x)/(x-x)
nn-1n2
11<n<13
(x-x)/(x-x)
31n-11
(x-x)/(x-x)
nn一2n2
14<n<30
(x-x)/(x-x)
31n-21
(x-x)/(x-x)
nn一2n3
(Grubbs)准则
设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即x<x<x<…x,可能为异常值的测量数据一定出现在最大123n
或最小的数据中.
若最小值x是可疑的,则检验统计量G=(;-x)/s•式中x是均值、s是标准11
-x)2
对于检验统计量G,格拉布斯导出了其统计分布,并给出了当显著水平a为
1%或5%时的临界值G(n).G(n)称格拉布斯系数,(1-n)(1-n)
小值x或最大值x对应的检验统计量G大于临界值时,则认为与之对应的x或1n1
x为可疑异常值,应予以剔除.
指数分布时异常值检验
设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大
小顺序排列,即x<x<x<…x•检验最小值或最大值是否为异常值的检验方法123n
如下:
当样本量n<100时'计算统计量T=x/为x及T=x/为xn(n)nin(1)1i
i二1i二1对于给定的显著水平a()和样本数量n,通过查表得到T及T
n(n)n(1)分别对应的临界值T(1-a)和T(a)•若T>T(1-a)时,认为x为异常值;
n(n)n(1)nn()nn()n
若T<T(a)时,认为x为异常值.
n(1)n(1)1
当样本容量n>100时,计算统计量E=(n-1)(x-x)/(Xx+x)及n(n)nn-1in-1
i二1n