文档介绍:该【试验数据异常值检验及剔除方法 】是由【泰山小桥流水】上传分享,文档一共【7】页,该文档可以免费在线阅读,需要了解更多关于【试验数据异常值检验及剔除方法 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。目录
大纲......................................................
要点词...................................................
前言......................................................
异常值的鉴识方法.....................................
检验(3S)准则........................................
狄克松(Dixon)准则..................................
格拉布斯(Grubbs)准则..............................
指数分布时异常值检验.................................
莱茵达准则(PanTa)..................................
肖维勒准则(Chauvenet).............................
3
实验异常数据的办理
..................................
4
结束语...................................................
参照文件....................................................
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
错误!不决义书签。
试验数据异常值的检验及剔除方法
大纲:在实验中不行防备会存在一些异常数据,而异常数据的存在会
掩饰研究对象的变化规律和对解析结果产生重要的影响,异常值的检
验与正确办理是保证原始数据靠谱性、均匀值与标准差计算正确性的
,并利用DPS软件检
验及剔除实验数据中异常值,此方法简单、直观、快捷,合适实验者
用于实验的数据办理和解析.
要点词:异常值检验;异常值剔除;DPS;丈量数据
前言
在实验中,因为丈量产生偏差,从而以致个别数据出现异常,常常以致结果
产生较大的偏差,
规律,以致使研究对象变化规律异常,,正确解析并剔除异
常值有助于提升实验精度.
鉴识实验数据中异常值的步骤是先要检验和解析原始数据的记录、操作方
法、实验条件等过程,找出异常值出现的原由并予以剔除.
[1]
,吴
先球,用Origin剔除线形拟合中实验数据的异常值;“环值”;运用了统计学中各种鉴识异常值的准则,各种准则的好坏程度将表此刻下文.
异常值的鉴识方法
鉴识异常值的准则好多,常用的有t检验(3S)准则、狄克松(Dixon)准则、
格拉布斯(Grubbs).
(3S)准则
t检验准则又称罗曼诺夫斯基准则,它是按t分布的实质偏差分布范围来鉴识
异常值,对重复丈量次数较少的状况比较合理.
基本思想:第一剔除一个可疑值,而后安t分布来检验被剔除的值能否为异
常值.
设样本数据为x1,x2,x3L
xn,
1个数据均匀值
1
n
1
n
1)2
xn1及标准差sn1
,即xn1
1i1,i
xi,sn1
(xixn
n
j
n
2i1,ij
.
而后,按t分布来鉴识被剔除的值xj能否为异常值.
若
xj
x
(
,),则
xj
为异常值,应予剔除,不然为正常值,应予以保
n1
:a为明显水平;n数据个数;k(n,a)为检验系数,可经过查表获取.
(Dixon)准则
设有一组丈量数据x1x2x3Lxn,且为正态分布,则可能为异常值的测
量数据必然出此刻两端,即x1或xn.
狄克松给出了不一样样本数目n时检验统计量的计算公式(见表1).当明显水平a为1%或5%时,狄克松给出了其临界值D1a(n).假如丈量数据的检验统计量
DD1a(n),则x1为异常值,假如丈量数据的检验统计量D'D1a(n),则xn为异
常值.
表1狄克松检验统计量计算公式为
统计量D
数据个数n
x1为可疑值D
xn为可疑值D'
3
n7
(x2
x1)/(xn
x1)
(xn
xn1)/(xn
x1)
8
n10
(x2
x1)/(xn1
x1)
(xn
xn1)/(xn
x2)
11
n13
(x3
x1)/(xn1
x1)
(xn
xn2)/(xn
x2)
14
n30
(x3
x1)/(xn2
x1)
(xn
xn2)/(xn
x3)
(Grubbs)准则
设有一组丈量数据为正态分布,为了检验数据中能否存在异常值,将其按大小序次摆列,即x1x2x3Lxn,可能为异常值的丈量数据必定出此刻最大
或最小的数据中.
若最小值x1
是可疑的,则检验统计量G(xx1)/、s是标
准差,即x
1n
xsi,
1
n
(xix)2.
ni
1
n
1i1
对于检验统计量G,格拉布斯导出了其统计分布,并给出了当明显水平a为
1%或5%时的临界值G(1
n)(n).G(1
n)(n)称格拉布斯系数,可经过抽查表获取
.当最
小值x1或最大值xn对应的检验统计量G大于临界值时,则以为与之对应的
x1或
xn为可疑异常值,应予以剔除.
设一组丈量数据为指数分布,为了检验数据中能否存在异常值,将其按大小序次摆列,
以下:
nn
当样本量n100时,计算统计量Tn(n)
xn/
xi
及Tn(1)
x1/
xi
i1
i1
对于给定的明显水平a(平时取)和样本数目n,经过查表获取Tn(n)及Tn(1)分
别对应的临界值Tn(n)(1a)和Tn(1)(a).若Tn(n)
Tn(n)(1
a)时,以为xn为异常值;若
Tn(1)
Tn(1)(a)时,以为x1为异常值.
当样本容量n
100时,计算统计量
n
En()n
(n
1)(xn
xn1)/(
xi
xn1)及
i1
n
En(1)
n(n
1)x1/(
xinx1).
i
1
1
对于给定明显水平a和样本数目n,若En()n
F2,2n~2,1a
(n
1)(a
n1
1),则
1
判断xn为异常值;若En(1)F2,22n,a(n1)[(1)a
n1
1],则判断x1为异常值.
莱茵达准则(PanTa)
n
对于实验数据测出值x1,x2,x3,L,xn,求取其算术均匀值x
1/n
xi
及节余
i1
偏差值vi
xi
x,而后求出其均方根偏差
(
vi2
/n1)1/2.
鉴识依照(假设v遵从正态分布):
xi
x
3
,则xi相对而言偏差较大,应舍去;
xi
x
3
,xi为正常数据,应该保留.
有概率论统计可知,假如偏差遵从正要分布,偏差大于3的察看数据出现
的概率小于,
略的剔除,弃取的概率较小,可能将不合理的异常值保留.
(Chauvenet)
次准则也是建立在实验数据遵从正态分布
数据的参加偏差viZc,
.假设多次丈量的
21/2
(vi/n1)
n个丈量值中,
,样品容量为n
时的鉴识系数
Zc
3,填充了莱茵达准则的不足,故此准则优越于莱茵达准则,
但条件更为苛刻
.
实验异常数据的办理
对于测定中异常数据的办理,一定谨慎考虑,不可以凭预见随意删除或增加.
应该从所学知识上考虑,“异常值”
正深入人们对客观事物的认识,假如随意删除它,可能深入认识和发现新事物的
一次机遇,
上找寻原由,假如在技术上发现原由,,却
可在上述准则中发现其高度异常,也因舍弃.
此中,运用DPS软件进行异常数据的检验与剔除特别方便,并且不准编写
程序,它交融了SPSS表格和EXCELL表格,操作简单,
DPS数据办理系统对话框.
图一数据办理系统对话框
只要执行菜单命令下的“数据解析——异常值检验”弹出如图二以下图的窗口,而后进行选择检验解析方法及明显水平,点击确立即可.
图二用户对话框
在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与
其余测定值的差异在仪器的精度范围内,这种数据不该舍去,应予保留.
而对于一些解析而言,需要预计整体参数,,则要据实质状况而定.
结束语
由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,
,可以
使学生快速正确判断实验结果,也可以提升教课质量.
参照文件
王鑫,[J].山西师范大学学报,2003,17(1),56—57.
“环值”[J].计量技术,
1994(5),45—47.
苏金明,傅荣华,[M].电子工业第一版社,2002
——实验设计、统计解析及数据发掘
[M].科学第一版社,2006
:国防工业第一版社,1978