文档介绍:EXCEL 于异常数据剔除中的应用
smlai
数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。
数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。所谓异
常数据就是数据集中与其它数据明显不一致的数据。异常数据的产生原因有很多,可能是数
据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入
及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。
异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方
差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体
的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的
失误,带来不可挽回的损失。因此,异常数据的识别和剔除具有重要意义。异常数据识别有
物理识别法和统计识别法。物理识别法是根据人们对客观事物已有的认识,识别由于外界干
扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。
统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于
随机误差范围,将其视为异常数据剔除的一种方法。当物理识别异常数据不易做到时,一般
采用统计识别法。
对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3σ 准则)
法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗
马诺夫斯基(t 检验)准则法。拉依达准则法简单,无需查表,用起来方便,测量次数较多
或要求不高时用,当测量次数小于或等于 10 时,拉依达准则法失效。肖维勒准则是经典方
法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据 n 无穷
大时,该准则失效。狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中
异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很
接近时效果更差,易遭受到屏蔽效应。罗马诺夫斯基准则法计算较为复杂。格拉布斯准则和
狄克松准则给出了严格的结果,但同样存在狄克逊准则法的缺陷,朱宏等人采用数据的中位
数取代平均数,改进得到了更为稳健的处理方法,有效地消除了同侧异常数据的屏蔽效应。
国际上常推荐采用格拉布斯(Grubbs)准则法,对此采用改进型格拉布斯准则法。
改进型格拉布斯(Grubbs)准则法具体应用如下:
1、求出拟似异常值。设重复测定数据为(x1 , x2 ,…, xn ),其数据个数为