文档介绍:该【第四讲——非参数检验 】是由【知识徜徉土豆】上传分享,文档一共【79】页,该文档可以免费在线阅读,需要了解更多关于【第四讲——非参数检验 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第一节 非参数检验的一般问题
在统计学中,如果总体的精确率分布形式已知,而只是其中的某些参数未知时,通常是从总体中随机取样本,根据样本信息对总体参数进行估计或假设检验,这就是一般所说的参数检验。
但在许多实际问题中,我们对总体分布的具体形式是未知或知之甚少的,只知道总体为连续分布还是离散分布,也不能对总体的分布形式作进一步的假定(如假定总体为近似正态分布等),这时要对总体的某些性质进行统计估计或假设检验,就要采用非参数检验。
非参数检验方法的特点
从参数检验的前提条件看,仅要求观察值是独立的、变量是连续的等简单假设,不要求确保样本所属的总体符合某种理论分布。非参数检验不受总体分布形状的限制,使得其应用范围更为广泛。
从非参数检验对原始数据的要求看,它部要求有精确的计量值,可以使用分类数据和顺序数据,非参数检验的处理方法都基于低精度数据,因而它几乎可以处理任何类型的数据。
从非参数检验的效率看,虽然非参数检验的计算方法种类繁多,有时对某类数据的算法就有多种,但其表现形式一般比较简单并易于理解,依照不同类型数据的不同算法,效率也不同。研究表明,非参数的检验精度大约是参数检验的95%。也就是说,非参数检验需要更大的样本容量来保证所要求的检验精度。
非参数检验的常用方法
拟合优度检验
K-S检验
符号检验
游程检验
列联表与 的独立性检验
拟合优度检验原理以及计算
类别
1
2
….
K
总和
观测频数
假设检验问题:
观测频数 和理论频数 的差别作为检验总体分布和理论分布是否一致的标准,定义Pearson 统计量:
拟合优度检验原理以及计算
如果观察频数与设定频数越接近,则 值越小,根据皮尔逊定理,当n充分大时, 统计量渐近服从于k-1个自由度的 分布。我们可以计算出 统计量,判断有以下两种方法:
依据 的分布表,给出所对应的概率值,如果该概率值<给定的显著水平α,则拒绝Ho,即样本所属的总体分布形态与设定的分布存在显著差异;反之则不能拒绝Ho。
依据 的分布表,给出α所对应的临界值 ,如果 统计值>临界值,则拒绝Ho;反之则不能拒绝Ho。
[] 某企业开发了一种新型的食品,初步设想出五种不同的包装方式(每种包装方式的含量相同),现欲了解消费者对这些不同包装方式的偏好是否有差异,经过市场实验,得到如表12-2所示的销售数据。
表12-2 各种包装方式的饮料销售量 单位:瓶
包装方式
甲
乙
丙
丁
戊
合计
销售量
325
384
320
326
345
1700
H0:对不同包装方式的偏好无差异
H1:对不同包装方式的偏好有差异
在H0成立之下,应有:
E1=E2=E3=E4=E5=1700/5=340
故统计量值为:
故不拒绝 ,即不能认为五种不同包装方式之间销售有显著差异。
二、单样本K-S检验
单样本K-S检验,也称Kolmogorov-Smirnov正态性检验。K-S检验也是一种拟合度检验,研究样本观测值的分布和设定的理论分布间是否吻合,通过对两个分布差异的分析确定是否有理由认为样本的观测结果来自设定的理论分布总体。
假设样本的经验分布函数为 ,定义
当 时,拒绝零假设。
Ho:
H1:
[] 某茶叶公司的产品灌装生产线在灌装过程中,会出现重量(份量)的偏差。根据质量要求,一定范围之内的误差是允许的。质量标准是:平均盒重(净)500g,允许极限误差(%的可靠性)为12g。现随机抽取1000盒产品进行检验,结果重量资料如表12-3所示(已分组)。现欲想证明该灌装生产线所包装的产品重量是否服从于均值500g,方差为16g的正态分布。
表12-3 灌装产品重量的样本资料
按重量分组
盒数
累计盒数
累计频数
按正态分布计算Z值
理论累计频数
绝对差异
以下
1
1
-
486-488
1
2
-
488-490
4
6
-
490-492
16
22
-
492-494
47
69
-
494-496
86
155
-
496-498
137
292
-
498-500
205
497
500-502
210
707
502-504
141
848
504-506
82
930
506-508
46
976
508-510
18
994
510-512
4
998
512-514
1
999
以上
1
1000
合计
1000