文档介绍:假设检验
在数据分析中,经常要对数据进行一定的假设,例如,数据的算术平均值,或者数据的方差等等,数据是否满足这些假设,需要检验。
(一)假设检验中的几个重要概念
(1)原假设(零假设)、备选假设
在显著水平下检验
原假设备选假设
(2)双边检验、单边检验
①双边检验
在显著水平下检验
原假设备选假设
其中,备选假设中可能发生,也可能发生
②单边检验
在显著水平下检验
原假设备选假设
或者
在显著水平下检验
原假设备选假设
(3)拒绝域、临界点
当检验统计量取某个区域中的值时,拒绝原假设,则称该区域为拒绝域。拒绝域的边界点叫做临界点。
(4)第1类错误、第2类错误
当原假设实际上为真,却拒绝原假设,此类错误成为“弃真”错误,或叫做第1类错误。
当原假设实际上不真,却接受原假设,此类错误成为“取伪”错误,或叫做第2类错误。
(二)假设检验
(1)单个样本的t检验
在总体样本的方差未知的情况下,检验样本的平均数?,用下面的统计量来检验其平均数的显著性
当原假设成立时,上面的统计量应该服从自由度为n-1的t分布。
在Matlab软件包中,使用函数即行此种检验,主要格式有:
①,表示在显著水平时进行t检验,在样本数据X的方差未知的情况下,确定样本数据X是否满足正态分布,并且数据的均值是否满足?
如果h = 1,则在的显著水平下拒绝原假设;若h = 0,则不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。
②,表示由人工自选显著水平,其中选项tail的取值可以有3种:
tail = 0(默认设置),表示进行双边检验;
tail = 1,表示进行单边检验,备选假设是;
tail = -1,表示进行单边检验,备选假设是;
另外,如果h = 1,则在的显著水平下拒绝原假设;若h = 0,则不能在的显著水平下拒绝原假设(即,可以考虑接受原假设)。
Sig表示原假设为时,统计量的概率值。
ci表示样本X的理论均值所在的区间。
例1 有100个数据如下:
x = [-,-,,,-,,,-,,, -,,-,,-,,,,-,-,, -,,,-,,,-,-,,-,, ,,,,,-,-,-,-,,-, ,-,,,-,-,-,-,,,, ,-,,-,-,-,,-,,-,
, ,,,,,,-,-,-,-, -,,,,-,,,,-,,, -,-,,-,,,-,-,,-,
,,-,-];
第1步求其平均值
x = [-,-,,,-,,,-,,, -,,-,,-,,,,-,-,, -,,,-,,,-,-,,-,, ,,,,,-,-,-,-,,-, ,-,,