文档介绍:第四章抽样误差与假设检验
(Sampling Error and Hypothesis Test)
第一节均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数往往不等于总体均数,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究,抽样误差不可避免。
二、抽样误差的分布
理论上可以证明:若从正态总体中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数也服从正态分布,即的总体均数仍为,样本均数的标准差为。
抽样分布
抽样分布示意图
中心极限定理:
当样本含量很大的情况下,无论原始测量变量服从什么分布, 的抽样分布均近似正态。
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小:
实际中总体标准差往往未知,故只能求得样本均数标准误的估计值:
在某地随机抽查成年男子140人,×1012/L, ×1012/L ,试计算均数的标准误。
标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。
第二节总体均数的估计
一、可信区间的概念(Confidence Interval)
区间估计:指按预先给定的概率,计算出一个区间,
使它能够包含未知的总体均数。事先给定的概率
称为可信度,通常取。
参数估计
点估计:不考虑抽样误差,如
区间估计:考虑抽样误差
二、可信区间的计算
(一) 已知
一般情况
其中为标准正态分布的双侧界值。
可信区间:
标准正态分布
(二) 未知
通常未知,这时可以用其估计量S 代替,但
已不再服从标准正态分布,而是服从著名的 t 分布。
图4-2 不同自由度的 t 分布图
可信区间的计算:
计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即
可信区间:
需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n>100),也可以用替换近似计算。