1 / 17
文档名称:

分层抽样中样本量的分配方法研究.doc

格式:doc   大小:20KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分层抽样中样本量的分配方法研究.doc

上传人:刘备文库 2022/5/11 文件大小:20 KB

下载得到文件列表

分层抽样中样本量的分配方法研究.doc

文档介绍

文档介绍:分层抽样中样本量的分配方法研究
刘爱芹 吴玉香 [摘要]分层随机抽样是近代统计调查方法中最重要、最常用的方法之一。在分层抽样中,样本量在各层的不同分配方法会对估计量的精度产生一定的影响。本文立足于分层随机抽样在实践中的重要性以及样该层多抽样本单元。反之亦然。
2、各层的变异程度。各层的变异程度通常用层标准差Sh来表示,Sh越大,说明变异程度越大,即离散程度越大,保证一定的代表性所需的样本量就越多。所以,在样本容量一定的前提下,在变异程度大的层尽可能地多抽取样本单元能有效地提高样本的代表性,从而提高估计的精度。
3、费用。在调查实践中,抽取样本单元并调查需要花费一定的费用。在费用预算一定的前提下,若某层取样并调查的单位耗费较大,则应尽量减少该层分配的样本量,从而在费用一定时尽可能多地抽取样本单元;或者说,在样本量一定的条件下,在单位费用较高的层少分配样本量会有效地控制调研费用。
4、其它因素。除以上因素外,还有比如各层样本问卷回收率的不同等影响因素,若某层样本问卷回收较困难,就应增加该层样本抽取的数量,从而保证样本的代表性。
具体分配各层样本容量时,可以仅考虑以上的一个因素,也可以同时考虑两个或两个以上的因素。一般而言,考虑的因素越多,样本对总体的代表性越高,抽样推断的精度也就越高。但是,需要的信息就要越充分,分配样本量的工作也越复杂。所以,实践中需要考虑哪些因素来分配各层的样本量,需视具体的条件、环境以及要达到的要求而定。这就需要调查实践者清楚地认识到各种分配方法的优缺点和适用性,以便更好地选择。
以上对于影响因素的讨论主要立足于一个调查变量的情形。事实上,调查变量的多少会明显影响样本容量在各层的分配。下面分别从单变量抽样调查和多变量抽样调查两个角度来说明分层抽样中样本容量分配的方法。

三、单变量调查样本容量的分配

(一)典型分配方法及其特点
目前,国际上普遍接受和认同的样本量分配方法主要有三种:按比例分配、最优分配和内曼最优分配。上例中介绍的几种方法现实中也不乏使用。各






方法都是以层数k和样本容量n已知为前提的。

1、比例分配
这是Bowley于1926年提出的。在分层抽样中,若nh都与层的大小Nh成比例,即

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
或记为fh=f(h=1,2,…,L),则称这种样本量的分配方式为比例分配(prop:proportional allocation)。可以看出,按这种方式分配各层的样本量,总体中的任一个单元,不管它在哪一个层,都以相同的概率人样,所以为等概率抽样(sampling with equal probabilities),这种样本也称为自加权样本。从以下总体均值的估计式同样可以看出这一点:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
因此按比例分配的分层随机样本,估计量的形式特别简单(而且无偏),可以大大简化调查以后的数据处理,特别是对于大规模的多变量调查,自加权样本的优点尤其明显。但是在大规模的抽样调查中,特别是在涉及多阶段抽样的调查中,很难保证最终获得的样本是严格自加权的。

2、最优分配
在分层随机抽样中,对于给定的费用,使估计量的方差达到最小,或者对于给定的估计量方差,使得总费用达到最小的各层样本量的分配称为最优分配(opt:optimum allocation)。由于考虑了费用因素,所以这种方法也被称为经济分配法。
由定义可以看出,在最优分配中,不仅考虑调查的精度要求,而且把费用也纳入了考虑的范围之内。这在实际当中是相当重要的。选择线性费用函数形式:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
其中,CT为总费用;co为与样本量无关的固定费用;ch为在第h层中抽取一个单元进行调查的平均费用。
同时考虑费用和精度两个因素,剥离与n、nh无关的部分,建立乘积形式的效用函数,利用Cauchy―Schwarz不等式,可以得到分层抽样下的最优分配为:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
最优分配的结果表明:nh与Nh,Sh成正比,而与根号下Ch成反比,从而得出下面的行动准则:倘若(1)第h层所含有的单元数较多;(2)第h层内部单元的差异程度较大;(3)第h层每个样本所需的费用较低,则对第h层需要多抽取一些样本单元。

3、内曼最优分配