文档介绍：该【分层抽样中样本量的分配方法研究】是由【智通】上传分享，文档一共【17】页，该文档可以免费在线阅读，需要了解更多关于【分层抽样中样本量的分配方法研究】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。分层抽样中样本量的分配方法研究
刘爱芹吴玉香[摘要]分层随机抽样是近代统计调查方法中最重要、最常用的方法之一。在分层抽样中,样本量在各层的不同分配方法会对估计量的精度产生一定的影响。本文立足于分层随机抽样在实践中的重要性以及样本容量分配的重要意义,从分析影响样本容量的因素入手,讨论实践中分层抽样样本量分配的方法体系并进行比较评价,得出各种方法的适用性。
[关键词]分层随机抽样;样本容量;分配
[中图分类号]
[文献标识码]A
[文章编号]1008―2670(2007)04―0049―05
在市场调研实践中,分层随机抽样(简称分层抽样)以其效率相对高、费用相对少、精度高、方法灵活的优点被广泛采用,成为近代统计调查方法中最重要、最常用的方法之一。在分层抽样中,总体经过分层,各层的单元数、变异程度及调查条件都有可能不同。在样本容量n一定的条件下,就需要考虑如何将其分配至各层中去的问题。样本量在各层中的分配方法不同会对估计量的精度产生一定的影响,并进而影响分析者的预测和决策。因此,样本容量的分配是关系到调研精确度和市场研究公司效益的一项重要工作,从理论上探讨分层抽样中样本容量的分配方法就变得尤为重要。
一、问题的提出
(一)分层抽样中层样本量配置的重要性
分层抽样曾被统计学家马哈拉诺比斯称为抽样调查中“很有名气”和“运用极广泛”的一种抽样技术,它按照层内差异尽可能小,层间差异尽可能大的原则,将总体区分为不同的层(也称为子总体),再分别独立地从各层内抽取一定的样本单元进行调查并推断。它除了比纯随机抽样有更高的抽样精度(按照谢邦昌教授的研究,分层抽样的误差一般只有纯随机抽样的1/10)外,还可以把各层看作独立的总体,推断时不仅可以估计总体,还可以推断各层;同时还可以对不同的层采用不同的样本抽选和估计方法,从而大大提高了方法的灵活性。
分层抽样中,解决层样本容量的配置问题,既是实施分层抽样调查的前提,也是确保抽样精度和效率的关键因素。样本容量分配可以看作是连续给任一层减少同时给另一层增加一个样本单元会使层估计量的方差和总体相应样本的方差减少的一种手段。当给任何一层增加一个样本单元使总体有关估计量的方差减少程度相同时,样本容量分配是最优的。这相当于给任何一层每增加一个样本单元所取得的边际效用(即减少的抽样误差)相等。在样本容量一定的前提下,在层样本量分配的各种方法中,最优分配就是使总体特定值的样本估计量的方差最小的分配。分配的情况直接影响到抽样调查的精度。因此分层抽样中考虑各层样本量的分配方法非常重要。
(二)国内外研究综述
关于这一问题的研究由来已久。早在20世纪50年代,W?G?科克伦就在他的著作《抽样技术》中介绍了分层随机抽样中样本容量的最优分配法,并列举了“当调查项目超过一个时,样本容量在各层之间的分配问题”;1985年,L?Kish出版的《抽样调查》一书中也介绍了分层抽样中的“元素的按比例抽样”和“不按比例抽样或最优分配”,但是这些内容都不够系统;上世纪90年代末至本世纪初,中国的统计专家们也陆续出版了一些关于抽样技术的教材或专著,比如冯士雍教授的《抽样调查理论与方法》、金勇进教授的《抽样技术》、杜子芳教授的《抽样技术及其应用》等都非常经典,其中都有对国外分层抽样中层样本量分配方法的系统阐述。各期刊中也有相关的文献,但是不多,对方法的适用性和对比分析不够充分。
本文立足于分层随机抽样的重要性以及样本容量分配的重要意义,从分析影响样本容量的因素人手,讨论实践中分层抽样样本量分配的方法体系并进行比较评价,得出各种方法的适用性,期望对调查实践具有一定的借鉴价值。
二、样本容量分配的影响因素分析
抽样实践中,一般按照最优设计理论来设计抽样方案,分层抽样中样本容量分配方案的设计也不例外。所谓最优设计,即在费用一定的条件下,选择使精度达到最高(即方差最小)的设计;或是在满足一定精度要求下,选择尽可能使费用节省的方案。结合分层随机抽样中总体均值估计量的方差的表达式(式(1)),可以分析出最优设计原则下影响样本容量分配的几个主要因素。
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
其中,yst为总体均值的分层随机抽样估计量,Ⅳ为总体单元总数,nh为第h层的样本容量。
1、层的大小,一般用各层单元数在总体单元数中的比重表示,即层权Wh。层权体现了总体的内部构成,其大小直观上体现了各层在总体中的地位高低。层权越大说明该层在总体中占据的地位越重要,则在样本容量一定的条件下,提高样本对总体的代表性,就应在该层多抽样本单元。反之亦然。
2、各层的变异程度。各层的变异程度通常用层标准差Sh来表示,Sh越大,说明变异程度越大,即离散程度越大,保证一定的代表性所需的样本量就越多。所以,在样本容量一定的前提下,在变异程度大的层尽可能地多抽取样本单元能有效地提高样本的代表性,从而提高估计的精度。
3、费用。在调查实践中,抽取样本单元并调查需要花费一定的费用。在费用预算一定的前提下,若某层取样并调查的单位耗费较大,则应尽量减少该层分配的样本量,从而在费用一定时尽可能多地抽取样本单元;或者说,在样本量一定的条件下,在单位费用较高的层少分配样本量会有效地控制调研费用。
4、其它因素。除以上因素外,还有比如各层样本问卷回收率的不同等影响因素,若某层样本问卷回收较困难,就应增加该层样本抽取的数量,从而保证样本的代表性。
具体分配各层样本容量时,可以仅考虑以上的一个因素,也可以同时考虑两个或两个以上的因素。一般而言,考虑的因素越多,样本对总体的代表性越高,抽样推断的精度也就越高。但是,需要的信息就要越充分,分配样本量的工作也越复杂。所以,实践中需要考虑哪些因素来分配各层的样本量,需视具体的条件、环境以及要达到的要求而定。这就需要调查实践者清楚地认识到各种分配方法的优缺点和适用性,以便更好地选择。
以上对于影响因素的讨论主要立足于一个调查变量的情形。事实上,调查变量的多少会明显影响样本容量在各层的分配。下面分别从单变量抽样调查和多变量抽样调查两个角度来说明分层抽样中样本容量分配的方法。
三、单变量调查样本容量的分配
(一)典型分配方法及其特点
目前,国际上普遍接受和认同的样本量分配方法主要有三种:按比例分配、最优分配和内曼最优分配。上例中介绍的几种方法现实中也不乏使用。各
方法都是以层数k和样本容量n已知为前提的。
1、比例分配
这是Bowley于1926年提出的。在分层抽样中,若nh都与层的大小Nh成比例,即
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
或记为fh=f(h=1,2,…,L),则称这种样本量的分配方式为比例分配(prop:proportionalallocation)。可以看出,按这种方式分配各层的样本量,总体中的任一个单元,不管它在哪一个层,都以相同的概率人样,所以为等概率抽样(samplingwithequalprobabilities),这种样本也称为自加权样本。从以下总体均值的估计式同样可以看出这一点:
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
因此按比例分配的分层随机样本,估计量的形式特别简单(而且无偏),可以大大简化调查以后的数据处理,特别是对于大规模的多变量调查,自加权样本的优点尤其明显。但是在大规模的抽样调查中,特别是在涉及多阶段抽样的调查中,很难保证最终获得的样本是严格自加权的。
2、最优分配
在分层随机抽样中,对于给定的费用,使估计量的方差达到最小,或者对于给定的估计量方差,使得总费用达到最小的各层样本量的分配称为最优分配(opt:optimumallocation)。由于考虑了费用因素,所以这种方法也被称为经济分配法。
由定义可以看出,在最优分配中,不仅考虑调查的精度要求,而且把费用也纳入了考虑的范围之内。这在实际当中是相当重要的。选择线性费用函数形式:
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
其中,CT为总费用;co为与样本量无关的固定费用;ch为在第h层中抽取一个单元进行调查的平均费用。
同时考虑费用和精度两个因素,剥离与n、nh无关的部分,建立乘积形式的效用函数,利用Cauchy―Schwarz不等式,可以得到分层抽样下的最优分配为:
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
最优分配的结果表明:nh与Nh,Sh成正比,而与根号下Ch成反比,从而得出下面的行动准则:倘若(1)第h层所含有的单元数较多;(2)第h层内部单元的差异程度较大;(3)第h层每个样本所需的费用较低,则对第h层需要多抽取一些样本单元。
3、内曼最优分配
简称内曼分配(ney:neymanoptimumallocation),又称适度法,它是最优分配的特例。在最优分配中,如果假定各层的单位抽样费用相等,即Ch=c,那么费用函数就变为CT=Co+Cn。此时,分配nh/n的表达式大为简化:
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
这种形式的分配被称为内曼分配。事实上,这―结论早在1923年就由俄国学者楚波罗(Tschu,prow)给出了证明,但一直没有人注意到,直到1934年内曼(Neyman)重新给出了证明,这一结论才逐渐引起人们的重视,因此****惯上称该最优分配为内曼分配。
在分层随机抽样中,当样本量n固定时,内曼分配的样本容量可使v(yst)达到最小值:
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
综上所述:比例分配的优点是可以得到自加权样本,抽样实施简单。内曼分配考虑到层权和各层变异程度的因素,会使抽样精度大大提高。然而现实中往往会存在费用问题,最优分配同时考虑到三者的影响。但现实中也并非考虑因素越多越好,理论上的最优分配实践中未必真能做到。比如,按照最优分配的思想和做法,最终的分配结果很可能导致某些层分配的样本容量甚至会超过其总体单元数。这在某些层的标准差Sh特别大,而Nh相对于总样本量n又小很多,同时这些层的平均单位抽样费用Ch又比较低的情况下很容易出现。这时,应该对这些层实施100%的抽样,即进行普查,然后再将剩下的样本量按最优分配方式分配至其余各层。此时的最小方差公式需要作必要地调整:
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”
其中,∑`使仅对最后实际分配的样本量元严格小于Nh的各层求和,n`也只是这些层中抽取的单元总数。这里可以直观的理解一下它的含义:因为对于那些实施普查的层来说,已经不存在所谓的抽样误差了,自然需要从原来的公式中将它们舍弃。
因此,选择样本容量分配方法,应立足于现实情况,深刻剖析调研目的,具体问题具体分析。
(二)分配方法的选取规则
不难看出,内曼分配是一般最优分配的特例,按比例分配又是内曼分配的特例,所以,一般最优分配是样本容量分配的通用规则。由于不同的分配规则引起的层样本容量不同,产生的抽样效率也会有差别,所以如果分配方式不当,就会引起抽样效率的损失。选取分配方法,应该考虑具体的调查目的。调查目的不同,样本容量的选取规则也有差别。