文档介绍：2 / 14
关于分层线性模型样本容量问题的研究
张璇王嘉宇
20１1-１2－１３　14：33:2３来源:《统计与决策》(武汉)201０年１５期第4~8页
内容提要：文章运用Jaｃｋkｎife和Boｏｓtｒap的方法,对参ｅｓe(１9９8)[9]明确指出组内相关系数(ＩＣC)与样本量相互联系。Sｎiｊｄｅrs和Bosｋｅr(1999）[1０］阐明对于较大的ICC值，增加组数也不会得到一致的标准差的估计。Mａss和Hｏｘ（20０5)[11］针对不同的层1和层2样本量进行了模拟研究，结果表明层2的样本数小于50，会导致有偏的协方差成分估计。　纵观以上研究，其方法主要是运用数据模拟的方法,针对不同层１、层2样本量的组合，估计分层线性模型,比较固定效应、随机效应和方差协方差成分的估计值。在计算机发展日新月异的今天,进行模拟计算简单易行,应用广泛。但是对于此类问题，以往研究存在许多问题：
4 / 14
①大部分研究考虑的是参数估计的准确性,只有很少的一部分重视估计的标准差的准确性。②许多研究在讨论估计参数假设检验或构造置信区间时,想当然的运用了大样本的近似理论，即参数估计近似服从正态分布,但是实际上,在样本量较小时，分层线性模型的参数估计值,尤其是方差协方差成分的估计值并非服从正态分布（Rauｄｅｎｂｕsh(１９84))。　　２研究方法本研究仍采用数据模拟的方法，用R语言编译计算程序。另外，研究采用简单的两层模型,每层模型各有一个解释变量: 　
　在数据模拟过程中,研究分别改变组数,组内个体数和组间相关系数IＣC，在样本变化的条件下，构造参数估计的置信区间,计算置信区间覆盖真实参数的覆盖率来考查估计值的分布情况。①组内个体数取值为5,30，５０,ICC取值为１，２,3,考察组数从５至１00改变情况下，估计值的分布如何变化;②组数取值为30，50，10０,ICＣ取值为１,2,3，考察组内个体数从5至100改变情况下，估计值的分布如何变化。　　在构造置信区间时,以往研究直接将方差用近似标准差代替,构造正态分布的置信区间，而本研究用另外一种方法计算参数估计的标准差。　Ｒ程序lｍe4程序包中的lmｅr命令可以提供分层线性模型的计算，它提供固定效应系数和方差协方差成分的估计值,以及固定效应系数估计的标准差，但是不提供方差协方差成分估计的标准差,ｌmｅr命令的编写者Dｏｕg Bates(200８)表示，第一,方差协方差成分估计的标准差的计算是非常复杂的,很多情况下,估计值已经在参数空间以外,即便是估计出来,也是无意义的,因此有些软件（如SＡＳ)提供标准差也并不可靠。第二,当参数分布差不多是对称的情况下,提供参数估计的标准差才是有意义的,因为可以由此构造置信区间。　Harvey Golｄｓｔeiｎ(1９99）提到,样本不是很大的情况下，如果随机扰动项不再服从正态分布,分层线性模型的固定效应和随机效应的估计仍然是一致的，但是其估计的标准差不能用来构建置信区间和进行显著性检验。一种替代的方法是运用密集计算中的Jａckkｎifｅ和Boｏｔｓｔraｐ计算估计的标准差,由Ｊackknife和Booｔstｒａｐ理论可知估计的标准差可以利用正态分布构建置信区间和进行显著性检验。３研究步骤
4 / 14
(４)讨论覆盖真实值情况:如果以上的置信区间确实覆盖了真实值,则取值为１;否则取0。　 (５)计算覆盖率:重复第一步至第四步１000次,统计覆盖次数,计算覆盖率。（6)在不同样本量情况下，考察覆盖率随样本量如何变化。固定n(＝30,50，1０0)，p(=1，2,３),N从5到１００变化；固定N（＝5,30，5０）,ｐ(=１,2，３)，ｎ从5到10０变化。　　和Ｊaｃｋknｉfe方法相比,参数Bootｓｔｒaｐ方法步骤（2）中有差异，它将（２)分成以下几步。　　构造置信区间和覆盖率的计算和Jackｋnｉfe的过程一样。　 4研究结果
　4．1固定效应和方差协方差成分的置信区间覆盖情况由于不论是Ｊaｃｋｋniｆｅ还是Boｏｔsｔｒaｐ方法,运算量都是非常大的,因此我们先考察在组成样本三个条件N,ｎ,p取不同值的组合下置信区间的覆盖情况。
6 / 14
　．１Jacｋｋnife方法表１的结果表明，当Ｎ＝5时,计算的覆盖率都离95％较远,这时若n的取值较大,如n＝１0０,覆盖率会相对提高,但是方差协方差成分中的覆盖率还是很低，这说明分层线性模型的估计很大程度上依赖于Ｎ的个数。如果仅仅考虑参数点估计,当N的取值很小,即使n取值很大,的估计值也不能收敛,因此存在某个整体较大的样本量(较大的n和较小的Ｎ),方差协方差成分的