1 / 14
文档名称:

关于分层线性模型样本容量问题的研究.doc

格式:doc   大小:53KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关于分层线性模型样本容量问题的研究.doc

上传人:薇薇安 2022/5/16 文件大小:53 KB

下载得到文件列表

关于分层线性模型样本容量问题的研究.doc

文档介绍

文档介绍:2 / 14
关于分层线性模型样本容量问题的研究
张璇 王嘉宇
2011-12-13 14:33:23 来源:《统计与决策》(武汉)2010年15期第4~8页
内容提要:文章运用Jackknife和Boostrap的方法,对参ese(1998)[9]明确指出组内相关系数(ICC)与样本量相互联系。Snijders和Bosker(1999)[10]阐明对于较大的ICC值,增加组数也不会得到一致的标准差的估计。Mass和Hox(2005)[11]针对不同的层1和层2样本量进行了模拟研究,结果表明层2的样本数小于50,会导致有偏的协方差成分估计。  纵观以上研究,其方法主要是运用数据模拟的方法,针对不同层1、层2样本量的组合,估计分层线性模型,比较固定效应、随机效应和方差协方差成分的估计值。在计算机发展日新月异的今天,进行模拟计算简单易行,应用广泛。但是对于此类问题,以往研究存在许多问题:
4 / 14
①大部分研究考虑的是参数估计的准确性,只有很少的一部分重视估计的标准差的准确性。②许多研究在讨论估计参数假设检验或构造置信区间时,想当然的运用了大样本的近似理论,即参数估计近似服从正态分布,但是实际上,在样本量较小时,分层线性模型的参数估计值,尤其是方差协方差成分的估计值并非服从正态分布(Raudenbush(1984))。  2研究方法 本研究仍采用数据模拟的方法,用R语言编译计算程序。另外,研究采用简单的两层模型,每层模型各有一个解释变量:  
  在数据模拟过程中,研究分别改变组数,组内个体数和组间相关系数ICC,在样本变化的条件下,构造参数估计的置信区间,计算置信区间覆盖真实参数的覆盖率来考查估计值的分布情况。①组内个体数取值为5,30,50,ICC取值为1,2,3,考察组数从5至100改变情况下,估计值的分布如何变化;②组数取值为30,50,100,ICC取值为1,2,3,考察组内个体数从5至100改变情况下,估计值的分布如何变化。  在构造置信区间时,以往研究直接将方差用近似标准差代替,构造正态分布的置信区间,而本研究用另外一种方法计算参数估计的标准差。  R程序lme4程序包中的lmer命令可以提供分层线性模型的计算,它提供固定效应系数和方差协方差成分的估计值,以及固定效应系数估计的标准差,但是不提供方差协方差成分估计的标准差,lmer命令的编写者Doug Bates(2008)表示,第一,方差协方差成分估计的标准差的计算是非常复杂的,很多情况下,估计值已经在参数空间以外,即便是估计出来,也是无意义的,因此有些软件(如SAS)提供标准差也并不可靠。第二,当参数分布差不多是对称的情况下,提供参数估计的标准差才是有意义的,因为可以由此构造置信区间。  Harvey Goldstein(1999)提到,样本不是很大的情况下,如果随机扰动项不再服从正态分布,分层线性模型的固定效应和随机效应的估计仍然是一致的,但是其估计的标准差不能用来构建置信区间和进行显著性检验。一种替代的方法是运用密集计算中的Jackknife和Bootstrap计算估计的标准差,由Jackknife和Bootstrap理论可知估计的标准差可以利用正态分布构建置信区间和进行显著性检验。 3研究步骤
4 / 14
(4)讨论覆盖真实值情况:如果以上的置信区间确实覆盖了真实值,则取值为1;否则取0。  (5)计算覆盖率:重复第一步至第四步1000次,统计覆盖次数,计算覆盖率。 (6)在不同样本量情况下,考察覆盖率随样本量如何变化。固定n(=30,50,100),p(=1,2,3),N从5到100变化;固定N(=5,30,50),p(=1,2,3),n从5到100变化。    和Jackknife方法相比,参数Bootstrap方法步骤(2)中有差异,它将(2)分成以下几步。    构造置信区间和覆盖率的计算和Jackknife的过程一样。  4研究结果
 4.1固定效应和方差协方差成分的置信区间覆盖情况 由于不论是Jackknife还是Bootstrap方法,运算量都是非常大的,因此我们先考察在组成样本三个条件N,n,p取不同值的组合下置信区间的覆盖情况。
6 / 14
 .1Jackknife方法 表1的结果表明,当N=5时,计算的覆盖率都离95%较远,这时若n的取值较大,如n=100,覆盖率会相对提高,但是方差协方差成分中的覆盖率还是很低,这说明分层线性模型的估计很大程度上依赖于N的个数。如果仅仅考虑参数点估计,当N的取值很小,即使n取值很大,的估计值也不能收敛,因此存在某个整体较大的样本量(较大的n和较小的N),方差协方差成分的