文档介绍:: .
之前介绍过的基于线性模型样在细分影响因
素的时候,是很难分出到底是自变量的影响还是观测值之间自己的影响。虽然随
机抽样会最大程度的使数据满足独立性,但是有时候这种方法并不奏效,比如随
机抽取受访者分析其消费特征,这里就假定所有受访者的之间是相互独立的,然
而仔细想想,这其中存在问题,如果某些受访者来自同一个城市或地区,从个体
角度讲,他们确实是独立的人,之间没有任何联系,但是如果从分析目的角度讲,
由于区域因素他们之间的消费特征是趋于相似的,而产生这种相似性,正是由于
相互作用导致,这些人是存在相互影响关系的,也就类以于相关样本,与此同时,
这种相互作用也使得不同城市间的消费特征产生差异,我们称这种数据为具有层
次聚集性的数据。数据的聚集性除了表现在聚集因素间指标的均值水平不同外,
还表现在不同城市间的指标离散度上。
从层次聚集性数据也可以看出, 随机抽样只能保证数据被抽到的概率相同,但是
对于抽到的是什么样的数据,却无法控制了。对于这种具有层次结构的数据,如
果分析目的仅限于这几种层次,比如就分析这几个城市,那么可以把它当做一种
固定因子,只分析固定效应而不用考虑这种聚集性, 但是如果想把结果推广到所
有城市,那就不能忽略这种特征,否则会降低结果的准确性,因此还要加入随机
效应。
混合线性模型就是同时包含固定效应和随机效应的线性模型,是解决此类层次聚
集性数据的方法之一, 对于具有层次结构的数据,我们需要将使观测值之间产生
相互影响的层次因素也摘出来,比如上述中的城市因素,传统的方差分析模型中,
将所有无法解释的因素都归在随机误差中,而随着我们对传统方差模型的不断拓
展,对随机误差的分解也越来越精细,结果也越来越准确。
【例】我们想分析哪些因素会对 16 岁时毕业成绩的影响,显然毕业成绩和学校
有关,好学校的学生成绩会好一些,而差学校的学生成绩会差一些,那么学校这
个因素就是上述的层次因素,它使得因变量产生相关性,而且我们是想把结果推
广到所有学校,因此学校这个变量应该被定为随机变量,我们首先按照一般线性
模型来分析,不考虑层次因素