文档介绍：: .
之前介绍过的基于线性模型样在细分影响因
素的时候，是很难分出到底是自变量的影响还是观测值之间自己的影响。虽然随
机抽样会最大程度的使数据满足独立性，但是有时候这种方法并不奏效，比如随
机抽取受访者分析其消费特征，这里就假定所有受访者的之间是相互独立的，然
而仔细想想，这其中存在问题，如果某些受访者来自同一个城市或地区，从个体
角度讲，他们确实是独立的人，之间没有任何联系，但是如果从分析目的角度讲，
由于区域因素他们之间的消费特征是趋于相似的，而产生这种相似性，正是由于
相互作用导致，这些人是存在相互影响关系的，也就类以于相关样本，与此同时，
这种相互作用也使得不同城市间的消费特征产生差异，我们称这种数据为具有层
次聚集性的数据。数据的聚集性除了表现在聚集因素间指标的均值水平不同外，
还表现在不同城市间的指标离散度上。
从层次聚集性数据也可以看出，随机抽样只能保证数据被抽到的概率相同，但是
对于抽到的是什么样的数据，却无法控制了。对于这种具有层次结构的数据，如
果分析目的仅限于这几种层次，比如就分析这几个城市，那么可以把它当做一种
固定因子，只分析固定效应而不用考虑这种聚集性，但是如果想把结果推广到所
有城市，那就不能忽略这种特征，否则会降低结果的准确性，因此还要加入随机
效应。

混合线性模型就是同时包含固定效应和随机效应的线性模型，是解决此类层次聚
集性数据的方法之一，对于具有层次结构的数据，我们需要将使观测值之间产生
相互影响的层次因素也摘出来，比如上述中的城市因素，传统的方差分析模型中，
将所有无法解释的因素都归在随机误差中，而随着我们对传统方差模型的不断拓
展，对随机误差的分解也越来越精细，结果也越来越准确。

【例】我们想分析哪些因素会对 16 岁时毕业成绩的影响，显然毕业成绩和学校
有关，好学校的学生成绩会好一些，而差学校的学生成绩会差一些，那么学校这
个因素就是上述的层次因素，它使得因变量产生相关性，而且我们是想把结果推
广到所有学校，因此学校这个变量应该被定为随机变量，我们首先按照一般线性
模型来分析，不考虑层次因素