文档介绍:虚拟变量(dummy variable)
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
截距移动
设有模型,
yt = b0 + b1 xt + b2D + ut ,
其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
b0 + b1xt + ut , (D = 0) yt D = 1
yt = b0+b2 D = 0
(b0 + b2) + b1xt + ut , (D = 1) b0
xt
D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若b2显著不为零,说明截距不同;若b2为零,说明这种分类无显著性差异。
例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:
–105 + x D = 1 (男)
y = - 100 + x - 5D =
– 100 + x D = 0 (女)
注意:
①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性, 称作虚拟变量陷阱(dummy variable trap)。
②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。
③定性变量中取值为0所对应的类别称作基础类别(base category)。
④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:
1 (大学)
D = 0 (中学)
-1 (小学)。
斜率变化
以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:
yt = b0 + b1 xt + b2 D + b3 xt D + ut ,
其中xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
(b0 + b2 ) + (b1 + b3)xt + ut , (D = 1) yt D = 1
yt = b0 + b2 D = 0
b0 + b1 xt + ut , (D = 0) b0 xt
通过检验 b3是否为零,可判断模型斜率是否发生变化。
例1:季节数据模型
我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下:
1 (4季度) 1 (3季度) 1 (2季度)
D1 = D2 = D3 =
0 (1, 2, 3季度) 0 (1, 2, 4季度) 0 (1, 3, 4季度)
全国按季节市场用煤销售量数据
季度
Yt
t
D1
D2
D3
季度
Yt
t
D1
D2
D3
1
0
0
0
15
0
1
0
2
0
0