文档介绍:解决动物性状多重共线性的一种方
                       ——逐步通径分析法
孙德林焦骅冯蕴华
(农业部农经学院沈阳农业大学)
动物性状多重共线性是指多元回归中自变量间存在着高度相关性。导致自变量与因变量间的回归关系发生改变。失去自变量与因变量间原有的生物学意义。本文选择奶牛 305 天产奶量( y )与最高日产出现天数( X 1 )。最高月产奶量( X 2 )、 90 天产奶量( X 3 )、最高日产奶量( X 4 )及 30 天产奶量( X 5 )六个性状资料。运用通径分析原理与方法阐述动物性状多重共线性的存在及产生的原因。并进行逐步通径分析建立最优回归方程。把引起多重共线性的自变量弃留在回归方程之外。从而达到科学预测之目的。
一、动物性状多重共线性现象
     动物性状多重共线性主要表现在简单回归系数和偏回归系数符号相反。同时表现不合实际的回归系数。下面结合实例加以说明。
    资料取自辽宁省锦州市种畜场黑白花奶牛产奶记录。对上这六个性状。采用普通最小二乘法建立回归方程。
=-+ 1- 2+ 3+ 4- 5
    从上述回归方程可以看出:最高日产奶出现天数( X 1 )增加一个单位。 305 天产奶量( y )增辑 3145 单位。即产奶高峰出现越晚。对 305 天产奶量越有利。最高月产奶量( X 2 )增加一个单位。 305 天产奶量( y )减少 单位。即最高月产对 305 天产奶量有不利的影响。以上两点与实际情况不符。奶牛实践证明。产奶高峰出现越早越好。希望产奶高峰早日到来,最高月产奶量对 305 天产奶量极为有利,必然表现“正”联系。
二、动物性状多重共线性的剖分
根据通径分析原理。我们可以建立如下正规方程组。
根据原始资料可计算变量间两两简单相关系数列表如下。并代上式求解出各通径系数。
各性状相关矩阵表
性状
X 1
X 2
X 3
X 4
X 5
X 6
最高日产出现天数( X 1 )
1000000
-
-
-
-
-
最高月产级量( X 2 )
 
1000000
90 天产奶量( X 3 )
 
 
1000000
最高日产奶量( X 4 )
 
 
 
1000000
30 天产奶量( X 5 )
 
 
 
 
1000000
Py · x 1= 。 Py · x 2=- 。 Py · x 3= 。 Py · x 4= 。 Py · x 5=- 。其符号与偏回归系数一致。
我们知道。一个现象原因与结果的关系可以剖分成直接原因与间接原因。即:
所以,必然有:
根据这个原理我们可对上述几个不合理的通径系数其组成加以剖分。
x 1 对 y 的通