文档介绍:第八章直线回归与相关
前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。
相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归纳如下:
函数关系有精确的数学表达式
(确定性的关系) 直线回归分析
一元回归分析
变量间的关系因果关系曲线回归分析
(回归分析) 多元线性回归分析
多元回归分析
相关关系多元非线性回归分析
(非确定性的关系) 简单相关分析——直线相关分析
平行关系复相关分析
(相关分析) 多元相关分析
偏相关分析
统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。
统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。
在相关分析中,变量无自变量和依变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信息,由相关分析也能获得回归的一些重要信息。
本章先介绍直线回归与相关分析。
第一节直线回归
一、直线回归方程的建立
图8-1 (x,y)的散点图
对于两个相关变量,一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),……,(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图(见图8-1)。
从散点图(图8-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型;③是否有异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。
如果两个相关变量间的关系是直线关系,根据n对观测值所描出的散点图,如图8—1(c)和图8—1(d)。如果把变量y与x内在联系的总体直线回归方程记为y=α+βx,由于依变量的实际观测值总是带有随机误差,因而实际观测值yi可表示为:
(i=1,2, …, n) (8—
1)
其中e i为相互独立,且都服从N(0,σ2)的随机变量。这就是直线回归的数学模型。我们可以根据实际观测值对α,β以及方差σ2做出估计。
在x,y的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点图中全部散点的直线。设样本直线回归方程为:
(8-2)
其中,a是α的估计值,b是β的估计值。
回归直线在平面坐标系中的位置