文档介绍:相关与回归
回归的来历
早在19 世纪后期, 英国生物学家Golton 在研究家族成员的相似性时发现:虽然一般说来高个子的父代会有高个子的子代,但是子代的身高比他们的父代更趋向一致,即若父代身材高大,则他们的子代会趋向矮一些,而若父代身材矮小,他们的子代会趋向高一些。他把子代的身高向平均值靠拢的趋势称为“向平庸的回归”。
Karl Pearson 观察了1078 个家庭中父亲身高x 和儿子身高 y, 建立了一个线性方程y = 33. 8 + 0. 51x
平均身高
低于平均身高的平均值
高于平均身高的平均值
Father
Son
相关关系和相关系数
在分析测试中,所研究的变量之间的关系,由于常存在着不可避免的随机误差,因此就使得变量之间的关系具有某种不确定性,这种变量之间既有着相互影响,又不甚明了和肯定的关系,在统计上就称为相关关系。相关关系与函数关系之间并没有严格的界限。两个变量之间的相关关系,如达到一定的紧密程度时,就一定会发现它们之间有着确定的函数关系。在统计学上研究变量之间是否存在一定的相关关系,就称为相关分析。相关分析的目的就是要求出相关系数。
统计上常用一变量对另一变量的回归方程的离散程度来表示相关系数,并用字母 r 来表示,定义如下:
从上式可见,残余差方和 Q 越小,回归方程的离散程度越小,回归系数越接近 1 ,也就越意味着存在着确定的函数关系。
Q: 残余方差
y的回归估计值
相关系数的另一种表示
Sxy (Cov(x,y)): 变量x和y的样本协方差
线性回归和非线性回归
一元线性回归
y = ax + b,
a, b: 回归系数
最小二乘法:定义残余差方和Q。
通过最小二乘法所得到的回归线有着以下几个特点:
它必定通过x, y的平均值这一点;
它对所有点来说是误差最小的;
它常常不是通过实验数据中的任一点;
不能随意外推。
例试拟合以下一样品中铀含量和荧光强度的实验数据的线性回归方程
铀含量(10-7g)
荧光强度(%)
x2
xy
y2
1
1
2
4
4
16
6
36
8
64
10
100
Sum
31
221
非线性回归
两变量的关系如是非线性的,就叫非线性回归,通常非线性回归均可以通过适当的数学变换将其转化为线性回归。