文档介绍:在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:
相关关系问题
(1)确定性关系——函数关系;
(2)非确定性关系——相关关系;
相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。
相关关系举例
例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系,但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。
又如:人的血压 Y 与年龄 X 之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。血压是一个随机变量。
农作物的亩产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,可控变量称为自变量,不可控变量称为因变量。
对于x的一组不完全相同的值x1, x2,…,xn作独立观察, 得到随机变量y相应的观察值y1,y2, …,yn, 构成n对数据. 用这n对数据可作出一个散点图, 直观地描述一下两变量之间的关系.
y
x
o
·
·
·
··
·
·
·
·
·
·
·
这里有三幅散点图.
y
x
o
·
·
·
··
·
·
·
·
·
(1)
o
y
x
·
·
·
·
·
·
·
·
·
·
·
·
(2)
y
x
o
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
(3)
根据散点图, 考虑以下几个问题:
(1)两变量之间的关系是否密切, 或者说我们能否由x来估计y.
(2)两变量之间的关系是呈一条直线还是呈某种曲线.
(3)是否存在某个点偏离过大.
(4)是否存在其它规律.
y
x
o
·
·
·
··
·
·
·
·
·
(1)
o
y
x
·
·
·
·
·
·
·
·
·
·
·
·
(2)
y
x
o
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
(3)
考虑采用线性方程拟合
采用非线性方程拟合
以下重点讨论前者
函数关系与相关关系的区别
相关关系——
影响
的值,
函数关系——
决定
的值,
因此,统计学上讨论两变量的相关关系时,是设法
确定:在给定自变量的条件下,因变量的
条件数学期望
不能确定。
回归分析的概念
研究一个随机变量与一个(或几个)可控变量之间
的相关关系的统计方法称为回归分析。
只有一个自变量的回归分析称为一元回归分析;多
于一个自变量的回归分析称为多元回归分析。
引进回归函数
称为回归方程
回归方程反映了因变量随自变量的变化而变化
的平均变化情况.
回归分析主要包括三方面的内容
(1)提供建立有相关关系的变量之间的数学关系
式(称为经验公式)的一般方法;
(2)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著的;
回归分析的内容
(3)利用所得到的经验公式进行预测和控制。
一元线性回归模型
如果试验的散点图中各点呈直线状,则假设这批数
据的数学模型为
设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值:
称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图.
其中
,且相互独立,
则