1 / 38
文档名称:

定量分析之回归分析.doc

格式:doc   大小:1,510KB   页数:38页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

定量分析之回归分析.doc

上传人:63229029 2017/7/25 文件大小:1.47 MB

下载得到文件列表

定量分析之回归分析.doc

相关文档

文档介绍

文档介绍:第十三章回归分析
“回归”(regression)是由英国著名生物学家兼统计学家高尔顿(Francis Galton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据,他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高(父亲的身高和儿子的身高)有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。
回归分析和相关分析都是对多个变量之间依存关系的分析。只有存在相关的变量才能进行回归分析,相关程度愈高,回归效果越好。
相关分析与回归分析的不同点:①相关分析是研究变量之间的依存关系,但不区分哪个是自变量,哪个是因变量;而回归分析不仅研究变量之间的依存关系,而且要根据研究对象和目的,确定哪个是自变量(解释变量),哪个是因变量(被解释变量)。②相关分析主要是研究变量之间关系的密切程度和变化的方向;而回归分析要通过建立回归模型和控制自变量来进行估计和预测。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
第一节一元线性回归
一、一元线性回归模型的基本概念
若有两个变量和,其中为非随机变量(即可控变量),为随机变量。且和有相关关系,则可用数学模型近似地表示它们之间的关系。式中是随机变量。方程称为回归方程(回归模型)。
若一元回归方程是线性的,称为一元线性回归。其数学模型为:=++。这个回归模型中的随机误差,要求满足如下的高斯基本假设:
(1)应当是服从正态分布的随机变量,即满足“正态性”(normal)的假设。
(2)的均值为零,即E()=0,我们称满足“无偏性”的假设。
(3)的方差等于某个常数,即=,这就是说,所有的分布的方差都相同(equal variance),即满足“共方差性”的假设。
(4)各个间相互独立,即对于任何两个随机误差和其协方差等于零,即,Cov(,)=0, )这称之为满足“独立性”(independent)的假设。
综上所述,随机误差必须服从独立的相同分布。
基于上述假定,随机变量的数学期望和方差分别是:
E()=+ =,
由此: ~N(+,)
这就意味着,当X=时,是一个服从正态分布的随机变量的某一个取值。如果不考虑式中的误差项,就可以得到简单的方程:
=+
这一方程就称为Y对X的一元线性回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。其中a、b通常称为回归模型的参数,a是回归直线的截距;b是回归直线的斜率(回归系数)。
二、一元线性回归模型的参数估计
回归模型中的参数与在一般情况下都是未知数,必须根据样本数据(,)来估计。确定参数与值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采普通最小二乘法(Ordinary Least Square,OLS)来解决这个问题。
对应于每一个,根据回归直线方程可以求出一个,它就是的一个估计值。估计值和观察值之间的偏差。有n个观察值就有相应的n个偏差。要使模型的拟合状态最好,就是说要使n个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型的参数。这就要求
是个极小值。
根据微积分中的极值定理,要使上式取极小值,其对与所求的偏导数应为0,即

经整理后可得:

解上式,可得:

记。

于是,得到参数与的简单表达形式如下:

求出参数与以后,就可以得到回归模型

由此,只要给定了一个值,就可以根据回归模型求得一个来作为实际值的预测值。
我们以研究与开发(R&D)投入与国内生产总值(GDP)的关系为例来说明一元线性回归模型的求解问题。1989-2006年,中国R&D投入与GDP相关统计数据如表13-1所示。

表13-1:1989-2006年中国R&D投入与GDP相关数据
序号
年份
GDP (亿元)
R&D(亿元)
1
2