文档介绍:第四章回归分析
32
x
33
0
y
1
质量控制应用案例
某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。根据冶金学的专业理论知识和实践经验知道,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99% 。
2
如何制订含碳量的控制标准?
为达到以上质量控制要求,就需要重新修订该合金钢冶炼中关于含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。
为分析该合金钢的抗拉强度和延伸率与含碳量之间的关系,该厂质量管理科查阅了该合金钢的质量检验纪录,在剔除了异常情况后,整理了该合金钢的上述两项指标与含碳量的92炉实测数据,以供分析(见所发案例)。
3
§ 回归分析概述
一. 变量间的两类关系
1. 确定性关系确定性关系也即函数关系,即
Y=ƒ (X) ; Y=ƒ (X1,X2,…,Xp)
或 F(X,Y)=0; F(X1,X2,…,Xp;Y)=0
Y= CX
X
销售收入
Y
销售量
0
确定性关系
4
2. 非确定性关系(相关关系)
非确定性关系指变量间虽存在着制约关系,但由于许多无法预计和控制的因素的影响,使变量间的关系呈现不确定性,即不能由一个或若干变量的值精确地确定另一变量的值。
通过大量观察或试验,可以发现非确定性关系的变量间存在着某种统计规律性——称为相关关系或回归关系。
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
家庭收入
非确定性关系
0
Y
家庭消费支出
Y=b0+b1X
.
5
案例1 商品价格与消费量的关系
以三口之家为单位,某种食品在某年各月的家庭平均月消费量Y(kg)与其价格X(元/kg)间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。
Y= 0+ 1X
y
x
6
二. 线性回归模型
由图可知,该食品家庭月平均消费量Y与价格X间基本呈线性关系。这些点与直线
Y= 0+ 1X
间的偏差是由其他一些无法控制的因素和观察误差引起的,故可以建立Y与 X之间关系的线性回归模型如下;
Y= 0+ 1X+ (-1)
称 X为解释变量(自变量),Y为被解释变量(因变量), 0、1是模型中的未知参数,为随机误差项(随机扰动项)。
7
随机误差项产生的原因
随机误差项产生的原因主要有以下几个方面:
(1) 模型中忽略的其他因素对Y的影响;
(2) 模型不准确所产生的偏差;
(3) 模型中包含了对Y无显著影响的变量;
(4) 对变量的观察误差;
(5) 其他随机因素的影响。
8
线性回归模型的数据结构
当X取不完全相同的值x1, x2, …, xN 时,得到Y的一组相应的观察值y1,y2,…,yN,显然,每一对观察值(yi,xi)都应满足(-1)式,故一元线性回归模型的数据结构为:
yi= 0+ 1xi+ i ; i=1,2,3,…,N (-2)
其中 i 表示其他因素和试验误差对yi影响的总和。
9
三. 回归模型的经典假设条件
1. 各 i~N(0,2 ),且相互独立;
2. 解释变量是可以精确观察的普通变量(非随机变量);
3. 解释变量与随机误差项不相关(即解释变量与随机误差项是各自独立对被解释变量产生影响的)。
称满足以上条件的回归模型为经典回归模型。本章仅讨论经典回归模型。
但在经济领域中,经济变量间的关系通常是不会完全满足上述条件的。例如家庭消费支出Y与家庭收入X间的回归模型就不会是同方差的(见上述条件(1))。
10