文档介绍:SPSS做回归分析
当自变量和因变量选好后,点击 OK 键
Model为回归方程模型编号(不同方法对应不同模型)
R为回归方程的复相关系数
R Square即R2系数,用以判断自变量对因变量的影响有多大,但这并不意味着越大越好—下几个问题:
建立因变量Y与x1、x2、…、xm的经验公式(回归方程)
对经验公式的可信度进行检验
判断每个自变量xi(i=1, … , m)对Y的影响是否显著?
利用经验公式进行预报、控制及指导生产
诊断经验公式是否适合这组数据
方差分析的主要思想是把 yi 的总方差进行分解:
模型平方和
误差平方和
二、多元线性回归
参数估计方法——最小二乘法
回归方程显著性的检验——就是检验以下假设是否成立(采用方差分析法):
如果自变量对Y的影响显著,则总方差主要应由xi引起,也就是原假设不成立,从而检验统计量为:
方差来源
自由度
平方和
均方
F
p值
自变量
m
MSS
MMS
MMS
——
EMS
p
随机误差
n-m-1
ESS
EMS
和
n-1
TSS
多元线性回归的方差分析表:
在实际问题中,影响因变量Y的因素(自变量)可能很多。在回归方程中,如果漏掉了重要因素,则会产生大的偏差;但如果回归式中包含的因素太多,则不仅使用不便,且可能影响预测精度。如何选择适当的变量,建立最优的回归方程呢?
在最优的方程中,所有变量对因变量Y的影响都应该是显著的,而所有对Y影响不显著的变量都不包含在方程中。选择方法主要有:
逐步筛选法(STEPWISE) (最常用)
向前引入法(FORWARD)
向后剔除法(BACKWARD)等
逐步回归——变量选择问题
开始
对不在方程中的变
量考虑能否引入?
引入变量
能
对已在方程中的变
量考虑能否剔除?
能
剔除变量
否
筛选结束
否
逐步回归的基本思想和步骤:
某地区大春粮食产量 y 和大春粮食播种面积x1、化肥用量x2、肥猪发展头数x3、水稻抽穗扬花期降雨量x4的数据如下表,寻求大春粮食产量的预报模型。
例2、大春粮食产量的预报模型
按Graphs→Scatter →Simple顺序展开对话框
将y选入Y Axis,然后将其余变量逐个选入X Axis ,绘出散点图,观察是否适宜用线性方程来拟合。
(作图观察)
按Statistics→Regression →Linear顺序展开对话框
将y作为因变量选入Dependent框中,然后将其余变量选入作为自变量选入Independent(s)框中
Method框中选择Stepwise(逐步回归)作为分析方式
单击Statistics按钮,进行需要的选择,单击Continue返回
单击OK按钮执行
2. 回归模型的建立
被引入与被剔除的变量
回归方程模型编号
引入回归方程的自变量名称
从回归方程被剔除的自变量名称
回归方程中引入或剔除自变量的依据
3. 结果分析
由复相关系数R=,可用于该地区大春粮食产量的短期预报
常用统计量
方差分析表
回归方程为:
按常识理解,粮食产量和播种面积关系密切,但预报模型中,变量x1未引入,这是因为:
多年来该地区的大春粮食播种面积变化甚微,近于常数,因而对产量的影响不大而失去其重要性。
回归系数分析
在汽油中加入两种化学添加剂,观察它们对汽车消耗1公升汽油所行里程的影响,共进行9次试验,得到里程Y与两种添加剂用量X1、X2之间数据如下:
xi1
0
1
0
1
2
0
2
3
1
xi2
0
0
1
1
0
2
2
1
3
yi
试求里程Y关于X1、X2的经验线性回归方程,并求误差方差σ2的无偏估计值。
例. 《概率论与数理统计》P280
检验说明线性关系显著
结果:
在实际问题中,常会遇到变量之间关系不是线性的相关关系,而是某种曲线的非线性相关关系。此时首先要确定回归函数的类型,其原则是:
根据问题的专业知识或经验确定
根据观测数据的散点图确定
常选曲线类型:
双曲线、幂函数曲线、对数曲线、指数曲线、倒数指数曲线、S形曲线
三、非线性回归
鼠标在选项上点击右键可看到相应模型类型
操作步骤:Analyze→Regression →Curve Estimation…
结合SPSS的曲线模型选择:
测量13个样品中某种金属含量Y与该样品采集点距中心观测点的距离X,有如下观测值:
xi
2
3
4