1 / 27
文档名称:

R语言学习系列32-回归分析.docx

格式:docx   大小:492KB   页数:27页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R语言学习系列32-回归分析.docx

上传人:w447750 2017/9/23 文件大小:492 KB

下载得到文件列表

R语言学习系列32-回归分析.docx

相关文档

文档介绍

文档介绍:27. 回归分析
回归分析是研究一个或多个变量(因变量)与另一些变量(自变量)之间关系的统计方法。主要思想是用最小二乘法原理拟合因变量与自变量间的最佳回归模型(得到确定的表达式关系)。其作用是对因变量做解释、控制、或预测。
回归与拟合的区别:
拟合侧重于调整曲线的参数,使得与数据相符;而回归重在研究两个变量或多个变量之间的关系。它可以用拟合的手法来研究两个变量的关系,以及出现的误差。
回归分析的步骤:
(1)获取自变量和因变量的观测值;
(2)绘制散点图,并对异常数据做修正;
(3)写出带未知参数的回归方程;
(4)确定回归方程中参数值;
(5)假设检验,判断回归方程的拟合优度;
(6)进行解释、控制、或预测。
(一)一元线性回归
一、原理概述
1. 一元线性回归模型:
Y=𝛽0+𝛽1X+ε
其中 X是自变量,Y是因变量,𝛽0,𝛽1是待求的未知参数,𝛽0也称为截距;ε是随机误差项,也称为残差,通常要求ε满足:
①ε的均值为0;
②ε的方差为𝜎2;
③协方差COV(εi, εj)=0,当i≠j时。即对所有的i≠j, εi与εj 互不相关。
用最小二乘法原理,得到最佳拟合效果的值:
,

(1) 拟合优度检验
计算R2,反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好。,所得到的回归直线拟合得较好,,所得到的回归直线很难说明变量之间的依赖关系。
(2) 回归方程参数的检验
回归方程反应了因变量Y随自变量X变化而变化的规律,若𝛽1=0,则Y不随X变化,此时回归方程无意义。所以,要做如下假设检验:
H0: 𝛽1=0, H1: 𝛽1≠0;
① F检验
若𝛽1=0为真,则回归平方和RSS与残差平方和ESS/(N-2)都是𝜎2的无偏估计,因而采用F统计量:
来检验原假设β1=0是否为真。
② T检验
对H0: 𝛽1=0的T检验与F检验是等价的(t2=F)。
3. 用回归方程做预测
得到回归方程后,预测X=x0处的Y值.
的预测区间为:
其中tα/2的自由度为N-2.
二、R语言实现
使用lm()函数实现,基本格式为:
lm(formula, data, subset, weights, ,
method="qr", ...)
其中,formula为要拟合的回归模型的形式,一元线性回归的格式为:y~x,y表示因变量,x表示自变量,若不想包含截距项,使用y~x-1;
data为数据框或列表;
subset选取部分子集;
weights取NULL时表示最小二乘法拟合,若取值为权重向量,则用加权最小二乘法;
;
method指定拟合的方法,目前只支持“qr”(QR分解),method=“”返回模型框架。
三、实例
例1 现有埃及卡拉马村庄每月记录儿童身高的数据,做一元线性回归。
datas<-(age=18:29,height=c(,77,,,,,,,,,,))
datas
age height
1 18
2 19
3 20
4 21
5 22
6 23
7 24
8 25
9 26
10 27
11 28
12 29
plot(datas) #绘制散点图
<-lm(height~age,datas) #做一元线性回归
summary() #输出模型的汇总结果
Residuals:
Min 1Q Median 3Q Max
- - -
Coefficients:
Estimate t value Pr(>|t|)
(Intercept) < 2e-16 ***
age -11 ***
---
: 0 ‘***’ ‘**’ ‘*’ ‘.’ ‘’ 1
Residual standard error: on 10 degrees of freedom
Multiple R-squared