文档介绍:交通工程数据分析
与科学计算
第一部分基础篇
数据分析基础
2-8章中的例子都从交通工程中来。
绪论
统计学基本概念
基本概念
数据的收集与抽样
描述性统计分析
一维总体的数字特征
频数和频率
均值比较分析
数据变换
参数的假设检验和区间估计
检验功效
样本容量计算
方差分析
统计推断和假设检验
点估计
区间估计
假设检验
卡方检验
T检验
总体的推断
相关和回归分析
基本概念
一元线性回归→参数回归、拟合优度检验
多元线性回归
建模
多项式回归
可化为线形回归的曲线回归
逐步回归
Logistic回归
非线性回归
相关分析与回归分析基本概念
相关分析
一元线性回归
一元线性回归的定义
一元线性回归模型的确定
案例(交通工程中的应用)
多元线性回归
一元线性回归是讨论的两个变量因素之间的回归问题,然而客观世界的变化往往受多种因素的影响,即使其中一个因素起着主导作用,但有时其它因素的作用也不可忽视。在实际问题中,大多数影响自变量的因素不是一个,而是多个。我们把包括两个或两个以上自变量的回归成为多元回归。
本节中,我们首先以两个自变量的模型为例说明多元回归的使用,然后推广到三个或三个以上自变量的多元回归模型。
多元线性回归的定义
一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。
设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:
其中,b0为常数项,为回归系数,b1为固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为:
其中,b0为常数项,为回归系数,b1为固定时,x2每增加一个单位对y的效应,即x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为:
y = b0 + b1x1 + b2x2 + e
建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;
(3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之因的相关程度;
(4)自变量应具有完整的统计数据,其预测值容易确定。
多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为
解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得
即
多元线性回归模型的检验
多元性回归模型与一元线性回归模型一样,在得到参数的最小二乘法的估计值之后,也需要进行必要的检验与评价,以决定模型是否可以应用。
1、拟合程度的测定。
与一元线性回归中可决系数r2相对应,多元线性回归中也有多重可决系数r2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,R2越大,回归方各对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。计算公式为:
其中,
估计标准误差,即因变量y的实际值与回归方程求出的估计值之间的标准误差,估计标准误差越小,回归方程拟合程度越程。
其中,k为多元线性回归方程中的自变量的个数。
回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。能常采用F检验,F统计量的计算公式为:
根据给定的显著水平a,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F > Fa,则回归方程具有显著意义,回归效果显著;F < Fa,则回归方程无显著意义,回归效果不显著。
在一元线性回归中,回归系数显著性检验(t检验)与回归方程的显著性检验(F检验)是等价的,但在多元线性回归中,这个等价不成立。t检验是分别检验回归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量