文档介绍::函数关系:确定性关系相关关系:不确定性关系相关关系的测度:散点图线性相关关系的测度::回归这一术语最早来源于生物遗传学,由高尔顿(FrancisGalton)引入。 回归的现代解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知值或固定值来估计或预测因变量的总体平均值。因变量:Y自变量:X或X1,X2,…等高尔顿的兴趣在于寻找为什么总体身高分布趋向稳定。现在我们所关心的已不是这个问题,而是想知道在已知父亲身高的情况下,儿子的身高的平均变化如何。换句话说,就是已知父亲身高来预测儿子的平均身高。假设进行抽样试验,得以下结果:父亲身高(X)(Y)(5次),则对于同一个X值,会有多个Y值与之对应,即Y有多个取值。假设作出的散点图如下:为了找出X与Y的关联关系,一个自然的想法是取X=Xi时,所有Y值的平均值作为对应X=Xi时Y的代表值,亦即取:对于任何一个X的可能值,我们都可以相应的取:当X变化时,上式左边是X的一个确定的函数,可以记为:于是,我们可以用一个确定的函数来大体描述Y与X之间的变化规律。为Y对X的回归方程,它反映了X固定的条件下Y的平均状态的变化情况。Y对X的回归就是Y对X的条件期望函数。。回归分析,已如前述,我们首先并不对这种度量有兴趣,而主要是想根据一些有关变量的已知值来估计或预测某一变量的平均值。相关分析与回归分析在技术上的区别:相关分析同等对待任何两个变量,无自变量和因变量的区别。两个变量都假定为随机变量。回归分析对自变量和因变量不同对待。因变量是随机变量,而自变量是非随机的,是给定(固定)变量。:每一个条件均值E(Y/X=Xi)(简写为E(Y/Xi)是Xi的一个函数,即::总体回归函数设(线性总体回归函数):截距(intercept):斜率系数(slope):变量线性:变量的幂指数为1,没有两个不同变量的乘除运算,也没有自变量作为幂指数运用。参数线性:参数的幂指数为1。线性回归一般指的是参数的线性,而变量可能是线性,也可能是非线性。:设各个与其期望值的离差为:即::随机误差项,不可观察的随机变量,可以为正,也可为负。当时,则:随机误差项的性质:可能代表了模型中并未包括的变量的影响;反映了人类行为中的一些内在随机性;可能反映一些测量误差。:当未掌握总体资料时,以样本资料拟合的回归线是总体回归线的近似代表(估计),因此样本回归函数可以写为:(假设为一元线性回归模型)样本回归函数也可以有随机设定的方程,设即::残差项,简称残差,是的估计。:回归模型的基本假定::自变量与因变量是线性函数关系。即::当X是非随机变量,即确定性变量时,该条件自动满足;当X是随机变量时,该假定要求X与u不相关。(扰动项)的假定::给定解释变量的值,随机误差项的期望值为0。即:结合上一假定,该条件等价于:(homoscedasticity)假定:不同的扰动项具有相同的方差。即:否则称为异方差。结合前面的假定,同方差假定等价于:(noautocorrelation)假定:不同扰动项之间的协方差为零,即:该假定等价于: :回归模型的设定是正确的,即模型不存在设定偏差(Specificationbias)或设定误差(specificationerror)。:扰动项服从正态分布。结合3和4即为::最小二乘估计最小二乘法则:所谓最小二乘法则,就是按照使残差平方和最小的原则来确定回归系数的估计量,从而建立拟合最佳的样本回归方程。