文档介绍:逐步回归分析案例: 逐步回归分析在自变量很多时,其中有的因素可能对应变量的影响不是很大, 而且 x之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行 x因子的筛选,这样建立的多元回归模型预测效果会更较好。逐步回归分析,首先要建立因变量 y与自变量 x之间的总回归方程,再对总的方程及每—个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对 y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。逐步回归在病虫预报中的应用实例: 以陕西省某地区 1984~1995 年的烟蚜传毒病情资料、相关虫情和气象资料为例(数据见 ),建立蚜传病毒病情指数的逐步回归模型,说明逐步回归分析的具体步骤。影响蚜传病毒病情指数的虫情因子和气象因子一共有 21个,通过逐步回归, 从中选出对病情指数影响显著的因子,从而建立相应的模型。对 1984~1995 年的病情指数进行回检,然后对 1996~1998 年的病情进行预报,再检验预报的效果。变量说明如下: y:历年病情指数 x1:前年冬季油菜越冬时的蚜量(头/株) x2:前年冬季极端气温 x3:5月份最高气温 x4:5月份最低气温 x5: 3~5 月份降水量 x6: 4~6 月份降水量 x7: 3~5 月份均温 x8: 4~6 月份均温 x9:4月份降水量 x10 :4月份均温 x11 :5月份均温 x12 :5月份降水量 x13 :6月份均温 x14 :6月份降水量 x15 :第一次蚜迁高峰期百株烟草有翅蚜量 x16 :5月份油菜百株蚜量 x17 :7月份降水量 x18 :8月份降水量 x19 :7月份均温 x20 :8月份均温 x21 :元月均温 1)准备分析数据在 SPSS 数据编辑窗口中,用“ File → Open → Data ”命令,打开“ ”数据文件。数据工作区如下图 3-1 显示。图 3-1 2)启动线性回归过程单击 SPSS 主菜单的“ Analyze ”下的“ Regression ”中“ Linear ”项,将打开如图 3-2 所示的线性回归过程窗口。图 3-2 线性回归对话窗口 3)设置分析变量设置因变量:将左边变量列表中的“y”变量,选入到“ Dependent ”因变量显示栏里。设置自变量:将左边变量列表中的“ x1”~“ x21 ”变量,全部选移到“ Independent(S) ”自变量栏里。设置控制变量:本例子中不使用控制变量,所以不选择任何变量。选择标签变量:选择“年份”为标签变量。选择加权变量:本例子没有加权变量,因此不作任何设置。 4)回归方式在“ Method ”分析方法框中选中“ Stepwise ”逐步分析方法。该方法是根据“ Options ”选择对话框中显著性检验( F)的设置, 在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。设置后的对话窗口如图 3-3 。图 3-3 5)设置变量检验水平在图 6-15 主对话框里单击“ Options ”按钮,将打开如图 3-4 所示的对话框。图 3-4 “ Stepping Method Criteria ”框里的设置用于逐步回归分析的选择标准。其中“ Use probability ofF”选项,提供设置显著性 F检验的概率。如果一个变量的 F检验概率小于或等于进入“ Entry ”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的 F值检验概率大于剔除“ Removal ”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置 F检验概率时,应使进入值小于剔除值。“ Ues F value ”选项,提供设置显著性 F检验的分布值。如果一个变量的 F值大于所设置的进入值( Entry ),那么这个变量将被选入回归方程中;当回归方程中变量的 F值小于设置的剔除值( Removal ),则该变量将从回归方程中被剔除。同时,设置 F分布值时,应该使进入值大于剔除值。本例子使用显著性 F检验的概率,在进入“ Entry ”栏里设置为“ ”,在剔除“ Removal ”栏里设置为“ ”(剔除的概率值应比进入的值大),如图 6-17 所示。图 6-17 窗口中的其它设置参照一元回归设置。 6)设置输出统计量在主对话图 3-2 窗