1 / 3
文档名称:

多因素回归知识点总结.docx

格式:docx   大小:15KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

多因素回归知识点总结.docx

上传人:guoxiachuanyue009 2022/6/1 文件大小:15 KB

下载得到文件列表

多因素回归知识点总结.docx

文档介绍

文档介绍:多因素回归知识点总结
哑变量
因变量:即结果变量、应变量、被预测变量自变量:即协变量、解释变量、预测变量哑变量:回归分析中有两组以上的分组情况。若自变量是无序多分类变量,需要“哑变量化”处理。方法是设置“分组数减1”个指示变量。
职业多因素回归知识点总结
哑变量
因变量:即结果变量、应变量、被预测变量自变量:即协变量、解释变量、预测变量哑变量:回归分析中有两组以上的分组情况。若自变量是无序多分类变量,需要“哑变量化”处理。方法是设置“分组数减1”个指示变量。
职业
gl
g2
g3
g4
工人
1
0
0
0
农民
0
1
0
0
商人
0
0
1
0
学生
0
0
0
1
其他
0
0
0
0
uy=u0+b1Xg1+b2Xg2+b3Xg3+b4Xg4
则学生组总体均数为uO+b4Xg4
混杂因素控制举例:是否服药(分现服药组、曾服药组、从未服药组)、年龄两个因素对血糖的影响若只考察“是否服药”一个因素,哑变量化
是否服药
g1
g2
现服药
1
0
曾服药
0
1
从未服药
0
0
uy=uO+blXgl+b2Xg2
则gl、,说明血糖受“是否服药”影响
但发现3组人的年龄是不同的,因此必须排除年龄是否是混杂因素考察“是否服药”和年龄两个因素
uy=u0+b1Xg1+b2Xg2+b3XX
发现gl、g2的P值皆〉,,
说明3组血糖不同其实是由于年龄不同导致,“是否服药”反而是混杂因素理论上,更严格的实验要求分析“是否用药”与年龄是否对血糖构成交互作用
影响因素的筛选
1•最优预测模型:
需满足以下三个条件:
自变量个数一定时,残差的平方和最小
进入回归模型的自变量都有统计学意义
再增加任一自变量,会导致更多自变量失去统计意义
寻求最优预测模型方法:
前进法:计算所有自变量的P值,从P值最大的开始,逐个纳入自变量,出现有P值〉,直到有统计学意义的自变量全部进入回归模型。缺点:后续变量的引入可能会使先进入方程的变量变得不重要
前进逐步回归法:计算所有自变量的P值,从P值最大的开始,逐个纳入自变量,出现有P值〉,依次循环引入、剔除,直到回归模型中所有自变量都有统计学意义,且再增加任一自变量,会导致更多自变量失去统计意义
后退法:纳入所有自变量,先剔除无统计学意义且P值最大的自变量,再次计算并依前标准剔除,直到模型中所有自变量都有统计学意义。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果
后退逐步回归法:纳入所有自变量,先剔除无统计学意义且P值最大的自变量,再次计算并依前标准剔除,剔除后还要考察已剔除的自变量是否能回纳入回归模型,直到既没有自变量可以引入,也没有自变量要剔除为止
:有5个自变量XI〜X5
X1
X2
X3
X4
X5
说明
步骤
1
回归系统b


-


全部纳入,X3的P值最大,先剔除
P值
0.