文档介绍:SPSS 16实用教程
逻辑回归总体分析
SPSS16实用教程逻辑回归总体分析
在前面学到的回归模型中,我们处理的因变量都是数值型区间变量,建立的模型描述的是因变量的期望与自变量之间的线性关系。
线性回归模型:
然而,在许多实际问题中,我们需要研究的响应变量不是区间变量而是顺序变量或名义变量这样的属性变量。
逻辑回归分析
统计学上的定义和计算公式
比如在致癌因素的研究中,我们收集了若干人的健康记录,包括年龄、性别、抽烟史、日常饮食以及家庭病史等变量的数据。响应变量在这里是一个两点(0-1)分布变量,Y=1(一个人得了癌症),Y=0(没得癌症)。
如果我们按照(1)建立一般线性模型:
因为Y只能取0或1,而 的取值是连续的。显然不能用 来预测因变量 Y 。
我们注意到,对于0-1型变量,
E(Y)=P(Y=1)=p
因而,我们似乎可以用 来预测Y=1的概率,即:
问题1. Y=1的概率与自变量之间的关系到底是不是线性的?(答案是否定的)
例如:我们分析一个人是否买车与其年收入的关系。对于年薪5000元、5万元、50万元三个人,让他们的年薪分别增加5000元对于其买车的可能性影响是不一样的。
概率与自变量之间的关系图形往往是一个S型曲线
概率与自变量之间的关系曲线
问题2. 概率的取值应该在0~1之间。但是(2)式的概率线性模型并不能满足这一点。
我们可以通过对P进行一种变换(logit变换)
logit(p)= ln(p/(1-p))
使得logit(p)与自变量之间存在线性相关的关系。
模型的建立与解释
同时,经过变换得到的模型也解决了(2)中,概率的预测值可能是[0,1]之外的数的缺陷。
(3)式建立的模型,我们称为logistic模型(逻辑回归模型)。
我们在学****交叉列联表的相关知识的时候,提到过优势或发生比(odds )和优势比或发生比率(odds ratio)的概念
是事件发生于不发生的概率之比
那么逻辑模型就可以写成