1 / 13
文档名称:

二分类与多分类Logistic回归模型.doc

格式:doc   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

二分类与多分类Logistic回归模型.doc

上传人:huiwei2002 2016/6/19 文件大小:0 KB

下载得到文件列表

二分类与多分类Logistic回归模型.doc

相关文档

文档介绍

文档介绍:1 二分类 Logistic 回归模型在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的 Logistic 回归模型。第一节模型简介一、模型入门在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析, 相信大家并不陌生, 当要考察的影响因素较少, 且也为分类变量时,分析者常用列联表(contingency Table) 的形式对这种资料进行整理,并使用 2?检验来进行分析, 汉存在分类的混杂因素时, 还可应用 Mantel-Haenszel 2?检验进行统计学检验, 这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用, 但无法描述其作用大小及方向, 更不能考察各因素间是否存在交互任用; 其次, 该方法对样本含量的要求较大, 当控制的分层因素较多时, 单元格被划分的越来越细, 列联表的格子中频数可能很小甚至为 0, 将导致检验结果的不可靠。最后, 2?检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探讨, 为了讨论方便, 常定义出现阳性结果时反应变量取值为 1, 反之则取值为 0。例如当领导层有女性职员、下雨、痊愈时反应变量 1y?, 而没有女性职员、未下雨、未痊愈时反应变量 0y?。记出现阳性结果的频率为反应变量( 1) P y ?。首先,回顾一下标准的线性回归模型: ? 1 1 m m Y x x ? ? ?? ????如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的回归模型: ? 1 1 m m P x x ? ? ?? ????显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足分析的基本要求。实际上, 统计学家们最早也在朝这一方向努力, 并考虑到最小二乘法拟合时遇到的各种问题, 对计算方法进行了改进, 最终提出了加权最小二乘法来对该模型进行拟合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问题是这种分析思路所无法解决的: (1) 取值区间: 上述模型右侧的取值范围, 或者说应用上述模型进行预报的范围为整个实数集( , ) ????, 而模型的左边的取值范围为 0 1 P ? ?, 二者并不相符。模型本身不能 2 保证在自变量的各种组合下,因变量的估计值仍限制在 0~1 内,因此可能分析者会得到这种荒唐的结论:男性、 30 岁、病情较轻的患者被治愈的概率是 300% !研究者当然可以将此结果等价于 100% 可以治愈,但是从数理统计的角度讲,这种模型显然是极不严谨的。(2 )曲线关联:根据大量的观察,反应变量 P 与自变量的关系通常不是直线关系,而是S 型曲线关系。这里以收入水平和购车概率的关系来加以说明,当收入非常低时,收入的增加对购买概率影响很小; 但是在收入达到某一阈值时, 购买概率会随着收入的增加而迅速增加; 在购买概率达到一定水平, 绝大部分在该收入水平的人都会购车时, 收入增加的影响又会逐渐减弱。如果用图形来表示, 则如图 1 所示。显然, 线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明显无法满足的。图1S 型曲线图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变量变换, 使得曲线直线化, 然后再进行直线回归方程的拟合。那么, 能否考虑对所预测的因变量加以变换, 以使得以上矛盾得以解决?基于这一思想, 又有一大批统计学家在寻找合适的变换函数。终于,在 1970 年, Cox 引入了以前用于人口学领域的 Logit 变换(Logit Transformation) ,成功地解决了上述问题。那么, 什么是 Logit 变换呢?通常的把出现某种结果的概率与不出现的概率之比称为比值(odds ,国内也译为优势、比数) ,即1 Odds ????,取其对数 ln( ) ln 1 Odds ???? ??。这就是 logit 变换。下面来看一下该变换是如何解决上述两个问题的,首先是因变量取值区间的变化,概率是以 为对称点,分布在 0~1 的范围内的,而相应的 logit(P) 的大小为: 0?? logit( ) ln(0/