文档介绍：Logistic回归分析使用说明一、工具产生背景线性回归模型是一种流行的定量分析因变量与自变量之间相关关系的统计分析方法。然而在许多情况下,线性回归都会受到限制。比如,当因变量是分类变量而不是连续变量时,线性回归就不适用了。在许多科学和商业分析中,需要研究的变量都是分类变量而不是连续变量。例如,商业分析中所涉及的是否购买某商品,这种选择度量只有两类,即“是”与“否”。在调查研究中,态度与偏好等情感指标也是按几个类型进行测量的,如“强烈反对”,“反对”,“中立”,“支持”,“强烈支持”。甚至有时候人们更愿意将连续变量转换为分类变量。例如,在分析学生升学考试成绩的影响因素时,虽然考试分数是连续的,但是往往只需要被分为两类即可:录取线以上和录取线以下。只要选定一个分界点,连续变量就可以被转换为二分变量。在定量分析分类变量时,常用的一种统计方法是对数线性模型,本文介绍对数线性模型的特殊形式——Logistic回归分析模型。二、功能按钮说明软件打开后界面如下:接下来具体介绍功能的使用:选择因变量数据集选择回归分析的因变量,数据格式需满足以下要求:首行为字段,且只能有一个字段字段为分类变量(比如0-1变量)字段为数值型选择自变量数据集选择回归分析的自变量,数据格式需满足以下要求:首行为字段字段为数值型优化算法优化算法决定了我们对逻辑回归损失函数的优化方法。工具提供了以下五个可选参数:liblinear:默认参数。适合少量的数据。其内部使用了坐标轴下降法来迭代优化损失函数。lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的情况。saga:线性收敛的随机优化算法的的变种。分类方式分类方式选择参数默认为“自动(auto)”。工具提供了以下三个可选参数:自动(auto)根据数据集自动判断ovr和mvm哪一种方法更合适。二元回归(ovr)ovr(onevsrest)的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型以此类推。多元回归(mvm)mvm(multivsmulti)相对复杂。这里举mvm的特例one-vs-one(ovo)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。可以看出ovr相对简单,但分类效果相对略差(这里指大多数样本分布情况,某些样本分布下ovr可能更好)。而mvm分类相对精确,但是分类速度没有ovr快。如果选择了ovr,则4种损失函数的优化方法liblinear,newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg,lbfgs和sag了。因变量权重因变量权重用来标识各类型