文档介绍：第1页通过 LASSO 回归压缩和选择 Robert · Tibshirani 加拿大多伦多大学【 1994 年1月收到, 1995 年1月修订】【摘要】本文提出一个线性模型估计的新方法。 LASSO 最小化残差平方和使得系数绝对值之和小于一个常数。由于此约束的性质倾向于产生一些为 0的系数,从而给出了解释模型。我们的仿真研究表明, LASSO 具有一些子集选择和岭回归的有利特性。它产生了例如子集选择的解释模型并展示了岭回归的稳定性。在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。 LASSO 思想是相当广泛的并可用于各种统计模型:本文简要介绍了广义的回归模型和基于树的模型的扩展。关键词: 二次规划;回归;压缩;子集选择 :已知数据( , ), 1, 2,..., , ii X y i N ?其中 1 ( ,..., ) i T i ip X x x ?和 iy 分别是观察数据的第 i 个回归因子和响应量。通过最小化残差平方的误差得到普通最小二乘法(OLS) 估计。数据分析师经常不满意 OLS 估计值有两个原因。第一是预测精度: OLS 估计经常是低偏压高方差; 预测精度有时可以通过压缩或设置一些系数为 0进行改善。通过这样,牺牲一些偏压,减少预测值的方差,从而提高可以总体的预测精度。第二个原因是解释。拥有大量的经常想要决定更小子集的预测值,我们表现出强烈的影响。改进 OLS 估计的子集选择和岭回归这两种标准标准技术都有缺点。子集选择提供可解释模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变。数据的一点更改可能导致选中非常不同的模型, 这样可以减少其预测精度。岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为 0,因此没有给出一个容易解释的模型。我们提出一个新技术, LASSO 即最小绝对收缩和选择算子。它将一些系数收缩,其他的系数设置为 0,从而试图保持子集选择和岭回归的良好特征。第2页第2节给出 LASSO 的定义,看一些特殊情况。第 3 节给出真实数据示例,而在第4 节我们讨论预测误差与 LASS O 收缩参数估计的方法。第5节简要介绍 LASS O 的贝叶斯模型。第 6节描述 LASSO 算法。第 7 节描述仿真研究。第 8、9节讨论广义回归模型的扩展和其他问题。一些关于 soft thresholding 和与 LASSO 的关系的结果在第 10节中进行了讨论,第 11节包括一些讨论和总结。方法定义假设已知数据, ), 1, 2,..., , ii X y i N ?( 其中 1 ( ,..., ) i T i ip X x x ?是预测变量, iy 是响应变量。在一般的回归设置中,我们假设观测值独立或者对给定的 ij x s , i y s 是条件独立的。假设 ijx 是标准化的,那么 0 ijixN ??, 21 ijixN ??。令 1???( ,..., ) Tp ? ???,LASSO 估计??( , ) ??的定义如下: 21??( , ) argmin ( ) . . N i j ij i j jj y x s t t ?? ????? ?? ?? ?? ??? ??(1) 其中,调优参数 0t?。现在对于所有 t ,?的解决方案是?y??。我们可以假设不是一般性 0y?,因此省略?。方程(1) 的解决方案的计算是具有线性不等式约束的二次规划问题。在第 6 节,针对这个问题,我们描述了一些高效、稳定的算法。参数 0t?控制了应用于估计的收缩量。令? oj?为完全最小二乘估计, 0? ojt???。 0 t t ?将导致方案的收缩趋向于 0 ,并且一些系数可能刚好等于 0。例如,如果 02 t t ?,效果会大致类似于寻找大小为 2p 的最优特征子集。还要注意,设置的矩阵不一定需要满秩。在第 4 节,我们给出基于数据的估计 t 的方法。 LASS O的动机来自于布赖曼(1993) 的一个提议。布赖曼的非负 garotte 最小化。 21?( ) . . 0, . N