文档名称：

通过LASSO回归压缩和选择模板.doc

格式：doc 大小：1,532KB 页数：24页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

通过LASSO回归压缩和选择模板.doc

上传人:读书百遍 2021/1/9 文件大小：1.50 MB

下载得到文件列表

通过LASSO回归压缩和选择模板.doc

相关文档

文档介绍

文档介绍：经过LASSO回归压缩和选择
Robert·Tibshirani
加拿大多伦多大学
【1994年1月收到, 1995年1月修订】
【摘要】
本文提出一个线性模型估量新方法。 LASSO最小化残差平方和使得系数绝对值之和小于一个常数。因为此约束性质倾向于产生部分为0系数, 从而给出了解释模型。我们仿真研究表明, LASSO含有部分子集选择和岭回归有利特征。它产生了比如子集选择解释模型并展示了岭回归稳定性。在最近工作中相关多诺霍和约翰斯通自适应函数估量也有部分有趣关系。 LASSO思想是相当广泛并可用于多种统计模型: 本文简明介绍了广义回归模型和基于树模型扩展。
关键词: 二次计划; 回归; 压缩; 子集选择

考虑通常回归情况: 已知数据其中和分别是观察数据第个回归因子和响应量。经过最小化残差平方误差得到一般最小二乘法(OLS)估量。数据分析师常常不满意OLS估量值有两个原因。第一是估计精度: OLS估量常常是低偏压高方差; 估计精度有时能够经过压缩或设置部分系数为0进行改善。经过这么, 牺牲部分偏压, 降低估计值方差, 从而提升能够总体估计精度。第二个原因是解释。拥有大量常常想要决定更小子集估计值, 我们表现出强烈影响。
改善OLS估量子集选择和岭回归这两种标准标准技术全部有缺点。子集选择提供可解释模型, 不过因为它是一个从模型中保留或删除离散过程变量, 它可能极其易变。数据一点更改可能造成选中很不一样模型,这么能够降低其估计精度。岭回归是一个系数收缩连续过程, 而且所以愈加稳定: 然而, 它任何系数全部不为0, 所以没有给出一个轻易解释模型。
我们提出一个新技术, LASSO即最小绝对收缩和选择算子。它将部分系数收缩, 其它系数设置为0, 从而试图保持子集选择和岭回归良好特征。
第2节给出LASSO定义, 看部分特殊情况。第3节给出真实数据示例, 而在第4节我们讨论估计误差和LASSO收缩参数估量方法。第5节简明介绍LASSO贝叶斯模型。第6节描述LASSO算法。第7节描述仿真研究。第8、 9节讨论广义回归模型扩展和其它问题。部分相关soft thresholding和和LASSO关系结果在第10节中进行了讨论, 第11节包含部分讨论和总结。

假设已知数据其中是估计变量, 是响应变量。在通常回归设置中, 我们假设观察值独立或对给定, 是条件独立。假设是标准化, 那么
,。
令,LASSO估量定义以下:
(1)
其中, 调优参数。现在对于全部, 处理方案是。我们能够假设不是通常性, 所以省略。
方程(1)处理方案计算是含有线性不等式约束二次计划问题。在第6节, 针对这个问题, 我们描述了部分高效、稳定算法。
参数控制了应用于估量收缩量。令为完全最小二乘估量, 。将造成方案收缩趋向于0, 而且部分系数可能刚好等于0。比如, 假如, 效果会大致类似于寻求大小为最优特征子集。还要注意, 设置矩阵不一定需要满秩。在第4节, 我们给出基于数据估量
方法。
LASSO动机来自于布赖曼(1993)一个提议。布赖曼非负最小化。
(2)
始于一般最小二乘估量, 经过总和被限制非负原因进行收缩。在广泛仿真研究中, 布赖曼显示, 除非真正模型中有很多小非零系数, 含有保持比子集选择更低估计误差且和岭回归含有竞争力。
一个缺点是它处理方案取决于标志和OLS估量量。在OLS表现不佳过拟合或高度相关设置中, 可能会深受其害。相比之下, LASSO避免显示使用OLS估量。
弗兰克和弗里德曼(1993)提出了使用绑定参数范数, 是一个大于等于0数; LASSO方法中。在第10节中简明讨论了这个问题。

深入了解收缩性质能够从正交设计案例中进行搜集。令为既定矩阵, 元素为, 假定,为单位矩阵。
方程(1)解很轻易证实是
(3)
其中, 由决定。有趣是, 这和多诺霍和约翰斯通(1994)和多诺霍等人(1995)提出软收缩提议含有相同形式, 应用于小波系数函数估量。软收缩和最低范数处罚关系也由多诺霍等人(1992)在非负参数信号和图像恢复中指出。我们将在第10节进行具体解释说明。
在正交设计情况下, 大小为最好子集选择降低到最大系数绝对值, 将其它设置为0。正确部分选择相当于假如, 设置; 不然设置为0。岭回归使得下面式子最小
或等价地, 使得以下最小