1 / 24
文档名称:

通过LASSO回归压缩和选择.doc

格式:doc   大小:1,533KB   页数:24页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

通过LASSO回归压缩和选择.doc

上传人:读书百遍 2022/8/13 文件大小:1.50 MB

下载得到文件列表

通过LASSO回归压缩和选择.doc

文档介绍

文档介绍:通过LASSO回归压缩和选择
Robert·Tibshirani
加拿大多伦多大学
【1994年1月收到,1995年1月修订】
【摘要】
本文提出一种线性模型估计的新措施。LASSO最小化残差平方和使得系数绝对值之和不不小于一种常回归用一种常数因子衡量系数,然而LASSO通过常数因子转换,截断为0。函数与LASSO十分相近,都是系数愈大收缩愈小。我们的仿真程序显示,当设计不是正交时,与LASSO差别也许会很大。

从图1中很明显的看出为什么LASSO产生的系数常常是0。为什么这种状况会出目前一般(非正交)的设立中?并且为什么这种现象在岭回归中没有浮现,其中岭回归使用的约束条件是而不是?图2提供了当时的试图。
原则与加上一种常数相等。由图2(a),函数的椭圆轮廓由全曲线显示出来;它们集中于OLS估计周边;约束区域是个旋转的正方形。LASSO解决方案是一方面轮廓触摸了广场,并且有时这也会发生在一种角落,该角落相应于系数为0的地方。图2(b)显示了岭回归的图像,没有有角的轮廓,因此很少有零解。
这个图片中浮现了一种有趣的问题:LASSO估计的符号可以与最小二乘估计不同吗?由于变量是原则化的,当时,重要的轮廓线轴线与坐标轴成,并且我们可以表白,轮廓必需与涉及的正方形在同一种象限中。然而,当时,在数据上至少是中度有关,这不必是真的。图3在三维空间中进行举例。图3(b)中的视图证明:椭圆与约束区域在第八象限的接触与它中心所在的象限不同。
图1. (a)子集选择,(b)岭回归,(c)LASSO和(d)garotte:—,正交设计状况下,系数压缩的形式;·········倾斜角为45°的线作为参照
图2. (a)是LASSO的预估图像,(b)是岭回归的预估图像
图3. (a)不同于总体最小二乘估计LASSO估计落在第八区的例子;(b)俯视图
然而,保存了每个的符号,LASSO可以变化符号。甚至在LASSO估计与有相似符号的矢量的状况下,中OLS估计得存在也会使成果不同。带有约束条件的模型可以表达到约束条件是,模型为。举例,如果且,效果将会横向拉伸图2(a)的正方形。成果,青睐于较大的和较小的。

假设,并且不失一般性,最小二乘估计都是正的。那么我们可以展示LASSO估计是
图4. 对于两个预测值的例子,实线表达LASSO,虚线表达岭回归:曲线阐明,作为LASSO或者岭回归参数的数据对是变化的;从底部的虚线开始并向上移动,有关系数
是0,,,
(5)
其中选定使得。这个公式合用于时,并且及时预测值是有关的这个公式也是有效的。解得出
(6)
相反,岭回归收缩的形式取决于预测值的有关性。图4给出了一种例子。在没有干扰的状况下,我们从模型中产生100个数据点。这里和是原则正常变量,两者的有关系数为。图4的曲线表白岭回归和LASSO估计得边界和是变化的。对的所有值,LASSO估计均遵循全曲线。岭回归估计(间断的曲线)取决于。当时,岭回归成比例收缩。然而,对于更大的值岭估计收缩变得不同并且边界减少是甚至可以增长一点。杰罗姆·弗里德曼指出,这是由于岭回归试图使系数等于她们最小平方范数的趋势。

由于LASSO估计是响应值的一种非线性、非可微函数,虽然相应固定的,因此很难得到原则误差的一种精确估计。一种措施是通过自助法;要么可以固定,要么为每个样本对进行优化。固定类似于选择一种最佳子集,然后对每个子集使用最小二乘原则误差。
一种近似封闭的形式估计也许通过把惩罚写成得到。因此,对于LASSO估计,我们可以通过形式的岭回归近似解决,其中是一种对角矩阵,对角元素为,是的广义逆矩阵并且的选定使得成立。估计的协方差矩阵可以用如下近似
(7)
其中是误差方差的一种估计值。这个公式的一种困难在于对的预测值给出了0的一种估计方差。
这种近似也表白了计算LASSO估计自身的一种迭代岭回归的算法,但这是很低效的。然而,它对LASSO参数(第4节)的选择很有用。
—前列腺癌数据
前列腺数据来自于斯塔米等人(1989)的一项研究,检查接受根治性前列腺切除术的人前列腺特异性抗原水平与临床措施的有关性。因素有:日记(癌症卷)(lcaval)、日记(前列腺重量)(lweight)、年龄、日记(良性前列腺增生)(lbph)、精囊入侵(svi)、日记(荚膜渗入)(lcp)、格里森评分(gleason)和比例格里森评分4或5(pgg45)。在第一种原