1 / 9
文档名称:

lasso.doc

格式:doc   大小:548KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

lasso.doc

上传人:63229029 2017/1/3 文件大小:548 KB

下载得到文件列表

lasso.doc

文档介绍

文档介绍:1 回归收缩以及通过 LASSO 选择变量 ROBERT TIBSHIRANI 加拿大多伦多大学( 接收。 修订) 摘要在线性模型预测中, 我们再次提出一个新的方法—— LASSO ,其最小残差平方和服从系数的绝对值的总和小于一个常数。由于这个特性,这种方法倾向于减少一些精确为 0 的系数而因此给出可解释的模型。我们的模拟研究显示 LASS O 在岭回归的子集选择中有一些有利的方面,其提出的可解释的模型就像子集的选择而且显示出了岭回归的稳定性。 LASSO 也与 Donoho 和 Johnstone 提出的自适函数估计有着令人感兴趣的关系。这种方法可以相当普遍的应用于很多数据模型中,例如:扩展广义回归模型和基于树的模型可以简略的描述。关键字: 二次规划,回归,收缩,子集选择法 2 1. 介绍考 虑到一般的回归情况: 我们有数据),( i iyx ,i=1,2,3........N, T ipi ixxx),..., ( 1?和 iy 分别是第i组观测值的自变量和因变量。原始的最小二乘估计是通过最小残差平方和获得的,所以有两个原因使得数据的分析往往和最小二乘估计不符。第一,就是剩余方差最小化。最小二乘估计通常斜率较小,方差较大,预测精度有时可以通过收缩或将某些系数设为 0 而提高。通过这样做,我们通过牺牲一点斜率来减少预测结果的方差。第二,就是模型的解释。对于大量的预测值,我们更愿意判断模型在一个更小的子集当中显示出来的最好的结果。为了提高最小二乘估计的两个技术标准, 子集选择法和岭回归都有缺陷。子集选择法可以得出一个可以解释的模型,但是给出的模型过于多变,而回归过程本身是离散的——因变量既不能被保留,也不能从模型中剔除。数据中的小变动会影响由子集选择法得出的不同模型而且还会降低模型的预测精度。岭回归是一个连续的过程,由于其不断收缩系数,因此较平稳。然而,他并没有将任何系数收缩为 0,因而这个方法不能给出一个简单的可解释的模型。在此,我们提出一个新的方法,成为 LASSO ,就是“绝对收缩和选择算子”。它使一些系数收缩并将其他的设为 0,因此就是说它尝试保留了子集选择法和岭回归的好的性质。在第二部分,我们会解释 LASSO 这个方法并且寻找一些特例。一个真实的数据例子将在第三部分给出,在第四部分我们将讨论这种方法的预测误差和 LASS O 的收缩系数。在第五部分,一个 LASSO 的贝叶斯( Bayes )模型将被被简略的提到。在第六部分我们将描述 LASSO 的运算法则,模拟实验将在第七部分加以描述。第八和第九部分讨论了推展扩广的回归模型的其他问题。一些软阙值的结论以及其和 LASSO 之间的关系将在第十部分讨论,第十一部风包含了文章的总结和一些结论。 2. LSAAO 3 定义假设我们有数据 Niyx i i,... 2,1 ),,(?, T ipi ixxx),..., ( 1?是自变量, iy 是因变量。在一般回归建立过程中,我们假定要么观测值独立或者 iy 关于给出的 ijx 独立。我们假设 ijx 是标准化的,即 1/,0/ 2????NxNx iji iji。令 Tp),..., ( 1 ???????,用 LASSO 预测的),( ????结果为???????? Nij ijjixy 1 2})( m