文档介绍:本科生学年论文题目:从理论到应用——浅谈lasso模型指导教师:学院:姓名:学号:班级:从理论到应用——浅谈lasso模型【摘要】回归模型是我们在处理数据中常用的方法。其中,Lasso模型是一种适用于多重共线性问题,能够在参数估计的同时实现变量的选择的回归方法。本文从lasso模型的概念谈起,对其起源、思想、与岭回归的比较、通过lar的算法实现等方面进行了探究。另外还使用R语言对简单案例进行lasso模型的应用。最后简述了lasso模型的研究现状。【abstract】,,includingitsorigin,ideas,parisonofridgeregression,throughlaralgorithmimplementation,,,theresearchstatusoflassomodelisintroduced.【关键词】Lasso 岭回归 最小角回归 R语言【keywords】Lasso ridgeregression lar Rlanguage目录一、定义及基本信息 4二、起源与原理 4三、模型的思想 4四、Lasso与岭回归 51、岭回归的概念 52、Lasso与岭回归的比较 5五、Lasso的算法步骤 61、lasso算法实现的背景 62、最小角回归 73、用lar实现lasso 7六、案例分析 81、问题描述 82、简单线性回归求解 93、利用lasso求解 11七、应用与研究现状 12八、参考资料 13定义及基本信息Lasso模型是由RobertTibshirani在1996年JRSSB上的一篇文章Regressionshrinkageandselectionviathelasso所提出的一种能够实现指标集合精简的估计方法。在参数估计的同时实现变量的选择(可以解决回归分析中的多重共线性问题)。全称:LeastAbsoluteShrinkageandSelectionOperator读音:[læ‵su:]而不是[‵læso]RobertTibshirani简介:生于1956年7月10日,担任斯坦福大学theDepartmentsofStatisticsandHealthResearchandPolicy的教授。1985-1998年担任多伦多大学的教授。他主要研究方向是致力于开发处理复杂数据的分析统计工具。Lasso模式是他最著名的贡献。同时在著名的"GeneralizedAdditiveModels","AnIntroductiontotheBootstrap",and"TheElementsofStatisticalLearning"三本书中都有他的编著。[1]起源与原理在常规的回归分析中,假设我们有一组(xi,yi),i=1,2,...,N,其中xi=(xi1,...,xip)T,yi是第i维观测值的回归量的数据。普通最小二乘(OLS)通过最小化残差平方和来进行估计。它对数据的分析不那么令人满意通常有两个原因。一是预测精度:OLS往往偏差较低但方差大;预测精度有时可以用缩小或设置一些系数为0的方法来提高。通过这样做,我们牺牲一点偏差减少预测的方差值,因此可以提高整体预测准确性。第二个原因是可解释性的问题。在大量的预测值中,我们通常想确定一个展现出最强影响的更小的子集。两个公认优秀的改善OLS估计的方法是子集选择(subsetselection)和岭回归(ridgeregression)它们都有缺点。子集选择提供了可解释的模型但是可变性非常强,因为它是一个离散的过程——回归量要么保留要么从模型中去掉。小的数据变化就会使得模型的选择改变,这会降低预测准确度。岭回归是连续缩小参数的过程,因此更稳定:然而它不会使得任何参数为0,没办法得出简单的可解释的模型。lasso模型就此提出,Theleastabsoluteshrinkageandselectionoperator,同时缩小(shrinkage)和设置成参数为0(selection),保持了子集选择和岭回归的良好特征。[2]模型的思想lasso是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,