文档介绍:Fused Lasso模型的特征选择
摘 要:该文考虑了一类FusedLasso问题的特征选择方法。与之前的方法不同,该文利用变分不等式为对偶问题提供充要条件,构造了特征选择方法。通过给出优化问题的对偶问题,进而导出对偶问题变分不等式形式下的必要条件。构造一个包含对偶最优解的对偶可行域,并在这个可行域上估计对偶约束上界,建立筛选规那么,识别出具有相同系数的相邻特征,进而实现特征剔除。
关键词:特征选择 变分不等式 筛选规那么 对偶问题
中图分类号:             文献标识码:A          文章编号:1672-3791〔2021〕12〔b〕-0032-03
Abstract:,thispaperusesvariationalinequalitytoprovidesufficientandnecessaryconditionsforthedualproblem,,,,toidentifyadjacentfeatureswiththesamecoefficient,andachievefeatureremoval.
KeyWords:FeatureSelection;VariationalInequality;ScreeningRules;Dualproblem.
传统的线性回归,作为一种根本的数据分析技术被广泛的应用。但对于高维数据的处理上仍面临着巨大的困难,如何挖掘出有用的信息变得尤为重要,因而促使了新的变量选择方法的产生。1996年Tibshirani【1】提出了一种基于正那么〔罚〕的Lasso模型,模型如下:
其中,p表示模型系数。稀疏学****是一门有效分析高维数据的技术,被广泛地应用到各个领域,并且这类模型的系数只含有少量的非零项。通过惩罚模型系数的绝对值函数,将模型系数进行压缩,可以把权重很小的特征系数压缩为零,进而剔除其所对应的特征。
很多学者也对Lasso模型进行了改进,2021年针对相邻特征间有很强相关性的高维数据,Tibshirani和Saunders【2】提出了FusedLasso估计。模型如下:
该模型不仅将较小系数压缩为零,也可以将局部系数差分压缩为零。不仅实现了系数差分的稀疏性,同时也使得相邻系数之间更加平滑。关于该模型的一些筛选方法也应运而生[3-6]。
1 筛选规那么的建立
该文主要研究的是如下优化问题:
在給