文档介绍：在线学****算法的一致性分析
摘要:对统计学****理论的研究背景和发展历史进行介绍,总结前人有关基于核的正则化学****算法的研究动态以及已取得的成果。给出正则化在线学****算法的定义,针对不同的抽样背景得出研究正则化在线学****算法的一致性及误差界的方法。
关键词:统计学****理论正则化样本误差逼近误差
中图分类号: 文献标识码:A 文章编号:1007-3973(2013)001-111-02
1统计学****理论的发展历史及数学基础
统计学****理论是机器学****的一个重要分支,它为人们系统地研究小样本情况下机器学****问题提供有力的理论基础。它的统计推理规则不仅考虑了对渐近性能的要求,而且希望在现有有限信息的条件下得到最优结果。
统计学****理论的基本内容诞生于20世纪六、七十年代,到90年代中期发展到比较成熟。从六、七十年代开始,Vapnik等人致力于此方面研究,90年代中期,Vapnik等又提出了用于模式识别的支持向量机(SVM)见参考文献[1]、[2],还产生了经验风险最小化原则(Empirical Risk Minimizing,ERM)的理论,解决不适定问题(ill-posed problem)的理论,算法复杂度的思想等,此时统计学****理论获得了最大的发展。
机器核学****的假设空间一般采用再生核Hilbert空间。T Evgeniou,M Pontil和T Poggio说明了调控网络建构和支持向量机是解决学****问题的技巧,特别是由稀疏数据逼近多维函数的回归问题。
一般情况下对最小二乘正则化学****算法的一致性进行研究,一致性就是比较接近的程度。其主要思想就是将误差划分为逼近误差和样本误差。逼近误差主要依赖于假设空间的选择,与样本无关,一般用逼近理论解决;样本误差的估计却是一致性分析的主要工作,常常涉及覆盖数,Markov链,样本间的相关性处理等,这里主要研究正则化在线学****算法。
2正则化在线学****算法的一致性分析

正则化在线学****算法,又是一种递归算法。再生核Hilbert空间的在线学****算法为=-((()-)+),满足:(1)对每一(,)的选取是一致独立同分布,且依赖于;(2)正则化参数≥0;(3)步长>0。
可以看出在线学****算法的是取值于再生核Hilbert空间上的随机变量且依赖于(),即∈{,:1≤≤},上面的集合为再生核Hilbert空间的一个有限维子空间。
完全在线学****算法
对于完全在线学****算法,它是基于Tikhonov正则化机制,以凸损失函数和再生核Hilbert空间为背景,关键是在每一步学****中,正则化参数改变,而以往的半在线算法的正则化参数是固定的,将由正则化参数的变化引起的误差称为漂移误差,同时利用在误差估计分析中损失函数的凸性是来证明算法的一致性。
最小二乘在线梯度下降算法
对于再生核Hilbert空间中的最小二乘在线梯度下降算法,其无正则化项,即=0。我们主要利用经典的容量无关方法导出误差界和收敛结果,虽然没有确定的再生核Hilbert空间正则项,但是通过选择合适的步长,也能够得到较好的误差收敛速度。利用和的性质估计‖-‖=()-(),选取两种不同形式的步长,一种是普通的多项式衰退系列形式{ =(),∈}, ∈(0,1),第二种为{ = :∈}, = ()依赖