文档介绍:支持向量机简介
统计决策方法
支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习的问题的新工具,它由Vapnik等根据提出的一种新的机器学习方法,它以结构风险最小为原则,它本质上是求解凸二次规划问题,在解决小样本、非线性和高维模式识别问题中有较大优势。
基本原理
问题转化为寻找映射f(x,w):
它是评价预测准确度的一种度量,不同的学习问题有不同形式的损失函数。例
给定样本
其中
损失函数。
基本原理
定义经验风险Remp(w):
如果采用损失函数(1),则min(Remp(w))表示错判率达最小;
如果采用损失函数(2),则min(Remp(w))即是最小二乘法;
如果采用损失函数(3),则min(Remp(w))即是极大似然法;
经验风险最小化存在的问题:
(1)Remp(w)≠R(w),推广能力或泛化能力受影响;
(2)所需样本容量大;
(3)某些情况下,当经验风险过小时,推广能力反而下降;经验风险和期望风险的最小点不一致。…
需要一种在有限的样本条件下建立有效的学习和推广方法的理论,统计学习理论的发展和完善对解决上面的问题,提供了坚实的理论基础与有效的学习方法。
统计学习理论
统计学习理论主要包括VC理论、泛化性的界、结构风险最小化等。
1. VC维的直观定义:对于一个指示函数集,如果存在k个样本能被函数集中的函数按所有可能的2k种形式分开,则称函数集能把k个样本打散;
VC维反映了函数集的一种学习能力。VC维越大则学习机越复杂。
统计学习理论
3. 结构风险最小化原则
基本思想:要使实际风险最小,就需要使得不等式中两项相互平衡,共同趋于极小。统计学习理论中提出了一种新的策略,即把函数集合构造为一个函数子集序列:
各个子集按照VC维的大小排序:
统计学习理论
通过最大化分类边界及最小化VC维,在保证经验风险最小的基础上最小化置信范围,从而达到最小化结构风险的目的。
分类间隔
(1)线性可分情形