文档介绍:数据挖掘十大算法之
SVM
程广兵
分类
概念:
通过构造一个分类函数或分类器的方法,该方法能把数据库中的数据项映射到给定类别中的某一个,从而可以用于预测未知数据。
数据:
线性可分
线性不可分
什么是SVM
全名:Support Vector Machine(支持向量机)
支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点。
机:一个算法
基于统计学习理论的一种机器学习方法。简单的说,就是将数据单元表示在多维空间中,然后对这个空间做划分的算法。
SVM的特点
SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性之间寻求最佳折衷,以期获得最好的推广能力(或泛化能力)。
核函数
松弛变量
线性分类
1
线性分类
最优标准:分类间隔
对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点(xi,yi)的函数间隔为
对于给定的训练数据集T和超平面(w,b),定义超平面(w,b)关于样本点(xi,yi)的几何间隔为
||w||叫做向量w的范数,WX的p范数为||w||p=(X1^p+X2^p+...+Xn^p)^(1/p)
函数间隔和几何间隔的关系ɤ= ȓ / ||w|| (1)
最优标准:分类间隔
H2与H之间的间隔便是几何间隔。其中H1:wx+b = 1;H2:wx+b = -1;
定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔之最小值,即
同理
最终问题转化成为求最大ɤ值。(ps:我的理
解在找到几何间隔ɤ后,就要使H1和H2尽可能
的离H远,这样分类就更有说服力)
在H1和H2上的点就叫做支持向量
H1和H2之间的距离称为间隔,间隔依赖于法向量w,等于2/||w||,H1和H2称为间隔边界
由等式(1),可将问题写为
求最大的ɤ