1 / 29
文档名称:

大数据十大经典算法SVM 讲解.ppt

格式:ppt   页数:29
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据十大经典算法SVM 讲解.ppt

上传人:164922429 2013/12/12 文件大小:0 KB

下载得到文件列表

大数据十大经典算法SVM 讲解.ppt

文档介绍

文档介绍:数据挖掘十大算法之
SVM
小组成员:
杨凌云、徐小江、刘洁
刘家旺、吕佳艳、伍俊
2013年10月
分类
概念:
通过构造一个分类函数或分类器的方法,该方法能把数据库中的数据项映射到给定类别中的某一个,从而可以用于预测未知数据。
数据:
线性可分
线性不可分
什么是SVM
全名:Support Vector Machine(支持向量机)
支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点。
机:一个算法
基于统计学习理论的一种机器学习方法。简单的说,就是将数据单元表示在多维空间中,然后对这个空间做划分的算法。
SVM的特点
SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性之间寻求最佳折衷,以期获得最好的推广能力(或泛化能力)。

核函数
松弛变量
线性分类
1
线性分类
问题
1. 如何求得最优的g(x)?
2. 最优的标准是什么?
3. g(x)=wx+b中的w和b如何确定?
最优标准:分类间隔
数据表示Di=(xi,yi)
分类间隔即两分类之间的距离——越远越不易混淆
定义δi = (1/||w||)|g(xi)|,称为几何间隔
||w||叫做向量w的范数,WX的p范数为||w||p=(X1^p+X2^p+...+Xn^p)^(1/p)
最优标准:分类间隔
H2与H之间的间隔便是几何间隔。其中H1:<w,x>+b = 1;H2:<w,x>+b = -1;
几何间隔与样本的误分次数间的关系:误分次数<= (2R/δ)^2,其中δ是样本集合到分类面的间隔,R=max || xi ||,i=1,...,n;
所以问题转化成为求最大δ值。