文档介绍:计算机学习与支持向量机方法
*
*
References
Cristianini N and Shawa-Taylor J. An Introduction of Support Vector Machines and oth在高维空间中采用处理线性问题的方法。
映射是非线性的,从而解决样本空间中的高度非线性问题。
*
*
φ(x1,x2)= (x12,x1x2, x22)
升维的图示3
*
*
非线性映射的图示
特征空间
样本空间
非线性映射
*
*
非线性划分的例
*
*
非线性多类划分
*
*
分区问题的例
*
*
学习数据
*
*
双蛇问题的例
*
*
SVM的本质优点
。对于应用中的有限样本难以取得理想的效果。SVM是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度的定义及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理” ,大大简化了通常的分类和回归等问题。
*
*
2. SVM的最终决策函数只由少数的支持向 量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。如果说神经网络方法是对样本的所有因子加权的话,SVM方法是对只占样本集少数的支持向量样本“加权”。当预报因子与预报对象间蕴涵的复杂非线性关系尚不清楚时,基于关键样本的方法可能优于基于因子的“加权”。
*
*
3. 少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性(鲁棒是Rubostness的音译,也有义译成稳健性、健壮性等)
4. SVM是一种处理非线性分类和非线性回归的有效方法。 SVM通过核函数实现到高维空间的非线性映射,所以适合于解决本质上非线性的问题。
*
*
5. 由于有较为严格的统计学习理论做保证,应用SVM方法建立的模型具有较好的推广能力。SVM方法可以给出所建模型的推广能力的确定的界,这是目前其它任何学习方法所不具备的。
6. 建立任何一个数据模型,人为干预越少越客观。与其他方法相比,建立SVM模型所需要的先验干预较少。
7. 核函数的选取和参数优化仍需解决。
*
*
支持向量机 模式识别
Support Vector Machines for Pattern Recognition
*
*
例:S病确诊问题
诊断就诊人员是否患S病时通常要化验人体内各种元素含量。下面这组数据的前30个是已经确诊为S病病人的化验结果;31-60是已经确定为健康人的结果;后30个数据是还没有确诊的化验结果。
(1) 能否根据这些数据特征,确定哪些指标是影响人们患S病的关键或主要因素,以便减少化验的指标;
(2) 请给出一种方法,判断后30名就诊人员是S病病人还是健康人。
*
*
序号
诊断
锌
铜
铁
钙
镁
钾
钠
1
是
323
138
179
513
2
是
106
542
177
184
427
…
是
…
…
…
…
…
…
…
29
是
182
3870
432
143
30
是
235
1806
166
188
31
不是
166
700
112
179
513
32
不是
185
701
125
184
427
…
不是
…
…
…
…
…
…
…
59
不是
622
770
852
60
不是
178
992
112