文档介绍:龙星计划机器学
作者:tornadomeet
、,一 、•
前言
最近几周花了点时间学习了
Kernel 可以简单理解为表示 2 个值相似度的测量。通过核函数可以更好的了解 regularization。所需优化的目标函数可以写成参数形式,参数形式的对偶形式和非参数形式 这3种。如果在非参数形式中,其规则项是由所学习到的函数f(x)来控制的,它的模与对应 核函数进行特征函数分解时的特征值系数成反比。即特征函数分解中非主成分的函数对应的 特征系数小,得到的惩罚就大,就会更加被抑制。因此我们保留的主要是主成分的那些特征 函数。从上面可以看出,核函数是有一定的结构的,该结构决定了最终的目标函数(x)长得 什么样。
逻辑回归和svm的区别只是loss函数的不同,logstic回归的loss函数为logstic函数, 核svm的loss函数为hinge loss。两者有着相同的性能,逻辑回归是带概率的输出,更容易 用于多分类问题。不过目前,这2种方法都是旧方法了。
LVQ中文名为学习矢量化,它是一个基于模型的有监督学习分类器。
因此我们在设计一个模型时,需要考虑采用什么样的 loss 函数?采用什么样的基函数 h(x)? h(x)是有限维的还是无限维的?是否需要学习h(x)?用什么样的方法来优化目标函数, QP, LBFGS,还是梯度下降等?
理论上使用kernel理论可以实现用有限的计算完成无限空间的学习问题,但是在实际问 题中,由于其复杂度是样本个数N的3次方,所以当样本数据很多时,基本上是无法实现 的。
参数模型和非参数模型的区别不是看模型中是否有参数,所有的模型都是有参数的,非 参数模型是指随着样本数的增加,其模型中的参数的个数也跟着增加。反之就为参数模型了。 常见的非参数模型有高斯过程,核svm,dirichlet过程等。
第 6 课 模型选择
模型选择在实际应用过程中非常有用,一般把与模型有关的数据分为3 部分,训练数据 验证数据和测试数据,如下图所示:
其中训练数据和验证数据都是已有的样本数据,即已观察到了的数据。测试数据是未来 实际应用中产生的数据,是事先不知道的。
模型的参数分为2 部分,第一部分是模型确定后通过训练样本学习得到的参数。另一部 分是手动输入的参数,也叫做超参数,是用来控制模型的复杂度的,也就是来控制模型本身 长什么样的,它是由验证数据来调节的。
模型选择问题就是说怎样验证一个模型是否好。模型的好坏最终是要看它在测试数据集 上的表现。因此在未观测到测试数据时,我们只能用验证数据集来代替它进行测试。一般采 用的方法为交叉验证,比如说LOOCV,即留一法交叉验证,类似的还有k折交叉验证。交 叉验证的主要目的是防止训练出来的模型过拟合。但是在当今由于数据都是海量的,交叉验 证方法使用越来越少了,因为如果训练数据集非常大的话,一般不会产生过拟合现象。
还有一些方法是不需要通过验证而直接来评价模型好坏的,比如是AIC,BIC,MDL,
SRM 等。
第7 课 模型平均
本文中讲的model是指的一个learning algorithm,甚至比learning al