文档介绍:: .
机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的内距。J(a)正好就是从上述两个性质演化出来的。
因此两类情况下:加上a'a=伯勺条件(类似丁PCA)TwoClassesJW=:丁;二可以拓展成多类:
Multi-classes/(a)=—aTSwaSw=,$=»2a一所)(工一位)「
i=l
cSBa=ASwa
以上公式推导可以具体参考patternclassification书中的相应章节,讲fisherdiscirminant的OK,计算映射向量a就是求最大特征向量,也可以是前几个最大特征向量组成矩阵A=[a1,a2,….ak]之后,就可以对新来的点进行降维了:y=A')(线性的一个好处就是计算方便!)可以发现,LDA最后也是转化成为一个求矩阵特征向量的问题,和PCA很像,事实上很多其他的算法也是归结丁这一类,一般称之为谱(spectral)方法。
线性降维算法我想最重要的就是PCA和LDA了,后面还会介绍一些非线性的方法。
局部线性嵌入(LLE)Locallylinearembedding(LLE)是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。
见图1,使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据仍能保持原有的数据流形(红色的点互相接近,蓝色的也互相接近),说明LLE有效地保持了数据原有的流行结构。
但是LLE在有些情况下也并不适用,如果数据分布在整个封闭的球面上,LLE则不能将它映射到二维空间,且不能保持原有的数据流形。那么我们在处理数据中,首先假设数据不是分布在闭合的球面或者椭球面上。
图1LLE降维算法使用实例LLE算法认为每一个数据点都可以由其近邻点的线性加权组合构造得到。算法的主要步骤分为三步:(1)寻找每个样本点的k个近邻点;(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。具体的算法流程如图2所示:
L(;;thntbestlecoiKhuctenchdatapointXffromitsiieigt]-(1)bycunstraiiiedliltwu,m牝3+CamputethevectorsKbfstrecQii'striKtedbvitiie.
weighrsI匕..miniiniziiigtheqimdiatkfouninEquation(2)byitsbottomnonzeioeigeine^tQi5.
图2LLE算法步骤
步恭1=
算法的第一步是计察出每个样本点的k个近邻州例如果用KNN的策略,把相对于所求样本百距离G常用欧氏蹈离).
^*2=