1 / 13
文档名称:

四大机器学习降维算法:PCA、LDA、LLE、Laplacian-Eigenmaps.docx

格式:docx   大小:413KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

四大机器学习降维算法:PCA、LDA、LLE、Laplacian-Eigenmaps.docx

上传人:读书百遍 2020/3/6 文件大小:413 KB

下载得到文件列表

四大机器学习降维算法:PCA、LDA、LLE、Laplacian-Eigenmaps.docx

文档介绍

文档介绍:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数f:x->y,其中x是原始数据点的表示,当前最多使用向量表示形式。y是数据点映射后的低维向量表示,一般y的维度小于x的维度(当然提高维度也是能够的)。f可能是显式的或隐式的、线性的或非线性的。当前大部分降维算法处理向量表示的数据,也有一些降维算法处理高阶张量表示的数据。之因此使用降维后的数据表示是因为在原始的高维空间中,包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差,降低了准确率;而经过降维,我们希望减少冗余信息所造成的误差,提高识别(或其它应用)的精度。又或者希望经过降维算法来寻找数据内部的本质结构特征。在很多算法中,降维算法成为了数据预处理的一部分,如PCA。事实上,有一些算法如果没有降维预处理,其实是很难得到很好的效果的。主成分分析算法(PCA)ponentAnalysis(PCA)是最常见的线性降维方法,它的目标是经过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。通俗的理解,如果把所有的点都映射到一起,那么几乎所有的信息(如点和点之间的距离关系)都丢失了,而如果映射后方差尽可能的大,那么数据点则会分散开来,以此来保留更多的信息。能够证明,PCA是丢失原始数据信息最少的一种线性降维方式。(实际上就是最接近原始数据,可是PCA并不试图去探索数据内在结构)设n维向量w为目标子空间的一个坐标轴方向(称为映射向量),最大化数据映射后的方差,有:其中m是数据实例的个数,xi是数据实例i的向量表示,x拔是所有数据实例的平均向量。定义W为包含所有映射向量为列向量的矩阵,经过线性代数变换,能够得到如下优化目标函数:其中tr表示矩阵的迹,A是数据协方差矩阵。容易得到最优的W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基而且最好地保留了数据中的信息。PCA的输出就是Y=W‘X,由X的原始维度降低到了k维。PCA追求的是在降维之后能够最大化保持数据的内在信息,并经过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。可是这样投影以后对数据的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题,这导致使用PCA在很多情况下的分类效果并不好。具体能够看下图所示,若使用PCA将数据点投影至一维空间上时,PCA会选择2轴,这使得原本很容易区分的两簇点被揉杂在一起变得无法区分;而这时若选择1轴将会得到很好的区分结果。DiscriminantAnalysis所追求的目标与PCA不同,不是希望保持数据最多的信息,而是希望数据在降维后能够很容易地被区分开来。后面会介绍LDA的方法,是另一种常见的线性降维方法。另外一些非线性的降维方法利用数据点的局部性质,也能够做到比较好地区分结果,例如LLE,LaplacianEigenmap等。以后会介绍。LDALinearDiscriminantAnalysis(也有叫做FisherLinearDiscriminant)是一种有监督的(supervised)线性降维算法。与PCA保持数据信息不同,LDA是为了使得降维后的数据点尽可能地容易被区分!假设原始数据表示为X,(m*n矩阵,m是维度,n是sample的数量)既然是线性的,那么就是希望找到映射向量a,使得a‘X后的数据点能够保持以下两种性质:1、同类的数据点尽可能的接近(withinclass)2、不同类的数据点尽可能的分开(betweenclass)因此呢还是上次PCA用的这张图,如果图中两堆点是两类的话,那么我们就希望她们能够投影到轴1去(PCA结果为轴2),这样在一维空间中也是很容易区分的。接下来是推导,因为这里写公式很不方便,我就引用DengCai老师的一个ppt中的一小段图片了:思路还是非常清楚的,目标函数就是最后一行J(a),μ(一飘)就是映射后的中心用来评估类间距,s(一瓢)就是映射后的点与中心的距离之和用来评估类内距。J(a)正好就是从上述两个性质演化出来的。因此两类情况下:加上a’a=1的条件(类似于PCA)能够拓展成多类:以上公式推导能够具体参考patternclassification书中的相应章节,讲fisherdiscirminant的OK,计算映射向量a就是求最大特征向量,也能够是前几个最大特征向量组成矩阵A=[a1,a2,….ak]之后,就能够对新来的点进行降维了:y=A’X(线性的一个好处就是计算方便!)能够发现,LDA最后也是转化成为一个求矩阵特征向量的问题,和PCA很像,事实上很多其它的算法也是归结于这一类,一般称之为谱

最近更新

2025版车辆租赁行业市场推广合同 17页

2025版车辆质押担保质押物处置合同 18页

2025版车间生产设备租赁与维护承包合同 18页

昆明房屋租赁合同(29篇) 126页

2025版道路标线施工合同竣工验收合同范本 17页

春节走访慰问信息(3篇) 6页

2025版采矿权转让与矿产资源综合利用合同 18页

2025版金融业务保密协议范本,确保金融信息安.. 16页

2025版金融科技采购合同,创新金融服务应用协.. 14页

关爱青春健康 21页

2025版门窗安装工程劳务分包合同范本 16页

有关患者感谢信范文(33篇) 46页

2025版页岩气开采关键井钻井技术服务合同 15页

有关班主任教学总结(通用15篇) 43页

2025版餐厅与旅行社旅游线路联合推广合同 16页

2025版餐厨垃圾处理技术与设备供应与清运服务.. 18页

2025版餐饮企业挂账餐饮原料采购服务合同 14页

2025版餐饮场地租赁合同模板:特色餐饮场地租.. 14页

2025版高标准商业地产开发商与零售商商铺租赁.. 15页

2025版高端装备场购销合同书 15页

语篇分析在学生英语语言能力与思维品质发展中.. 23页

夯基提能练22 染色体变异与育种-高考生物一轮.. 16页

第18讲 细胞的分化-高考生物一轮复习精品讲义.. 8页

五岁以下儿童死亡监测 38页

高新技术企业知识产权保护管理制度 14页

初中英语2025届中考核心高频词(词义+音标+考.. 17页

一元一次不等式及一元一次不等式组复习课公开.. 22页

天津市建设工程计价办法 22页

高中英语 名词性从句专项练习 新人教版必修 5页

郭德纲、于谦 学电台 台词 13页