1 / 20
文档名称:

基于半监督学习的降维算法研究PPT课件.pptx

格式:pptx   大小:346KB   页数:20页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于半监督学习的降维算法研究PPT课件.pptx

上传人:wz_198613 2021/6/30 文件大小:346 KB

下载得到文件列表

基于半监督学习的降维算法研究PPT课件.pptx

相关文档

文档介绍

文档介绍:选题来源:
国家自然科学基金项目——
基于成对约束的半监督谱流形非线性降维研
究及应用
第1页/共20页
降维的意义:
数据的高维性
维数灾难
计算复杂性
冗余性
可视化
数据的内在结构和规律
第2页/共20页
降维方法分类
线性降维方法:
PCA、ICA、LDA和MDS等
非线性降维方法:
基于核函数的降维方法
流形学习算法
第3页/共20页
基于核函数的降维方法
核方法:核方法的本质实际上就是内积。
目前核方法应用于机器学习的各个领域,包括
数据分类:SVM
数据聚类、回归;
特征降维:KPCA,KLDA,基于核函数的流形学习算法。
核方法实际上是通过非线性映射将样本点映射到高维空间,通过在原空间中使用满足Mercer条件的核函数计算高维空间的内积,从而巧妙地避免了在映射高维空间计算的“维数灾难”问题。对于原空间线性不可分问题,可以在高维映射空间实现线性或近似线性可分。
第4页/共20页
流形学习算法
流形是20世纪最具代表意义的数学概念,是描述许多自然现象的一种空间形式。欧式空间是一种特殊的抽象空间,过去认为数据存在于欧式空间是为了简化研究,而对于复杂的感知数据,没有任何理由假设它们必须处在欧氏空间中—实际上,它们可能处在一种更为普遍的空间结构之上。认知心理学的研究结果表明了人类的认知系统能够有效地发掘非线性结构,这也就推动了诸多学者研究流形的原因之一。“流形学习”这一词的是1995年由Bregler和Omohundro首次提出,流形学习的目的是从高维观测空间中有效的发现潜在的低维流形,从而挖掘高维数据中的本征结构。流形学习现已广泛应用于机器学习,数据挖掘,模式识别等领域。
第5页/共20页
2000年,Josh Tenenbaum等人提出的等度规映射(Isomap)算法;
2000年,(LLE)
2002年, (LE)

这些方法都是将高维数据的局部与全局特征量化成每对样本之间的数量关系,然后试图在低维欧氏空间中寻找嵌入向量集,使得这种样本之间的关系在嵌入向量集中尽可能完整地保持下来。
第6页/共20页
采样于s-curve的三维数据
PCA
KPCA
LLE
第7页/共20页
核方法中存在问题:
核方法对于核函数及其参数敏感——寻找最优核参数
核函数通过非线性映射不会改变数据间的分布状况——
数据相关核(data dependent kernel)
第8页/共20页
监督准则优化数据相关核(Fisher准则)
通过Fisher准则优化核空间的局部缩放系数图
第9页/共20页
流形学习算法存在问题
狭义来讲,流形学习算法都是一种非线性的降维技术,它直接得到高维数据的低维表示,只能局限于训练样本,如果要得到新增测试样本的低维坐标,必须将新增样本点带入原数据集,重新计算所有点的低维表示,也就是说,这些方法不能泛化到测试样本,这一问题导致算法不能适用动态变化的数据集,具有运算量庞大、执行效率低等特点,所以一些线性的流形降维技术相继涌现,假设高维数据和其低维表示之间存在线性变换。LLE → NPE(邻域保持嵌入),LE→ LPP(局部保持映射)
LPP NPE
流形学习算法不依赖任何先验信息,只考虑高维数据间的局部和全局结构,不考虑数据点间的类判别信息差别
第10页/共20页