文档介绍:中国科学技术大学
博士学位论文
基于全局统计与局部几何性质的数据降维算法研究
姓名:王雷
申请学位级别:博士
专业:信号与信息处理
指导教师:俞能海
20090501
摘要在机器学习和数据挖掘等领域的许多实际问题中,如人脸识别,数字图像识别和数据可视化等,都需要面临高维数据的分析和处理。高维数据不仅会增加算法的计算负担,而且由于包含大量的冗余信息会掩盖数据的内在真实结构,给学习和分析任务带来很大的困难。数据降维技术是解决这一问题的有效手段,它不仅可以挖掘出数据的本质结构,而且能够以较少的计算代价帮助完成既定的学习任务。因此,针对数据降维技术的研究一直以来都是相关领域研究的重本论文重点研究针对高维数据的降维理论与方法以及在人脸识别领域中的的各自特点和优势,分析了各种算法的本质和内在联系。涞腜和算法都是在最小平方意义下进行建模的,其求解缺乏足够的稳健性。数据中即使掺杂了少量的离群样本也会使得它们求解的主分量方向产生很大偏倚。本文针对这一问题提出了~种稳健的非中的离群样本,能够学习出准确的非线性子空间。由于采用了迭代的方式更新计算,算法还具有潜在的增量学习的优势。与标准算法的对比实验结果表明了该算法的有效性和稳健性。诰植勘3值乃枷耄岢隽艘恢终攵愿呶莸牧餍窝昂湍J椒掷的监督降维算法。经典的惴ń隹悸橇搜镜娜ň滞臣菩息,不适用于非线性分布的数据。而基于局部几何性质的流形学习算法在解释数据的内在结构方面具有明显的优势。因此,本文基于局部分析的思想提出了算法。该算法试图在保持数据局部性质的同时最大化各类别之间的间隔,能够获得良好的判别性能。并且由于采用了优化的邻域选择机制,能够避免已有方法在刻画数据局部几何结构时所面临的一些问题。在和肆呈菘馍系氖笛榻峁明了该算法的有效性以及相对于主流的、蚆算法点课题。具体应用。论文的主要研究内容和创新成果如下:踊谌ň滞臣坪突诰植考负涡灾实慕嵌茸芙崃艘延惺萁滴惴线性降维算法.。该算法通过隐式的方式辨别并抑制数据的优越性。诹餍握蚧乃枷耄岢隽艘恢挚捎糜诙嗬辔侍獍爰喽窖八惴
也惴ú捎枚啾淞炕毓槟P陀糜诜掷辔侍猓⑶夜建了所有样本的近邻图来估计整个数据空间的几何结构,作为回归目标的正则化项。在该算法中,无标签样本的作用就是协助估计数据空间的肆呈菘馍系氖笛榻峁砻髁烁盟惴ǖ挠行浴局部几何结构,帮助获得更为有效的判别向量。在蟚关键词:数据降维流形学习半监督学习人脸识别摘要
,,,產.,.,’.,.,、王最鄋.
锄綼,Ⅱ,:..瑆够Ⅱ猰唱蒳甌秎·ⅱ鬿甀盯’猚瑂猻薸璶,打阤琇,】协琣甧畇∞陁騟
插图图在人脸数据库上的实验性能对比.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。贏数据集上的结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯在菁系奶卣髦刀员取图标准在菁系慕峁贐数据集上的结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图图嵌入及其线性化、核化、张量化降维统一框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~图数据采样不均匀时,采用欧氏距离和尤ň嗬虢辛谟蜓≡裥Ч员取肆呈菘馔枷袷纠肆呈菘馔枷袷纠菘馐保盗芳形幢昵┭镜氖侗鹇识员取图与⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯隝⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯隠⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯和產在菁系慕峁篈和图欧氏距离肌氩獾叵呔嗬惴ḿ扑悴街琛图边缘点飅疽馔肌人脸数据库图像示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图在人脸数据库上的实验性能对比⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图趗人脸数据库上的平均识别率对比⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图无标签样本对学习结果的影响示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图采用图采用菘馐保馐约械氖侗鹇识员取肆呈菘馔枷袷纠图采用菘馐保盗芳形幢昵┭镜氖侗鹇识员取Ⅸ
表格表在人脸数据库上的最优识别率霞岸杂Φ奶卣魑表在肆呈菘馍系淖钣攀侗鹇%岸杂Φ奶卣魑
璩一蓼害一中国科学技术大学学位论文原创性声明中国科学技术大学学位论文授权使用声明口保密!D本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确作者签名:作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人