文档介绍:摘要西南交通大学硕士研究生学位论文第本文回顾了高维数据处理领域中广泛使用的几种降维方法中涉及的优化问题及特征值问题,给定一个高维数据集,降维的目标是将其映射到低维空间,并保持原始数据集的某些性质不变。这样,在优化这些数据的性质的过程中,一个典型地被称为迹优化的问题就产生了,当然,伴随产生的还有特征值问题。本文的一个主要工作就是探究这些优化问题之间的关系,发现在数学层面上,满足特定的假设前提下,某些降维方法是等价的;并给出两类降维方法迹优化问题的统一框架。本文的另一个工作是着重探讨了惴ǎ治隽怂挠诺慵安蛔悖⒄攵云洳皇视糜谙∈璺蔷仁菁缺点,通过引入调和测地距离替代欧式距离来寻找样本点的冢佣岢鲆恢指进的惴ǎ⑼ü笛檠橹ち烁慕惴ǖ挠行浴关键词:线性降维;非线性降维;高维数据;主元分析;投影法;局部线性嵌入;局部保持投影;拉普拉斯特征映射
第页甌畊西南交通大学硕士研究生学位论文瓼,琣—;;;瓽,;..籐
第滦髀研究背景及意义西南交通大学硕士研究生学位论文第近年来,随着计算机硬件技术、数据收集技术和数据存储技术的快速发展,各行各业都逐步建立起各自的数据库体系。在这些数据库中存放着大量的数据,如何能有效地利用这些信息,使之能为生产实践所利用,成为人们所关注的问题。对于堆积如山的数据而言,人们缺乏强有力的技术手段和分析工具,因而造成了“数据丰富而信息缺乏”的状况。显然,数据库的检索和查询难以满足人们的需要,虽然伴随着数据仓库出现的联机分析处理技术具有总结、概化和聚集的功能,可以从不同的角度来观察数据,支持多维分析和决策支持,但它不能进行更深层次的分析,挖掘出大量数据背后所蕴藏的知识。在这种情况下,数据挖掘技术便应运而生。数据挖掘指的是从大量的数据中提取出人们感兴趣的知识,这些知识是隐含的,事先未知的,并且是潜在有用的信息。它的应用范围非常广泛,包括政治、经济、资源、环境、安全、科学、管理等诸多方面。在这些应用中,我们经常会碰到一些对象,它们可能有几十、几百甚至成千上万个属性。可以将这些对象表示成高维属性空间中的点或向量,这样就把客观世界中的对象集用高维数据的集合来表示。例如:零售商业中的“购物篮数据”,信息检索领域中“文档数据”,电子商务里的“用户评价数据”,统计中的“时间序列数据约吧锕こ讨小盎虮泶锸荨钡鹊榷际浅<母呶据。由于现实世界中存在着大量的高维数据,而这些高维数据与低维数据相比,在许多方面又表现出不同的特征,如果将用于低维数据的研究方法直接应用于高维数据,可能会遇到难以想象的困难或产生完全不同结果,因此必须对高维数据进行降维处理。这也是本文所要研究的核心问题。事实上,作为一类普遍存在的规律,在多数情况下我们观察的现象,表面上看是高维的、复杂的,实际上可以用很少的简单的变量来表示,例如:·,氨基酸分子的个数从几十个到成千上万个不等,具有相同空间结构的蛋白质ò被崤帕胁煌被分在同一个组中,这就是所谓的蛋白质组嗨朴诨蜃。通过蛋白质组模型可以了解不同蛋
降维方法的相关概念定一个数据矩阵澹瑇珆∈薄】,乃,咒,...,%蔙以”,秏,只是薯在低维空间的表示。.滴亩ㄒ西南交通大学硕士研究生学位论文第白质组的特殊的性质,能够有助于辨别和发现新组。研究蛋白质组模型的概率方法包括隐马尔可夫模型和密度神经网络:·,但是据推测,这个过程可以用霰量就可以很好的实现㈨。在很多情形下,首先将数据的维数降低到一个合理的大小,同时尽可能多的保留原始的信息,然后再将降维后的数据送入处理系统,这样的做法将是非常有用的。图枋隽艘话愕母呶荽砉蹋滴亲魑U鍪荽硐低车脑ご硎侄纬鱿之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余:有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的;有些变量和其他的变量有很强的相关性缡瞧渌淞康南咝宰楹匣蚴瞧渌览倒叵,可以找到一组新的不相关的变量。在许多情形下可以从一定程度上剔除这些冗余信息,获得更加经济的表示方式。图卜呶莸拇砉给定一个高维的数据集,降维的目的是把数据映射到一个低维的空间。例如,给。我们希望找到一个低维矩阵我们将会看到,许多降维方法中都涉及到优化问题,最典型的便是迹优化,伴随的。难以直接处理
。降维方法大致可以分成两种类型:第一类可以归结为“投影法”,它包括所有的线性方法。如主元分析法,、局部保持投影,、正交邻居保持投影琌、以及这些方法的一些变种。通过这类方法,数据矩阵可以明确地转化成低维的矩阵。实际上这类方法是通过寻找一个显性的线性变换来完成降维的,也即是它们寻找一个木卣罂螅沟媒滴蟮氖菥卣笪猋第二种类型可以归结为“隐性映射法”,这类方法本质上是非线性