文档介绍:中南大学
硕士学位论文
基于局部线性嵌入的高维数据降维研究
姓名:黄移军
申请学位级别:硕士
专业:概率论与数理统计
指导教师:许青松
20091101
摘要氐惴治隽朔窍咝越滴椒ā!>植肯咝郧度耄⒔岷弦延随着科学技术的不断发展,数据越米越呈现高维化,从它们之问提取出有用的信息给我们带来了前所未有的挑战。因此,把高维数据通过降维方法映射投影剑一个相对低维的空间,进而找到隐藏在其间的对我们有用的低维结构成为当前工作中一个重要内容。鉴于此,本文主要进行了以下的工作:蚴隽说鼻肮谕夤赜诮滴姆⒄骨榭鲆约暗鼻耙恍┍冉狭行的降维方法。的一些结论对该算法中参数的选择方法做了改进,特别是邻域难择上做了较为详细的探讨并得到了较为有效的解决办法。我们将改进前后局部线性嵌入降维引入医学数据和其他领域数据并加以比较,验证了改进后算法的优越性。治霰冉狭肆街址窍咝越滴椒ǎ壕植肯咝郧度牒偷染嘤成洌就他们对不同的邻域脱臼粼谠诵行噬献隽吮冉稀诰植肯咝郧度敕椒ǘ岳肴旱恪⑾嗬肓餍伪冉厦舾校栽来的算法做了一些改进,即稳健局部线性嵌入,通过实验表明,改进后的算法在处理带有离群点、相离流形问题时结果得到明显改善。关键词降维,局部线性嵌入,离群点,稳健性,可视化
璍⋯,.,.,,,,
定义降维问题的模型为簦現渲蠨维数据空间集合畗:,第一章绪论,研究背景莇空间集合话闶荝琩《的一个子集,我们称,是数据集到】,数据占主导地位的一个世纪”高维数据随处可见,如一个大型连锁超市在一段时品所形成的图象、人的基因分布、股票市场产生的数据等等都大的惊人。显然这趣的信息或者找出蕴涵在里面的一些规律,难度可想而知。这就是所谓的“维数为了克服“维数灾难侍猓滴椒ê糁觥K谷嗣强梢酝ü岳肷数据集合的分析来寻求在高维数据空间中的本征维数事物的本质规律。降维的基本原理是把数据样本从高维输入空问通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。从本质上来说,降维实质上是要解决一个“流形学习”的问题,即当数据集所在空间表现为流形结构时,我们要从存在于这种空问结构的数据集中提取出其相应的内在集合结构及规律性。数据降维问题存在于很多的领域中,如:机器学习、模式识别、数据压缩和数据可视化等。数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空问中,势必会造成一些原始信息的损失。所以我们在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示。般为的一个子集成洌随着人类社会的发展,接触的范围的逐步扩大,人们遇到的数据不再足局限于一个小范围的几笔小数据,取而代之的是正以指数形式增长的大型数据,也就是现在常说的高维数据。著名的美国斯坦福大学就说过“世纪必然是间产生的交易量生成的数据、高速发展的航天技术数据、越来越高清晰的数码产些数据能够为我们提供丰富、详细的信息,但要从这些大型数据提取出人们感兴灾难”川。,。硕十学侥论文
#嘣巾稻∑觶环植迹珽琕,所以当维数增加时,数据将设琗琤覦维谋曜颊植迹蛭颐强梢灾5若猉的线性函数,则称,为线性降维;否则,称为非线性降维。过降维可能会得到相同的低维表示,,高维空间表现出来的性质是在低维空间上几乎难以想象得到的,其最明显的是高维空械氖莘植急硐治!跋∈栊浴薄N颐窍旅胬匆肫湟恍┬灾性质我们可以看到,实际上褪浅虻耐饪遣糠半径从,.一剑与整个球体体积的比,由定理可知,当维数非常高时,超球的体积主要集中在它的外壳我们可以从图看到,超球外壳所占整个球体的体积比随着维数的增大,比重迅速升高,即球体的体积随着维数的增大不断的向边界扩散。所以对于超球或超立方体上的均匀分布而言,大部分的质量都位于边界的狭小区域之内。多维绿植嫉呐治蚕窒蟆】。定义称映射唬骸浚籜—为嵌入映射。同一高维数据通过不同的降维会得到不同的低维表示,而不同的高维数据通空间中半径为腄维超球的体积为所以有闪ⅰ硕十学位论文第一章绪论Ⅷ∥’
图超球的外壳体积与整个体积的比与维数的关系渲衧国内外研究现状集中在离原点距离为的位置。即在高维空问中,数据出现严重的拖尾从上面可以看到,高维数据在大部分情况下,并不是观测量的所有分量都对弥漫在整个占淠冢且阅掣龅臀餍纹≡贒维空间内。这样,我们现降维的效果。此外,有些变量和其它的变量有很强的相关性刺蕹恍┤哂的信息U庋颐蔷涂梢园涯承┍淞康南咝宰楹嫌靡桓霰淞坷幢硎荆佣跎降维问题主要表现为两个方面:线性降维与非线性降维。国外在高维数据的研究上起步较早,吸引了一大批的科研人员投身于此,到目前已发展