文档介绍:申请学位级别醣谥场馈!Wㄒ礸称—丑擅皇值显亟自河即箧学位授予单位和日新·』獭欢丁!!!P腕謏三生乙—直直上椤籐丁H鸏一——Ⅲ一———!!!R密扭——』巳—一基于模式相似的子空间聚类算法研究论文提交日期坏赝滤壳衣畚拇獗缛掌冢幻司是尧蚯廿娄目————卫蛆!!!R硕士学位论文指导教师姓名—雎墨莲敦隰懒芭躺皿だ迳孟⒗嘉謇糆瞢辩委员畲主常:—圭且王一论文评阅人三臼【、学号;』盟韭娅三一年中国南京
摘一要聚类分析是数据挖掘研究中最活跃的领域之⋯,用于将数据对象分组为多个类或簇,他得簇内对象尽可能相似而簇间对象尽可能相异。广泛用在模式识别、数据分折、图蒙处理、推荐系统以及电子商务等领域中。本文首先对聚类算法进行了分类、综述和对比。传统聚类算法在低维空间中能够柯效地进行聚类,但在高维数据集中,由于其数据的稀疏性,;对高维数据,一般采用特征转换燃蛟和一间聚类妊≡来解决这个问题。:本文第二章对目前提出的子空问聚类算法作出了系统雌述,并分析比较它们各自的优缺点。基于模式相似的聚类算法是子空间聚类的一种,与基于距离的聚类模型不同的是,在桴蜕辏绻礁龆韵蟮氖粜栽谑粜缘哪掣鲎蛹系那魇模式硐殖鲆恢滦裕则可判定这两个对象也相似。算法的主要目的就是发现对象之间这种模式上的相似性。本文第三章分析和实现了该算法,并针对其局限性提出慕惴ā8慕惴ú捎蜜崛块上的畲笙喙厥粜约琈糁Υ嬖惴ㄖ械亩猿剪枝,合并对象产生聚类时,枚举备前缀树分枝上的属性对,并计算它们在对象集畲笙喙囟韵蠹琈慕患J笛楸砻鳎慕惴ǖ拿袈和空间开销都较原算法稍优,结果也更加准确。本文设计了一个基于改进算法的推荐原型系统,同时验证了算法的可行性。关键词:数据挖掘;聚类分析;子空间聚类;模式相似萍鱿低河海太学硕论文
—..,甒.,,琯.,琩,.產..、..琈瓵篋,河海人学硕士论文
。尽我所知,除了文中特别加以标注和致谢的地方外,论学位论文独创性声明:本人所呈交的学位论文是我个人在导师指导下进行的研究工作及取文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同事对本研究所傲的任何贡献均已在论文中作了明确的说明并表示了谢意。如不实,本人负全部责任。论文作者┟:年学位论文使用授权说明河海大学、中国科学技术信息研究所、国家图书馆、中国学术期刊馀贪电子杂志社有权保留本人所送交学位论文的复印件或电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阕和借阅。论文全部或部分内容的公布ǹ授权河海大学研究生院办理。
技术背景第一章绪论和存储大量的数据。面对大规模的海差的数据,传统的数据分析工具绻芾硇畔⑾低只能进息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术应运而牛。经广泛地应用到诸多领域中,包括模式识别、数据分析、图像处理、推荐系统以及市场研究地区的确定,汽车保险单持有者的分组,及根据房屋的类型、价值和地理位置对一个城市中况,观察每个类的特点,集中对特定的某些类做进一步的分析。如对系奈牡到蟹掷以发现信息。此外,。这样可以大大提高这些算法的执行效率。因此聚类分析已经成为数据挖掘领域中~个非常活跃的研究课题【俊聚类是一个富有挑战性的研究领域,∮个数据对象的小数据集合上工作得缀好,而对包聿煌嘈褪粜缘哪芰Γ汉芏嗨惴ū簧杓朴美淳劾嗍道嘈偷氖荨5谑导视τ⑾秩我庑巫吹木劾啵盒矶嗑劾嗨惴ɑ谂芳咐锏戮嗬牖蛘呗咕嗬肜慈范ň劾唷世纪年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取行一些表层的处理绮檠⑼臣频,而不能获得数据之间的内在关系和隐含的信息。为了摆脱“数据丰富,知识贫乏”的困境,人们迫切需要一种能够智能自动地把数据转换成有用信聚类是一种重要的数据分析技术。它识别一个有限的种类集合或簇希佣述数据。聚类分析作为统计学的一个分支,己经被广泛研究了许多年。而且,聚类分析也已通过聚类,人们能够识别密集的和稀琉的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。在商务上,聚类能帮助市场分析人员从客户基本信息库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在对地球观测数据库中相似房屋的分组上也可以发挥作用。作为一个数据挖掘的重要功能,聚类分析能够作为一个独立的工具来获得数据的分布情聚类的舆型要求如下:含几百万个数据对象的大规模数据库进行聚类时,可能会导致有不同偏差的结果