文档介绍:万方数据分类号: 密级: U D C: 编号: 专业硕士学位论文(工程硕士) 谱聚类算法的研究及其应用硕士研究生:张彬指导教师:吴良杰教授学位级别:工程硕士学科、专业:计算机技术所在单位:计算机科学与技术学院论文提交日期:2014年5月论文答辩日期:2014年6月学位授予单位:哈尔滨工程大学万方数据万方数据 Classified Index: : A Dissertation for the Professional Degree of Master (Master of Engineering) Research on Spectral Clustering Algorithm and its Application Candidate: ZhangBin Supervisor: Academic Degree Applied for: MasterofEngineering Engineering Field: Computer Technology Date of Submission: May, 2014 Date of Oral Examination: June, 2014 University: Harbin Engineering University 万方数据万方数据哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字): 日期: 年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(□在授予学位后即可□在授予学位12个月后□解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字): 导师(签字): 日期: 年月日年月日万方数据万方数据摘要如今,不同行业下(尤其是公共服务行业),积累了大量数据,而对数据的分析成了亟待解决的问题。聚类技术的发展,大大缓解了这种情况。它的目标是在给定的数据集中发现隐藏的数据结构并且划分出具有相似行为的分组。在模式识别领域,谱聚类的出现成为了学者研究的焦点。它是近几年发展起来的一种聚类方法,并且以谱图理论为基础,通过求图的最优划分来得到最优的聚类结果。与人们熟知的传统聚类算法相比, 它并不局限于超球形的数据分布,且收敛于全局最优解。除此之外,噪声数据对谱聚类算法的影响不是很大,而且性能上要好很多。然而,谱聚类算法效果的好坏与衡量数据对间相似性所采用的相似性度量方式密切相关。因此设计出好的相似性度量方式对谱聚类算法的性能有重要意义。本文首先详细阐述了与谱聚类相关的基础理论,然后在分析现存相似性测量方式的基础上,结合聚类一致性先验假设,提出了基于共享近邻的相似性测度,其充分利用了数据的分布信息。然后将基于共享近邻的相似性测度引入到谱聚类算法中,得到了基于共享近邻的谱聚类算法。为了检验本文所提出的算法的实用性和有效性,在两个人工数据集和四个UCI数据集上与经典谱聚类算法进行了对比试验。对实验结果进行分析,可以得到该算法的聚类效果较好,并且降低了谱聚类算法对核参数的敏感性。最后,为了验证本文所提出的算法在解决实际问题上的能力,以中文文本聚类为背景,同K-Means 算法做了对比实验。实验数据显示,该算法相对于K-Means算法更适用于中文文本聚类。关键词:谱聚类;相似性度量;文本聚类万方数据哈尔滨工程大学硕士学位论文 Abstract Nowadays, different industries (particularly in the public utilities), has accumulated a large amount of data. But the analysis of the data has e an urgent problem. Development of clustering technology, greatly e