文档介绍：数据挖掘中的谱聚类算法研究学位论文完成日期:冱!里:尘丝指导教师签字:二j歪鱼丝全答辩委员会成员签字:。留五弛量逾 j辩独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含未获得(注!翅遗查墓丝重要挂别虚明的:奎拦亘窒2或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:溯、夏钬签字日期:溯口年夕月乡D日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,并同意以下事项: 1、学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 2、学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中国学术期刊(光盘版)电子杂志社”KI《中国知识资源总库》, 授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》。(保密的学位论文在解密后适用本授权书) 学位论文作者签名:溯、: 0∥L/ 一‘。年期乡口日签字日期./咿年r月丫日数据挖掘中的谱聚类算法研究摘要聚类分析是目前国际数据挖掘和机器学习领域中的一个相当活跃的研究热点,是人们认识和探索事物之间内在联系的有效手段。谱聚类算法作为一种新型的聚类分析的算法,与传统聚类方法相比,谱聚类具有明显的优势,该方法不仅思想简单,易于实现,不易陷入局部最优解,而且具有识别非凸分布的聚类的能力,能够对任意形状的样本空间进行聚类,非常适合于许多实际应用问题。传统的谱聚类算法首先定义数据点间的相似性度量,基于该相似性度量,构造数据点集的相似度矩阵W,求出拉普拉斯矩阵L,接着计算出L的特征值和特征向量,最后选择一个或多个特征向量就可以对不同的数据点进行聚类。其中, 构建相似度矩阵w时,相似函数使用的是高斯核函数,尺度参数仃是手动设定的,这给该算法带来了一定的局限性。设计出无需手动输入尺度参数的谱聚类算法的实现方法,具有很重要的理论和现实意义,它不仅有助于研究人员对数据挖掘领域中的谱聚类算法的深入研究,还有助于普通工程技术人员利用谱聚类算法解决现实世界中的实际问题。本文详细分析了谱聚类算法的有关理论和方法,谱聚类生效的原因和优势, 并指出了目前谱聚类算法存在的问题,然后介绍了NJW谱聚类算法的理论基础和构造方法,最后做了以下两个主要的工作。首先,详细分析了谱聚类算法的有关理论和方法,通过对经典的NJW谱聚类算法的深入研究,针对NJW算法中存在的手动输入尺度参数仃的问题做了相应改进,研究目标是通过对NJW算法进行深入分析,设计出能够自动优化尺度参数盯值的一种方法,从而避免了手动输入尺度参数盯值带来的聚类结果不稳定的问题。,通过在UCI标准数据集上对比分析 k-means聚类、NJW谱聚类和EBSC谱聚类的实验结果,证明了EBSC算法在聚类准确性上优于前两种算法。其次,本文对谱聚类应用于烟草行业中的烟叶品质划分进行了探讨。目前在烟草行业已经运用了很多数据挖掘技术和计算智能的方法来解决问题,都取得了一定的成果。但是在聚类分析方面仍是利用传统的聚类方法进行聚类,如基于中心的聚类算法(例如最经典的k-means算法),在紧凑的超球形分布的数据集合上有较好的聚类效果,但却并不适合任意形状的聚类,而且此类算法是利用迭代最优化方法来寻找最优解,容易陷入局部最优解,因而此类算法不能保证收敛到全局最优解。而谱聚类由于其能发现任意形状簇的能力和收敛于全局最优解的性能,对烟叶品质的划分提供了一个新思路。因此本文将EBSC谱聚类用于烟叶品质划分中,通过对烟叶的聚类,对烟叶的采购具有一定的指导意义,同时在设计卷烟配方时,当需要的某一等级原料不足或缺乏时,可根据烟叶品质的相似性, 从相同的类簇中寻找相近的烟叶,对烟叶的替代也可提供一定的帮助。实验结果表明,EBSC谱聚类在烟叶品质划分中确实有一定的可行性。最后提出了以后的工作和展望,对谱聚类的进一步发展提出了自己的看法。关键词:数据挖掘;谱聚类;信息熵;EBSC Reseach on Spectral Clustering Algorithm inDataMining Abstract Cluster analysis is avery activeresearch focus intheinternationalfieldofdata mining and machine learning,it iS theeffective means forpeop