文档介绍:Dissertation Submitted to He B ei University of Technology for The Master Degree puter Applied Technology ATTRIBUTE-WEIGHTING ATTRIBUTE-WEIGHTING ATTRIBUTE-WEIGHTING ATTRIBUTE-WEIGHTING LEADER LEADER LEADER LEADER CLUSTER CLUSTER CLUSTER CLUSTER ALGORITHM ALGORITHM ALGORITHM ALGORITHM B y Sun Xiufang Supervisor: Prof. Wu Youxi November 20 12 原创性声明本人郑重声明: 所呈交的学位论文, 是本人在导师指导下, 进行研究工作所取得的成果。除文中已经注明引用的内容外, 本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体, 均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名: 日期: 关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各项内容: 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版, 并采用影印、缩印、扫描、数字化或其它手段保存论文; 学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版; 在不以赢利为目的的前提下, 学校可以适当复制论文的部分或全部内容用于学术活动。(保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 日期: 导 师签名: 日期: 属性权重的 Leader 聚类算法 ii 河北工业大学硕士学位论文 i 属性权重的 Leader 聚类算法摘要 Leader 算法是一种基于粗糙集的层次聚类算法,无需预先指定簇的个数且对孤立点具有鲁棒性, 算法思想简单、快速。但该算法也存在一些弊端: 对样本采取硬划分、聚类结果依赖样本顺序、聚类分析中未考虑属性权重的影响等。本文研究内容主要针对 Leade r 算法存在的属性权重问题展开, 文中首先介绍了聚类算法的一些基本知识, 接着介绍了一种针对 Leader 算法存在的硬划分问题提出的改进粗糙 Leader 聚类算法( RLeader ) ,该算法同时解决了 Leader 算法存在的样本顺序问题等。针对 Leader 算法和 RLeader 算法对每一维属性赋予相同的属性权重,未考虑聚类过程中各维属性贡献程度不同的问题,提出了负投影梯度法最小化属性权重目标函数法( MWOF-NGP ) 和梯度下降法最小化属性权重目标函数法( MWOF-GD ) 学习数据集的属性权重。将所得属性权值分别应用到 Leader 算法和 RLeader 算法中,构建了两种基于属性权重 Leader 聚类算法( NGP-WLeader 和 GD -WLeader ) 和两种基于属性权重的粗糙 Leader 聚类算法( NGP-W R Leader 和 GD -W R Leader ) 。本文在 UCI 的多个数据集上比较了 Leader 、 NGP-WLeader 和 GD -WLeader 的聚类结果, 以及 RLeader 、 NGP-W R Leader 和 GD -W R Leader 的聚类效果, 其中聚类结果用“熵”和“精度”评价。实验结果表明: NGP-WLeader 算法比 Leader 算法的聚类效果好; GD -WLeader 算法的聚类结果中除极个别情况外, 整体上也优于 Leader 算法的聚类结果; NGP-W R Leader 和 GD -W R Leade r 的聚类效果均优于 RLeader 算法。即基于属性权重的聚类算法比传统聚类算法的聚类效果好, 这是由于基于属性权重的聚类算法通过强化重要属性和消减冗余属性在聚类过程中的作用, 改善了聚类效果。此外, 由于梯度下降法容易陷入局部最优, 而负投影梯度法没有该缺点, 因此, 从整体而言, 基于负投影梯度法的属性权重聚类算法比基于梯度下降法的属性权重聚类算法的聚类效果好, 即 NGP-WLeader 比 GD -WLeader 的聚类效果好, NGP-W R Leader 比 GD -W R Leader 的聚类效果好,聚类结果验证了 MWOF-NGP 算法比 MWOF-GD 算法具有更好的属性权重学习效果。关键词: 聚类算法,属性权重, 负投影梯度法,梯度下降法属性权重的 Leader 聚类算法 ii AT