文档介绍:上海交通大学
硕士学位论文
基于粒子群的C均值聚类算法的研究
姓名:刘靖明
申请学位级别:硕士
专业:管理科学与工程
指导教师:韩丽川
20050101
上海交通大学硕士学位论文
基于粒子群的均值聚类算法的研究
摘要
数据挖掘是一个从大量数据中抽取挖掘出未知的有价值模式或
规律等知识的复杂过程广泛应用于金融保险市场营销制造业
零售业等行业中在数据挖掘中聚类是一个重要研究领域其目的
是将数据库中的数据划分成具有一定意义的子类使得不同子类中的
数据尽可能不同而同一子类中的数据尽可能相似聚类被广泛地应
用于金融领域地理信息系统卫星图象和信息检索等领域主要的
聚类算法有基于划分的算法基于层次的算法基于密度的算法基
于栅格的算法基于模型的算法和模糊聚类算法模糊聚类算法作为
聚类算法的一种应用范围很广泛尤其在模式识别和图像处理两个领
域中得到相当成功的应用
C 均值聚类算法是聚类中基于划分的算法它包括 kmeans 算法
硬 C 均值聚类算法和 FCM(模糊 C 均值聚类算法) 由于其简单
快速而有效而被广泛应用但在应用过程中这些算法常常会在求解过
程中陷入局部最小值而且对初始值敏感很多学者尝试用全局寻优
算法来改进聚类算法比如遗传算法免疫规划和模拟退火算法
虽然取得一定成效但是收敛精度和稳定性不高
粒子群算法是一种新的全局寻优算法自年提出后就成为
研究的热点目前主要应用于函数优化神经网络训练工业系统优
化与控制等领域中粒子群算法易于实现具有较强的全局寻优能力
- 5 -
上海交通大学硕士学位论文
已有研究证明和遗传算法相比一般情况下粒子群算法在优化速度
和精度上有一定程度的改善
本文以数据挖掘算法中的均值聚类算法为主要研究对象在分
析和算法流程的基础上将粒子群算法用于算法
中提出基于粒子群的均值算法用大量随机产生的数据和国际标
准法分类数据中的数据来验证其有效性并将这种算法与已有
的基于遗传算法的均值算法进行比较实验证明本文的粒子群均
值聚类算法在收敛精度和稳定性比遗传均值聚类算法要好然后进
一步把粒子群算法和模糊均值算法结合起来用二阶段法实现了更
具有广泛意义的基于粒子群的模糊均值算法并与基于遗传算法的
模糊均值算法进行比较实验证明本文提出的基本于粒子群的模糊
均值算法改善了易于陷入局部最小值的问题而且稳定性比基
于遗传算法的模糊聚类算法要好
本文的研究结果一定程度上解决了 C 均值聚类算法易陷入局部
最小值和对初始值敏感的问题提高 C 均值算法的收敛精度在数
据聚类中有很好的应用效果同时也是粒子群算法的一个新的尝试
该研究将对粒子群算法的进一步推广和应用有一定的参考价值为进
一步研究粒子群算法在文本聚类中的应用奠定了基础
关键词聚类分析粒子群算法算法算法粒子群聚类算法
- 6 -
上海交通大学硕士学位论文
THE RESEARCH OF C-MEANS CLUSTERING
ALGORITHM BASED ON PARTICLE SWARM OPTIMIZATION
ABSTRACT
Data mining is the process of abstracting unaware, potential and useful
information and knowledge from plentiful, plete, noisy, fuzzy and stochastic
data. As the hotspot of research, cluster analysis is one of the most important research
domains of data mining. The motion of cluster analysis is that makes the data set into
several clusters, a cluster is a collection of data objects that are similar to one another
within the same cluster and dissimilar to the objects in other cluster. It has been
widely applied into finance, GIS and web archive. The clustering algorithm includes
Division-