1 / 66
文档名称:

遗传优化的K均值聚类算法.pdf

格式:pdf   大小:964KB   页数:66页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

遗传优化的K均值聚类算法.pdf

上传人:iris028 2021/11/30 文件大小:964 KB

下载得到文件列表

遗传优化的K均值聚类算法.pdf

文档介绍

文档介绍:遗传优化的 K 均值聚类算法
摘 要
数据挖掘作为一种能挖掘出隐藏在数据复杂关系背后有价值信息的一
种新兴技术,由于其实用性而迅速发展。聚类分析方法是数据挖掘的一个
重要研究方向,其作为一种无监督学****方法被广泛应用于各行各业。K均值
聚类算法是聚类分析方法中一种非常典型的划分方法,该算法简单、易懂,
但是存在诸如对初始中心点敏感,需事先确定聚类数及易陷入局部最优等
缺陷。
遗传算法提供了一个全局寻优问题的模型,近年来,越来越多的学者
采用遗传算法对 K 均值聚类算法进行优化,形成 K 均值遗传算法。该算法
针对染色体编码方式、遗传算子及控制参数等方面进行改进,从而实现聚
类中心点的优化选取,或最佳聚类数的获取等,力求得到质量较高的聚类
结果。
本文在总结前人已取得的研究成果基础上,设计了一种新的遗传优化
的 K 均值聚类算法,该算法利用遗传算法的遗传操作实现了 K 值的自动调
整与中心点的优化选取,并借助遗传算法的全局优化能力有效克服了 K 均
值聚类算法易陷入局部最优的缺点。在将遗传算法引入 K 均值聚类算法时,
对遗传算子进行了如下两方面的改进:
(1) 适应度函数的构造。
适应度函数的好坏直接影响后续一系列遗传算子的操作。在本文中适
应度函数值除优化了聚类中心点的选取外,也解决了聚类数 K 值需事先确
定且在算法执行过程中不能更改的缺陷。将遗传算法引入到 K 均值算法中,
以适应度函数为依据,利用种群中每个个体的适应度值来进行搜索、学****br/>最佳聚类数 K 值,因此适应度函数的选取与确定将决定 K 值的选取与优化
问题。
(2) 变异操作的设计。
本文设计了一种新的变异操作方法,该方法通过对个体适应度函数的
求解,实现对于聚类数 K 值的自动调整,使其能够自动向最佳聚类数靠拢。
最后,在算法的实现上,采用了 java 程序设计语言与 Mysql 数据库。
实验数据除采用常用的 Iris 数据集与 Glass 数据集以外,还对大量电信业
务中长途电话使用情况的数据记录做了实际应用分析。经过对这些数据的
验证及结果分析,证明了该算法不仅能处理不同维数的数据、具有可伸缩
性,而且通过对电信数据的分析,证实该算法具有实用价值,并在此基础
上设计了一种基于电信业务聚类分析的模型。

关键字:数据挖掘,聚类算法,K 均值聚类算法,遗传算法,遗传 K 均值聚
类算法
OPTIMIZED K-MEANS CLUSTERING ANALYSIS
BASED ON GENETIC ALGORITHM
ABSTRACT
Data mining, as an emerging technology which can excavate valuable
information behind the complex relationship, has rapid development because of
its practicality. Clustering analysis is an important research field of data mining,
and has been widely used in industries as a kind of unsupervised learning
methods. K-means clustering algorithm, which is a typical clustering method, is
simple, but there are some shortcomings, such as being s