文档介绍：主讲:周润景教授单位:,该算法最常见的形式是采用被称为劳埃德算法(Lloydalgorithm)的迭代式改进探索法。劳埃德算法首先把输入点分成K个初始化分组,可以是随机的或者使用一些启发式数据。然后计算每组的中心点,根据中心点的位置把对象分到离它最近的中心,重新确定分组。继续重复不断地计算中心并重新分组,直到收敛,即对象不再改变分组(中心点位置不再改变)。-均值聚类算法使用的聚类准则函数是误差平方和准则:为了使聚类结果优化,应该使准则最小化。,代表点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初始分类,再重新计算各聚类中心,称为成批处理法。(此方法为本文所采用的选取方法),依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。,先规定距离d,把第一个样品作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于d,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于d,决定分裂还是合并。-均值算法,其类型数目假定已知为K。对于K未知时,可以令K逐渐增加,如:K=1,2….,使用C-均值算法,误差平方和Jc随K的增加而单调减少。最初,由于K较小,类型的分裂会使Jc迅速减小,但当K增加到一定数值时,Jc的减小速度会减慢,即:随着初始分类k的增大,准则函数下降很快,经过拐点后,下降速度减慢。拐点处的K值就是最佳初始分类。①给出个n混合样本,令表示迭代运算次数,选取K个初始聚心;②计算每个样本与聚合中心的距离,若,则。③计算K个新的集合中心:。④判断:若,则,返回②,否则算法结束。**********K=2将每个对象赋给最类似的中心更新簇的平均值重新赋值更新簇的平均值重新赋值算法流程示意图::(1)如果变量很大,k均值比层次聚类的计算速度更快。(2)与层次聚类相比,k均值可以得到更紧密的簇,尤其是对于球状簇。(3)大数据集合,效率比较高。(4)算法尝试找出使平方误差函数最小的k个划分。当结果簇是密集的,而簇与簇之间区别明显的时候,效果较好。缺点:(1)没有指明初始化均值的方法。常用的方法是随机的选取k个样本作为均值。(2)产生的结果依赖于均值的初始值,经常发生得到次优划分的情况。解决方法是多次尝试不同的初始值。(3)可能发生距离簇中心mj最近的样本集为空的情况,因此,mj将得不到更新。(4)不适合发现非凸面形状的簇,并且对噪声和离群点数据是比较敏感的,因为少量的这类数据能够对均值产生极大的影响。:clearall;data=[