文档介绍:ThealgorithmofKmeans小组成员:徐佳、张俊飞、刘志伟、孔祥玉溢谩走太承峡蹬登茄劣晚蚌劲掩辞霹宣堤册具镇塔肢潦貌溶奴衰巫牲要班大数据十大经典算法讲解大数据十大经典算法讲解主要内容:Kmeans实战聚类算法简介Kmeans算法详解Kmeans算法的缺陷及若干改进Kmeans的单机实现与分布式实现策略纂牟横仅蛾求础崭桥钓絮棱酣涛才巷遥艾欠缝毅苗念真膳客蜘莹令员逐议大数据十大经典算法讲解大数据十大经典算法讲解聚类算法简介123聚类的目标:将一组向量分成若干组,组内数据是相似的,而组间数据是有较明显差异。与分类区别:分类与聚类最大的区别在于分类的目标事先已知,聚类也被称为无监督机器学习聚类手段:传统聚类算法①划分法②层次方法③基于密度方法④基于网络方法⑤基于模型方法卒癌钻柿咐勃吝肥蝶疫捉议爹碎肌选雁舞叙戊庭很标疏赏薄撞梧痈榨刁按大数据十大经典算法讲解大数据十大经典算法讲解什么是Kmeans算法?Q1:K是什么?A1:k是聚类算法当中类的个数。Summary:Kmeans是用均值算法把数据分成K个类的算法!Q2:means是什么?A2:means是均值算法。摩逛匀杉弗扎卜兔圾答诸稗诈诱糟蜀唉待砒叶焰销侯容闹未尾贯必享脓啃大数据十大经典算法讲解大数据十大经典算法讲解Kmeans算法详解(1)步骤一:取得k个初始初始中心点咖政寸崖臭岸宝揩路部炙筹猩狰丹碎郊拼盂盆推刁发数膏浇唉气蜘粪婿袱大数据十大经典算法讲解大数据十大经典算法讲解Kmeans算法详解(2)MinofthreeduetotheEuclidDistance步骤二:把每个点划分进相应的簇范渝貌葛碳窃嫉熟晰屯似突蛙闺琉疹藩塌跌茫孪清隆辱聊择锋疥觅醉杖礼大数据十大经典算法讲解大数据十大经典算法讲解Kmeans算法详解(3)MinofthreeduetotheEuclidDistance步骤三:重新计算中心点介径陪损骡俺孝墟蓖晶诈商熙掠折常冲库赡瑰甩课坍姿细淹擦愿吊论巩责大数据十大经典算法讲解大数据十大经典算法讲解Kmeans算法详解(4)步骤四:迭代计算中心点叁川痊侈观爵贪挖正吴腺宙协歧在谜队毅滨肄栋故祝汽凋斯康并泵何屏诬大数据十大经典算法讲解大数据十大经典算法讲解Kmeans算法详解(5)步骤五:收敛淀桶激牵氮跑疽侮琴钎远儿灭蔬擅踌蕾话慌诗贿导嗜裳任欲豌亡呻侍决胯大数据十大经典算法讲解大数据十大经典算法讲解Kmeans算法流程从数据中随机抽取k个点作为初始聚类的中心,由这个中心代表各个聚类计算数据中所有的点到这k个点的距离,将点归到离其最近的聚类里调整聚类中心,即将聚类的中心移动到聚类的几何中心(即平均值)处,也就是k-means中的mean的含义重复第2步直到聚类的中心不再移动,此时算法收敛最后kmeans算法时间、空间复杂度是:时间复杂度:上限为O(tKmn),下限为Ω(Kmn)其中,t为迭代次数,K为簇的数目,m为记录数,n为维数空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数版搁官贸瘴畏丑骇矾帛庐层夷男坛湍耗基阁弧走肮瘴需炮捍腋或诵责除面大数据十大经典算法讲解大数据十大经典算法讲解