1 / 18
文档名称:

kmeans聚类算法.ppt

格式:ppt   大小:1,088KB   页数:18页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

kmeans聚类算法.ppt

上传人:相惜 2021/7/15 文件大小:1.06 MB

下载得到文件列表

kmeans聚类算法.ppt

文档介绍

文档介绍:数据挖掘算法、原理与实践
王振武
1
精选课件
八、K-means聚类算法


K-means聚类算法就是基于距离的聚类算法(cluster algorithm)
主要通过不断地取离种子点最近均值的算法
2个中心点的kmeans
2
精选课件
八、K-means聚类算法
2. K-means聚类算法原理
K-means聚类算法的基本思想:
一、指定需要划分的簇的个数k值;
二、随机地选择k个初始数据对象点作为初始的聚类中心;
三、计算其余的各个数据对象到这k个初始聚类中心的距离,把数据对象划归到距离它最近的那个中心所处在的簇类中;
四、调整新类并且重新计算出新类的中心。
五、计算聚类准则函数E,若E不满足收敛条件。重复二、三、四,
六、结束
3
精选课件
八、K-means聚类算法
2. K-means聚类算法原理
K-Means算法的工作框架:
4
精选课件
八、K-means聚类算法
2. K-means聚类算法原理
K-means算法的工作流程
5
精选课件
(补充)距离的算法的选择
一般,我们都是以欧拉距离来计算与种子点的距离。但是,还有几种可以用于k-means的距离计算方法。
1)闵可夫斯基距离——λ可以随意取值,可以是负数,也可以是正数,或是无穷大。
2)欧拉距离——也就是第一个公式λ=2的情况
3)市郊区距离公式——也就是第一个公式λ=1的情况
4)余弦距离(常用于文本)——
6
精选课件
(补充)距离的算法的选择
闵可夫斯基距离
欧拉距离
市郊区距离公式
7
精选课件
八、K-means聚类算法
3 K-means聚类算法特点及应用
K-means聚类算法特点
优点:
(1)算法简单、快速。
(2)对处理大数据集,该算法是相对可伸缩的和高效率的。
(3)算法尝试找出使平方误差函数值最小的k个划分。
缺点:
(1)K-means聚类算法只有在簇的平均值被定义的情况下才能使用。
(2)要求用户必须事先给出要生成的簇的数目k。
(3)对初值敏感。
(4)不适合于发现非凸面形状的簇,或者大小差别很大的簇。
(5)对于“噪声”和孤立点数据敏感。
8
精选课件
K-means缺点以及改进
(1)要求用户必须事先给出要生成的簇的数目k。这个k并不是最好的。
解决:肘部算法
肘部算法是一种启发式方法来估计最优聚类数量,称为肘部法则(Elbow Method)。
从图中可以看出, K 值从1到3时,平均畸变程度变化最大。超过3以后,平均畸变程度变化显著降低。因此肘部就是 K=3 。
各个类畸变程度(distortions)之和;每个类的畸变程度等于该类重心与其内部成员位置距离的平方和;最优解以成本函数最小化为目标,其中uk是第k个类的重心位置
9
精选课件
K-means缺点以及改进
(2)K-Means算法需要用初始随机种子点来搞,不同是起点结果不同。可能导致算法陷入局部最优。
解决:K-Means++算法(初始的聚类中心之间的相互距离要尽可能的远)
“种子点”
,我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里,然后把这些距离加起来得到Sum(D(x))。
,再取一个随机值,用权重的方式来取计算下一个“种子点”。这个算法的实现是,先取一个能落在Sum(D(x))中的随机值Random,然后用Random -= D(x),直到其<=0,此时的点就是下一个“种子点”。

-means算法
假设A、B、C、D的D(x)如上图所示,当算法取值Sum(D(x))*random时,该值会以较大的概率落入D(x)较大的区间内,所以对应的点会以较大的概率被选中作为新的聚类中心。
10
精选课件

最近更新

企业人力资源激励策略优化研究 7页

咖啡厅会议室改造协议样本 9页

从“以人为本”浅谈企业员工激励问题(5材料) 4页

电子电工基础知识 62页

办公室翻新拆除工程合同 8页

冷链物流医药产品运输协议 9页

人力资源考核方法 6页

写字楼装修合同样本 8页

人力资源管理系统的设计与实现毕业论文 21页

人力资源管理的核心价值 4页

人力资源管理的专业技能分析 5页

人力资源管理新模式与新趋势 5页

仓储物流土方运输居间协议 8页

人力资源管理参考文献2025英文 5页

第二节《探究物质的密度》同步练习(沪粤版初二.. 3页

人力资源管理中的员工绩效考核与薪酬 4页

二零二五年度金融科技对赌协议约定倍收益合作.. 8页

人力资源的员工反馈 5页

二零二五年度试用期劳动合同:智能制造领域技.. 9页

人力资源二级论文范文 4页

人力资源 马尔可夫模型-概述说明以及解释 4页

互联网公司员工关系概念解析部门实习生入职管.. 5页

二零二五年度离婚赔偿协议书 7页

中小型企业人才流失的原因及对策 11页

中小企业人才流失的原因及对策 13页

中国铁建集团在财务共享模式下内部控制存在的.. 5页

与90后员工相处的7个习惯 6页

【标杆学习】华为人力资源管理体系精髓及启示.. 6页

二零二五年度水利工程建设外包单位安全生产保.. 9页

二零二五年度未签订劳动合同员工转正及待遇调.. 7页