文档介绍:聚类分析概念(gàiniàn)
1
K-means算法(suàn fǎ)
2
K-means实验-国民(guómín)健康
3
K-means实验-图像分割
4
K-means实验-商户评级
5
目 录
第1页/共17页
第一页,共17页。
(gàiniàn)
聚类与分类的不同在于:
分类简单来说,就是根据文本的特征或属性,划分到已有类别(lèibié)中。也就是说,这些类别(lèibié)是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。
聚类的理解更简单,就是你压根不知道数据会分为几类,通过聚类分析将数据或者说用户聚合成几个群体,那就是聚类了。聚类不需要对数据进行训练和学习。
第2页/共17页
第二页,共17页。
-means算法(suàn fǎ)
Q1:K是什么?A1:k是聚类算法(suàn fǎ)当中类的个数。
Summary:Kmeans是用均值(jūn zhí)算法把数据分成K个类的算法!
Q2:means是什么?A2:means是均值算法。
第3页/共17页
第三页,共17页。
-means算法(suàn fǎ)
距离(jùlí)的定义
欧式距离(jùlí): N维空间点或向量的距离(jùlí)
曼哈顿距离(jùlí): 城市街区距离(jùlí)
夹角余弦: 向量方向的差异
相关系数:
信息熵:
第4页/共17页
第四页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
步骤一:取得(qǔdé)k个初始中心点
从数据中随机抽取k个点作为初始聚类的中心,由这个中心代表各个聚类
第5页/共17页
第五页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
Min of three
due to the EuclidDistance
步骤(bùzhòu)二:把每个点划分进相应的簇
根据欧氏距离最小原则,把每个点划分进相应的簇
第6页/共17页
第六页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
Min of three
due to the EuclidDistance
步骤三:重新(chóngxīn)计算中心点
根据均值等方法,重新计算每个类的中心点
第7页/共17页
第七页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
步骤(bùzhòu)四:迭代计算中心点
重复第二步和第三步
第8页/共17页
第八页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
步骤(bùzhòu)五:收敛
聚类中心不再发生移动
第9页/共17页
第九页,共17页。
-means实验(shíyàn)-国民健康
数据(shùjù)示意图
国家和地区
婴儿死亡率(‰)
出生时平均预期寿命/岁
1990年
2000年
2006年
1990年
2000年
2006年
中国
72
中国香港
孟加拉国
100
66
61
文莱
10
8
8
柬埔寨
78
印度
80
68
印度尼西亚
60
36
伊朗
54
36
30
以色列
10
79
80
日 本
哈萨克斯坦
5