1 / 17
文档名称:

算法算法数据代码实用教案.pptx

格式:pptx   大小:864KB   页数:17页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

算法算法数据代码实用教案.pptx

上传人:wz_198613 2021/12/2 文件大小:864 KB

下载得到文件列表

算法算法数据代码实用教案.pptx

相关文档

文档介绍

文档介绍:聚类分析概念(gàiniàn)
1
K-means算法(suàn fǎ)
2
K-means实验-国民(guómín)健康
3
K-means实验-图像分割
4
K-means实验-商户评级
5
目 录
第1页/共17页
第一页,共17页。
(gàiniàn)
聚类与分类的不同在于:
分类简单来说,就是根据文本的特征或属性,划分到已有类别(lèibié)中。也就是说,这些类别(lèibié)是已知的,通过对已知分类的数据进行训练和学****找到这些不同类的特征,再对未分类的数据进行分类。
聚类的理解更简单,就是你压根不知道数据会分为几类,通过聚类分析将数据或者说用户聚合成几个群体,那就是聚类了。聚类不需要对数据进行训练和学****br/>第2页/共17页
第二页,共17页。
-means算法(suàn fǎ)
Q1:K是什么?A1:k是聚类算法(suàn fǎ)当中类的个数。
Summary:Kmeans是用均值(jūn zhí)算法把数据分成K个类的算法!
Q2:means是什么?A2:means是均值算法。
第3页/共17页
第三页,共17页。
-means算法(suàn fǎ)
距离(jùlí)的定义
欧式距离(jùlí): N维空间点或向量的距离(jùlí)
曼哈顿距离(jùlí): 城市街区距离(jùlí)
夹角余弦: 向量方向的差异
相关系数:
信息熵:
第4页/共17页
第四页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
步骤一:取得(qǔdé)k个初始中心点
从数据中随机抽取k个点作为初始聚类的中心,由这个中心代表各个聚类
第5页/共17页
第五页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
Min of three
due to the EuclidDistance
步骤(bùzhòu)二:把每个点划分进相应的簇
根据欧氏距离最小原则,把每个点划分进相应的簇
第6页/共17页
第六页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
Min of three
due to the EuclidDistance
步骤三:重新(chóngxīn)计算中心点
根据均值等方法,重新计算每个类的中心点
第7页/共17页
第七页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
步骤(bùzhòu)四:迭代计算中心点
重复第二步和第三步
第8页/共17页
第八页,共17页。
-means算法(suàn fǎ)
K-means算法(suàn fǎ)详解
步骤(bùzhòu)五:收敛
聚类中心不再发生移动
第9页/共17页
第九页,共17页。
-means实验(shíyàn)-国民健康
数据(shùjù)示意图
国家和地区
婴儿死亡率(‰)
出生时平均预期寿命/岁
1990年
2000年
2006年
1990年
2000年
2006年
中国





72
中国香港



孟加拉国
100
66


61

文莱
10
8
8



柬埔寨

78




印度
80
68




印度尼西亚
60
36




伊朗
54
36
30



以色列
10



79
80
日 本






哈萨克斯坦
5