1 / 28
文档名称:

聚类算法简介-ppt (2).ppt

格式:ppt   大小:635KB   页数:28页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类算法简介-ppt (2).ppt

上传人:薄荷牛奶 2018/9/9 文件大小:635 KB

下载得到文件列表

聚类算法简介-ppt (2).ppt

相关文档

文档介绍

文档介绍:什么是聚类?
聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小;
为什么需要聚类?
对相似的文档或超链接进行聚类,由于类别数远小于文档数,能够加快用户寻找相关信息的速度;
聚类图示
聚类中没有任何指导信息,完全按照数据的分布进行类别划分
什么是分类?
数据集合,类别标记集合
数据集合: 训练数据
待分类数据
已知
问题:
方法:根据训练数据获得类别划分标准
分类图示
训练数据
待分类数据
聚类与分类的区别
有类别标记和无类别标记;
有监督与无监督;
(有训练语料与无训练语料)
Train And Classification (分类);
No Train(聚类);
聚类的基本要素
定义数据之间的相似度;
聚类有效性函数(停止判别条件);
1. 在聚类算法的不同阶段会得到不同的类别划分结果,可以通过聚类有效性函数来判断多个划分结果中哪个是有效的;
2. 使用有效性函数作为算法停止的判别条件,当类别划分结果达到聚类有效性函数时即可停止算法运行;
类别划分策略(算法);
通过何种类别划分方式使类别划分结果达到有效性函数;
相似度
Euclidean Distance
数据表示为向量,向量中某一维对应数据某一特征或属性
仅计算了数据向量中属于同一维度特征的权值差距;
聚类有效性函数
最小误差( ):
最小方差:
衡量同一类别内数据的平均误差和;
衡量属于不同类别的数据与类别中心的的误差和;
聚类算法的简单分类
基于划分: K-means, K-medoids
基于层次: HFC
基于密度: DBSCAN
基于网格: CLIQUE , STING