1 / 105
文档名称:

数据挖掘导论 第8章 中文.ppt

格式:ppt   大小:3,122KB   页数:105页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘导论 第8章 中文.ppt

上传人:endfrs 2017/12/7 文件大小:3.05 MB

下载得到文件列表

数据挖掘导论 第8章 中文.ppt

文档介绍

文档介绍:数据挖掘集群分析:基本概念和算法
第二章
数据挖掘简介
数据挖掘导论 12/7/2017 1
什么是集群分析?
查找对象组,使得组中的对象将彼此相似(或相关),并且与其他组中的对象不同(或不相关)
群间距离最大化
簇内距离被最小化
聚类分析的应用
理解
用于浏览的组相关文档,具有类似功能的组基因和蛋白质,或具有相似价格波动的组股票
总结
减少大型数据集的大小
在澳大利亚聚集降水
什么不是集群分析?
监督分类
有类标签信息
简单分割
按姓氏按字母顺序将学生分成不同的注册组
查询的结果
分组是外部规范的结果
图分区
一些相互关联和协同,但领域不相同
集群的概念可能是模糊的
有多少个集群?
四个集群
两个集群
六个集群
集群类型
聚类是一组聚类
分层和分区集群之间的重要区别
部分聚类
将数据对象划分成非重叠子集(聚类),使得每个数据对象恰好在一个子集中
分层聚类
组织为分层树的一组嵌套集群
分割聚类
原始的点
分割聚类
层次聚类
传统分层聚类
非传统的分层聚类
非传统树状图
传统树图
群集集之间的其他区别
独占与非独占
在非排他性聚类中,点可以属于多个聚类
可以表示多个类或“边界”点
模糊与非模糊
在模糊聚类中,一个点属于每个聚类,其权重在0和1之间
权重必须为1
概率聚类具有类似的特征
部分与完整
在某些情况下,我们只想聚集一些数据
非均质对均质
集群的大小,形状和密度大不相同
集群类型
分离良好的集群
基于中心的集群
连续簇
基于密度的聚类
属性或概念
由目标函数描述