1 / 18
文档名称:

数据挖掘.ppt

格式:ppt   大小:106KB   页数:18页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘.ppt

上传人:iris028 2020/12/1 文件大小:106 KB

下载得到文件列表

数据挖掘.ppt

相关文档

文档介绍

文档介绍:基于密度的方法
计算机学院 李永东
基于密度的方法
可以发现任意形状的聚类结果
簇定义为:数据空间中被低密度区域分割开的高密度对象区
DBSCAN:一个基于高密度连 接区域的密度聚类方法(定义)
簇定义:密度相连的点的最大集合。
给定对象半径ε内的区域称为该对象的ε-邻域。
如果一个对象的ε-邻域至少包含最少数目MinPts个对象,则称该对象为核心对象。
给定一个对象集合D,如果p是在q对象的ε-邻域内,而且q是一个核心对象,称对象p从对象q出发是直接密度可达的。
DBSCAN:一个基于高密度连 接区域的密度聚类方法(定义)
如果存在对象链p1,p2…..pn,pn=q,对pi∈ D,(1≦ i≦ n),pi+1是从pi关于ε 和MinPts直接密度可达的,则对象p是从对象q关于ε 和MinPts密度可达的。
如果对象集合D中存在一个对象o,使得对象p和q是从o关于ε 和MinPts密度可达的,那么对象p和q是关于ε 和MinPts密度相连的。
DBSCAN:一个基于高密度连 接区域的密度聚类方法(操作)
DBSCAN通过检查数据库中每个点的ε-邻域来寻找聚类。如果一个点的ε-邻域包含多于MinPts个点,则创建一个以p为核心对象的的新簇。然后DBSCAN反复寻找从这些核心对象直接密度 可达的对象,这个过程可能涉及到簇的合并。当没有新的点可以被加入任何簇的时,过程结束。
不包含在任何簇的对象被认为是噪声。
OPTICS:通过对象排序识别聚类结构(概念的产生)
它其实是DBSCAN的改进,对于给定的Minpts按一定的顺序去选择ε ,可以产生一系列密度的簇类。
OPTICS:通过对象排序识别聚类结构(须要的数据)
一个对象p的核心距离是使得p成为核心对象的最小。如果p不是核心对象则p的核心距离没有定义。
一个对象q关于另外一个对象p的可达距离是的p核心距离和p与q的欧几里地距离之间的较大值。如果p不是一个核心对象,p和q之间的可达距离没有定义。
OPTICS:通过对象排序识别聚类结构(值的使用)
可基于OPTICS产生信息的次序来抽取聚类。对于小于生产次序中采用的距离ε的任何距离ε1 是是有效的,足够的。
DENCLUE:基于密度分布的聚类(主要思想)
每个数据点的影响可以用一个数学函数形式化地模拟,它描述一个数据点在邻域内的影响,称为影响函数。(influence function);
数据空间的整体密度可以模型化为所有数据的点的影响函数的总和。
然后聚类可以通过确定密度吸引点来得到,这里的密度吸引点(density attractor)是全局函数的局部最大。
DENCLUE:基于密度分布的聚类(影响函数)
基本影响函数
方波影响函数
高斯影响函数