1 / 14
文档名称:

空间聚类分析.docx

格式:docx   大小:391KB   页数:14页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

空间聚类分析.docx

上传人:飞鱼2019 2022/2/22 文件大小:391 KB

下载得到文件列表

空间聚类分析.docx

相关文档

文档介绍

文档介绍:1空间聚类的内涵理解
定义
空间聚类作为聚类分析的一个研究方向,是指将空间数据集中的对象分成由相似对象组成的类。同类中的对象间具有较高的相似度,而不同类中的对象间差异较大[3]。作为一种无监督的学****方法,空间聚类不需要任何先验知识。这是好球形和相似大小的问题,在处理孤立点时也更加健壮。
CHAMELEON(hierarchicaClusteringusingdynamicmodeling)算法的主要思想是首先使用图划分算法将数据对象聚类为大量相对较小的子类,其次使用凝聚的
层次聚类算法反复地合并子类来找到真正的结果类0
CHAMELEON算法是在
CURE等算法的基础上改进而来,能够有效的解决CUR©算法的问题
基于密度的方法
绝大多数划分方法基于对象之间的距离进行聚类,这样的方法只能发现球状的类。因此,出现了基于密度的聚类方法,其主要思想是:只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类,这样的方法可以过滤“噪声”数据,发现任意形状的类。从而克服基于距离的方法只能发现类圆形聚类的缺点。代表性算法有:DBSCAN算法、OPTICS算法、DENCLUE法等。
DBSCAN(densitybasedspatialclusteringofapplicationswithnoised法可以有效地发现具有任意形状的类,并正确地处理噪声数据。除此之外,该算法还具有实现简单、聚类效果较好等优点。该算法对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目,即DBSCANM法将聚类定义为基于密度可达性最大的密度相连对象的集合。另外不进行任何的预处理而直
接对整个数据集进行聚类操作。
OPTICSJJ法是一种基于类排序方法。该算法并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。这个顺序代表了数据的基于密
度的聚类结构。
DENCLUE算法是一个基于一组密度分布函数的聚类算法。该算法主要基于下面的想法:(1)每个数据点的影响可以用一个数学函数来形式化地模拟,它描述了一个数据点在领域内的影响,被称为影响函数;(2)数据空间的整体密
度可以被模型化为所有数据点的影响函数的总和;(3)聚类可以通过确定密度
吸引点来得到,这里的密度吸引点是全局密度函数的局部最大。
基于网格法
主要思想是将空间区域划分若干个具有层次结构的矩形单元,不同层次的单
元对应于不同的分辨率网格,把数据集中的所有数据都映射到不同的单元网格
中,算法所有的处理都是以单个单元网格为对象,其处理速度要远比以元组为处
理对象的效率要高的多。代表性算法有:STINGJ法、CLIQUE算法、WAVE-CLUS
TER算法等。
STING(statisticalinformationgrid)算法首先将空间区域划分为若干矩形单元,这些单元形成一个层次结构,每个高层单元被划分为多个低一层的单元。单
元中预先计算并存储属性的统计信息,高层单元的统计信息可以通过底层单元计算获得。这种算法的优点是效率很高,而且层次结构有利于并行处理和增量更新;其缺点是聚类的边界全部是垂直或是水平的,与实际情况可能有比较大的差别,影响聚类的质量。
CLIQUE(clusteringinques鲫法综合了基于密度和基于网格的聚类方法。其主
要思想是将多维数据空间划分为多个矩形单元,通过计算每一个单元中数据点中
全部数据点的比例的方法确定聚类。具优点是能够有效处理高维度的数据集,缺
点是聚类的精度有可能会降低。
WaveCluster(clusteringusingwavelettransformation)算法是——种采用/」、波变换的聚类方法。其首先使用多维数据网格结构汇总区域空间数据,用多维向量空
间表示多维空间中的数据对象,然后使用小波变换方法对特征空间进行处理,发
现特征空间中的稠密区域。最终通过多次小波变换,获得多分辨率的聚类。
基于模型法
给每一个聚类假定一个模型,然后去寻找能够很好地满足这个模型的数据集。常用的模型主要有两种:一种是统计学的方法,代表性算法是COBWEB算
法;另一种是神经网络的方法,代表性的算法是竞争学****算法。COBWEB算法
是一种增量概念聚类算法。这种算法不同于传统的聚类方法,它的聚类过程分为两步:首先进行聚类,然后给出特征描述。因此,分类质量不再是单个对象的函数,而且也加入了对聚类结果的特征性描述。竞争学****算法属于神经网络聚类。
它采用若干个单元的层次结构,以一种“胜者全取”的方式对系统当前所处理的对象进行竞争
3空间聚类分析的实现
空间聚类分析可以分为基于点和基于面两种方法。基于点的方法需要时间准
确的地理位置,基于面的的方法是运用其区域内