1 / 23
文档名称:

空间聚类分析.docx

格式:docx   大小:319KB   页数:23页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

空间聚类分析.docx

上传人:fangjinyan201701 2021/12/31 文件大小:319 KB

下载得到文件列表

空间聚类分析.docx

文档介绍

文档介绍:
11
1空间聚类的内涵理解
定义
空间聚类作为聚类分析的一个研究方向,是指将空间数据集中的对象分成由相似对象 组成的类。同类中的对象间具有较高的相似度,而不同类中的对象间差 异较大⑻。作为一 种无监督的学****方法,空间聚类不需要任何先验知识。这是聚 类的基本思想,因此空间聚类 也是要满足这个基本思想。
对空间数据聚类的要求[2]⑸(6)
①可伸缩性;
许多聚类算法在小于200个数据对象的小数据集合上工作得很好"旦是,一个大规模 数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结 果。我们需要具有高度可伸缩性的聚类算法。
②发现任意形状的聚类;
许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。 基于这样的距
离度量的算法趋向于发现具有相近尺度和密度的球状簇。 但是,一个簇可能是任
意形状的。提出能发现任意形状簇的算法是很重要的。 (虽然聚类分析属于非监
督学****方法,但在某些情况下一些基本的客观规律也会或多或少指示聚类分析的结果)
③用于决定输入参数的领域知识最小化;
许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚 类结果对于输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来 说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。

12
④对噪声数据不敏感;
绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。一些聚

22
类算法对于这样的数据敏感,可能导致低质量的聚类结果。
⑤对于输入记录的顺序不敏感;
一些聚类算法对于输入数据的顺序是敏感的。例如,同一个数据集合,当以不同的顺 序交给同一个算法时,可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具 有重要的意义。
⑥处理高维数据;
一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算法擅长处理 低维的数 据,可能只涉及两到三维。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在 高维空间中聚类数据对象是非常有挑战性的, 特别是考虑到
这样的数据可能分布非常稀疏,而且高度偏斜。
2空间聚类的主要算法
空间聚类的主要方法有五大类:划分聚类算法、层次聚类算法、基于密度的
[2][3]

23
划分聚类算法
主要包括:K-means K-medoids、PAM CLARA K-模、K-原型、EM 和 CLARANS

33
等。基本思想:给定一个包含n个对象或数据的集合,将数据集划分为k个子集,其中每个 子集均代表一个聚类(k < n),划分方法首先创建一个初始划分,然后利用循环再定位技术, 即通过移动不同划分中的对象来改变划分内容。
典型的算法说明:K-means算法是首先从n个数据对象随机地选择k个对象,每个对 象初始地代表了一个簇中心,对剩余的每个对象,根据其与各个簇中心的距离,将它赋给 最近的簇,然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛(说明: 一般都采用均方差作为标准测度函数) 。特点:各聚
类本身尽可能的紧凑,而各聚类之间尽可能的分开,这个特点正是聚类的最根本的实质要求 ⑷。但是K-mean也有其缺点:产生类的大小相差不会很大,对于脏数据很敏感。而在这 一点上,K-medoids做出了相应的改进,K-medoids不采用聚 类中对象的平均值作为参照 点,而选用聚类中位置最中心的对象, 即中心点,仍
然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。
层次聚类算法
层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行聚类的,层次聚 类方法又可分为自顶向下的分裂算法和自底向上的凝聚算法两种。
分裂聚类算法,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到 每个对象自成一簇,或者达了某个终结条件,这里的终结条件可以是簇的数目,或者是进行 合并的阈值。而凝聚聚类算法正好相反,首先将每个对象作为一个簇,然后将相互邻近的合 并为一个大簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。
CURE(clustering using representatives)算法采取随机取样和划分相结合的方法: 一个随机样本首先被划分,每个划分被局部聚类,最后把每个划分中产生的聚类结果用层次 聚类的方法进行聚类。较好的解决了偏好球形和相似大小的问题,在处理孤立点时也更加 健壮。
CHAMELEON(hierarchical clusteri ng usi ng dyn amic mod