1 / 4
文档名称:

聚类算法.doc

格式:doc   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类算法.doc

上传人:xxj16588 2016/5/31 文件大小:0 KB

下载得到文件列表

聚类算法.doc

相关文档

文档介绍

文档介绍:聚类算法聚类( Cluster ) 分析是由若干模式( Pattern ) 组成的, 通常, 模式是一个度量( Measurement )的向量,或者是多维空间中的一个点。聚类分析以相似性为基础, 在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。概述俗话说:“物以类聚, 人以群分”, 在自然科学和社会科学中, 存在着大量的分类问题。所谓类,通俗地说,就是指相似元素的集合。聚类分析又称群分析, 它是研究( 样品或指标) 分类问题的一种统计分析方法。聚类分析起源于分类学, 在古老的分类学中, 人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展, 对分类的要求越来越高, 以致有时仅凭经验和专业知识难以确切地进行分类, 于是人们逐渐地把数学工具引用到了分类学中, 形成了数值分类学, 之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。对聚类的典型要求如下可伸缩性许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好; 但是, 一个大规模数据库可能包含几百万个对象, 在这样的大数据集合样本上进行聚类可能会导致有偏的结果。我们需要具有高度可伸缩性的聚类算法。处理不同类型属性的能力许多算法被设计用来聚类数值类型的数据。但是, 应用可能要求聚类其他类型的数据,如二元类型(binary) ,分类/ 标称类型( categorical/nominal ), 序数型( ordinal ) 数据, 或者这些数据类型的混合。发现任意形状的聚类许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是, 一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。用于决定输入参数的领域知识最小化许多聚类算法在聚类分析中要求用户输入一定的参数, 例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定, 特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。处理“噪声”数据的能力绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。对于输入记录的顺序不敏感一些聚类算法对于输入数据的顺序是敏感的。例如, 同一个数据集合, 当以不同的顺序交给同一个算法时,可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的意义。高维度( high dimensionality ) 一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算法擅长处理低维的数据, 可能只涉及两到三维。人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的, 特别是考虑到这样的数据可能分布非常稀疏, 而且高度偏斜。基于约束的聚类现实世界的应用可能需要在各种约束条件下进行聚类。假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置, 为了作出决定,你可以对住宅区进行聚类,同时考虑如城市的河流和公路网,每个地区的客户要求等情况。要找到既满足特定的约束, 又具有良好聚类特性的数据分组是一项具有挑战性的任务。可解释性和可用性用户