文档介绍：目录
1、聚类的相关概念 2
、聚类的概念 2
、观察学****2
、簇的概念 2
、离群点 2
、产生聚类的要求 3
2、聚类方法的分类 4
、划分方法 4
、层次方法 4
、基于密度的方法 4
、基于网格的方法 4
3、层次聚类 5
、层次聚类的目的 5
、层次聚类的分类 5
、算法方法 5
、概率方法 6
、贝叶斯方法 7
、层次聚类各种方法的比较 8
4、聚类的应用 8
、层次聚类各种方法的比较 8
、在实验市场选择中的应用 9
、在销售片区确定中的应用 9
、在市场机会研究中的应用 9
1、聚类的相关概念
、聚类的概念
聚类是一个通过观察学****把数据对象划分成子集的过程。每个子集是一个簇,是的簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称做一个聚类。
、观察学****br/> 观察学****就是无监督学****值的是设计分类器时候,用于处理未被分类标记的样本集。
、簇的概念
簇是对象的集合,这些对象彼此之间属性相似,和其他簇中的对象相异。一个数据对象簇可以整个看作一个组,因此可以看作一种数据压缩形式。
、离群点
离群点是指一个时间序列中,远离序列的一般水平的极端大值和极端小值。
、产生聚类的要求
聚类是一个富有挑战性的研究领域,对数据聚类时有一下基本要求:
可伸缩性:许多聚类算法在小于几百个数据对象的小数据集合上运行的很好,然而,大型数据库可能包含数百万甚至数十亿个对象。在大型数据集的样本上进行聚类可能会导致有偏的结果。因此,我们需要具有高度可伸缩性的聚类算法。
处理不同属性类型的能力:许多算法视为聚类数值的数据设计的。然而,应用可能要求聚类其他类型的数据,如二元数据、标称的、序列的或者这些数据类型的混合。
发现任意形状的簇:许多聚类算法基于欧几里得或者曼哈顿距离度量来确定簇。基于这些距离的算法趋向于发现具有相近尺寸和密度的球状簇。然而,一个簇可能是任意形状的。
对于确定输入参数的领域知识的要求:许多聚类算法都要求用户输入参数的形式提供领域的知识。因此,聚类结果可能对这些参数十分敏感。通常,参数很难确定,对于高维数据集和用户尚未深入理解的数据来说更是如此。要求提供专业领域知识不仅加重用户的负担,而且使得聚类质量难以控制。
处理噪声数据的能力:现实世界中的大部分数据集都包含离群点或缺失数据、未知或错误的数据。一些聚类算法可能对这样的噪声敏感,从而产生低质量的聚类结果。因此,我们需要对噪声鲁棒的聚类方法。
增量聚类和对输入次序不敏感:在许多应用中,增量更新可能随时发生。一些聚类算法不能将新插入的数据合并到已有的聚类结果中,而是需要从头开始重新聚类。一些聚类算法可能对数据数据的次序比较敏感。也就是说,对给定数据对象集合,当以不同的次序提供数据对象时,这些算法可能生成差别很大的聚类结果。
聚类高维度数据的能力:数据集可能包含大量的维和属性。许多聚类算法擅长处理低维数据,发现高维空间中数据对象的簇是一个挑战,特别是考虑这样的数据可能非常稀疏,并且高度倾斜。
基于约束的聚类:现实世界的应用可能需要在各种约束条件下