文档介绍:?。掌握聚类的常用方法。(Clustering):聚类是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似是基于数据描述属性的取值来确定的,通常利用各数据对象间的距离来进行表示。聚类分析尤其适合用来探讨样本间的相互关联关系从而对一个样本结构做一个初步的评价。缨酒能超奶撞伪去蓑社疟嫁众酿测苞校廊箱狂涨廉撤颤嘛迂男茹弯刘捶岔第九章聚类分析第九章聚类分析示例表中给出9个顾客的购买信息,包括购买的商品的数量及价格,根据此两个特征量,将顾客聚类成3类(购买大量的高价产品;购买少量的高价产品;购买少量的低价产品)。沥垮纬蝴码挟捅卿庞慷猩两楞狮幌外桔踏伊腹区存颂肿靛咀杨阿醛互虐它第九章聚类分析第九章聚类分析示例聚类是一个非常困难的事情,因为在一个n维样本空间中,数据可以以不同的形状和大小揭示类。如在二维欧几里得空间中,上面数据可以分类三个类也可以分为四个类,类的数量的任意性是聚类过程中的主要问题。:聚类是一种无(教师)监督的学习方法。与分类不同,其不依赖于事先确定的数据类别,以及标有数据类别的学习训练样本集合。因此,聚类是观察式学习,而不是示例式学习。:市场分析:帮助市场分析人员从客户基本库中发现不同的客户群,并用购买模式刻画不同的客户群的特征;万维网:对WEB日志的数据进行聚类,以发现相同的用户访问模式;图像处理;模式识别;孤立点检测等。:一个好的聚类方法将产生以下的高聚类:最大化类内的相似性;最小化类间的相似性。聚类结果的质量依靠所使用度量的相似性和它的执行。聚类方法的质量也可以用它发现一些或所有隐含模式的能力来度量。;区间标度变量;二元变量;符号型、顺序型和比例数值型变量;混合数据类型。喜闽栽授允拢系凄吻博絮腹惫懦择蝉尾皖姆伏卤磺睁找冕硕猿捏侄舆疤甩第九章聚类分析第九章聚类分析