文档介绍：Clementine 聚类
【流10().str】
K-Means聚类的应用示例
这里,以我国31个省市自治区2008年各地区经济发展的数据为例,讨论K-Means的具体操作。文件名为K-,它是一个SPSS类型文件。变量x1至x11依次表示:人口数及分性别人口数,反映各地的人口水平;出生预期寿命和每万人平均病床数,反映各地区人民健康水平;大专以上文化程度人口比例反映各地区的教育水平;人均GDP、第三产业增加值占GDP比例、人均道路面积、省会城市空气质量达到并好于二级的天数以及人均环境污染治理投资额,反映各地区的经济发展和社会环境水平等。分析目标是,根据所给变量,研究我,分析哪些省市自治区处在相同的发展结构水平上。
通过SPSS File节点读入数据,连接类型(Type)节点,指定地区角色为无(None),其他聚类变量角色为输入(In);选择建模(Modeling)卡中的K-Means节点并将其连接到类型(Type)节点的后面。右击鼠标,选择弹出菜单中的编辑(Edit)选项进行参数设置,显示的窗口如图10-2 (a)所示。
图10-2 (a)中具体参数设置如下。
●聚类数(Number of clusters)框:指定聚类数目。默认为5,这里指定为4类。
●生成距离字段(Generate distance field)选项:选中表示将输出各样本与所属类中心点的距离。
●显示聚类相似度(Show cluster proximity)选项:选中表示将输出各个类中心点间的距离。
●聚类标签(Cluster label)选项:选择字符串(String)表示聚类结果以字符形式给出,且以标签前缀(Label prefix)框中给定的字符开头,后面加表示类的数字,如聚类-1(Cluster-1)、聚类-2(Cluster-2)等;选择数值(Number)表示聚类结果以数字形式输出。

(a)参数设置窗口(b) 专家(Expert)选项卡
图10-2 K-Means的参数设置窗口及其专家(Expert)选项卡
图10-2 (b)中具体参数设置如下。
●简单(Simple)选项:表示按默认的参数进行聚类。选中专家(Expert)选项可以调整参数。
●停止(Stop on)选项:选中自定义(Custom)选项可修改迭代终止的条件。其中, 在最大迭代数(Maximum Iterations)框中指定最大迭代次数,当迭代次数等于该值时停止聚类;或在更改容忍度(Change Tolerance)框中指定一个值,当最大的类中心偏移量小于该值时停止聚类,满足两个条件中的一个即停止聚类。
●集合编码值(Encoding value for sets):选中表示对多分类型变量重新编码后,调整其权重。默认应与数值型变量权重相同,, 。用户可以调整该值,但不合理的值将使聚类结果产生偏差。
本例的聚类结果如图10-3 (a)所示。
分析结果显示了4类所包括的样本量(这里分别为2、10、15、4个样本)、各变量的均值和标准差。如果聚类变量是分类型的,则显示各类别的百分比;相似度(Proximities)是本类