1 / 15
文档名称:

K-Means聚类算法.docx

格式:docx   页数:15页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

K-Means聚类算法.docx

上传人:tswng35 2016/3/7 文件大小:0 KB

下载得到文件列表

K-Means聚类算法.docx

文档介绍

文档介绍:算法思想 K均值是一种基于划分的聚类方法,以 k为参数,把 n个对象分为 k个簇, 使得类内具有较高的相似度,而类间的相似度最低。相似度的计算根据一个簇中对象的平均值(被看作簇的中心)来进行。 K均值算法首先选择 k个对象,每个对象初始地代表了一个簇中心。对剩余的每个对象,根据其与各个簇中心的距离, 将它赋给最近的簇,然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。 Miner K 均值模型创建第一步选择数据表选择用于建模的数据表(数据表的记录数必须大于等于 10)。这里,选择数据源表中的“客户数据”,如图 -54 ,详细说明参照 节的操作流程第一步。图 -1 数据源点击下一步跳转至建模参数设置页面。第二步设置建模参数设置建模参数。整列为空、整列取值相同的字段、日期字段以及分类数大于 1000 的字符字段为必须排除字段。这里,排除字段“客户 ID”等设置如图 - 2 所示。详细说明参照 节的操作流程第二步建模参数设置。图 -2 建模设置第三步设定高级参数点击显示参数设定按钮,进行高级参数设置。主要对数据预处理和算法参数进行设置。图 -3 参数设置数据预处理:详细说明参考 节属性筛选算法, 本次建模未进行预处理设置。算法参数: 详见本节的算法参数设置。第四步提交任务参数设置完毕后,点击提交按钮,完成建模任务。算法参数设置算法参数说明聚类簇数:聚类簇数的设置包括自动寻优和自定义两种。(1 )自动寻优:按照选定的最优聚类的评估指标,以及聚类簇数的最大值和最小值由算法自动寻找聚类的最优簇数。 A) 最优聚类的评估指标包括五种:似然对数、 Jump 、Gap 、Hartigan 和 Calinski-Harabasz 。算法根据用户选定的最优聚类评估指标计算最优的聚类簇数,并用此聚类簇数建立聚类模型,同时也会计算出选定的附加分析指标对应的最优聚类簇数供用户进行参考。 B )最小聚类簇数:最优分群数搜索时的最小分群数,默认值为 1 ,取值范围为 1 ~min{46, 记录数-6} 的整数。 C)最大聚类簇数:最优分群数搜索时的最大分群数,默认值为 10,取值范围为 5 ~min{50, 记录数-2} 的整数, 最大聚类簇数与最小聚类簇数之差要大于等于3。D )寻优数据随机抽样:当记录数大于等于 10000 时,在寻找最优聚类簇数时要进行数据抽样,记录数小于 10000 时此功能不可使用。抽样方式有两种:按记录数和按百分比。按记录数抽样时需设置抽样的数目,按百分比抽样时设置抽样的百分比。(2 )自定义:设定所需要的聚类数目。聚类簇数的默认值为 5 ,即把数据集聚为5类;聚类簇数应设置 2 ~50 之间的整数; 是否计算线箱图: 默认不计算。随机数种子:选取初始质心的随机种子,应设置正整数; 最大迭代次数: 用于控制算法的最大循环次数, 即使算法不收敛,当循环到最大迭代次数时算法停止计算,并返回当前聚类结果; 挖掘单元数:对于可以并行的算法, 若存在多个挖掘单元进行并行计算,可以很大程度上缩短算法建模时间,建议存在多个计算资源、建模数据量非常大时设置大于 1的值。并行线程数: 共享内存并行线程数。 Miner K 均值模型查询第一步选择模型从模型列表中选择要查询的模型。这里选择模型列表中的“客户数据_K 均值”模型,如图 -4 所示。详细说明参照 节的第一步。图 -4 模型状态点击查询按钮,跳转至查看建模参数信息页面。第二步查看模型信息查看模型信息,包括模型基本信息,预处理参数和算法参数,如图 -5 所示。下面分别介绍三个选项卡中的内容。图 -5 模型基本信息 1. 模型基本信息: 点击排除字段的显示按钮,显示建模时排除的字段信息,如图 -6 所示。图 -6 排除字段点击“请选择要查看的信息”下拉按钮可以查看“线箱图”、“强、弱势分布雷达图”和“聚类分群特征表”的详细信息,如图 -7 所示。图 -7 模型信息查看选择(1) 线箱图(选择计算线箱图时才有此项) 选择下拉列表框中的“线箱图”,设置查看的字段“年龄”,点击线箱图按钮可查看该字段的线箱图,设置如图 -8 所示,线箱图如图 -9 所示,操作说明参照查询 节的第三步查看线箱图。图 -8 选择线箱图字段图 -9 年龄字段线箱图(2) 强、弱势分布雷达图展示通过雷达图可直观的观看每一个聚类中心的所有字段的分布情况。选择图 -7 中下拉列表框的“强、弱势分布雷达图展示”,弹出字段选择页面,可以选择展示哪些字段的强、弱势分布雷达图,字段选择设置如图 -1 0 所示,点击