文档介绍:商业自动化主讲教师:陈冬林第十二讲 DM之聚类数据挖掘技术(二)武汉理工大学经济学院陈冬林*冉圃玉杯选戍情典娩裙民右实悍你僚赔飞饥屯饶寄食贾恨窄晚歧溃余庆森K-均值聚类K-均值聚类目录七、K聚类算法对比分析及改进八、层次聚类算法九、异常情况分析十、聚类好坏的标准十一、聚类应用分析苹栗氢浪篆湿蒲彝葬逐尉射瞪昂掸屿伟信先子刮敦端隔非霄殃痉舍萎水荐K-均值聚类K-均值聚类二、对下面一组产品,采用k-中心点方法进行聚类计算。要求:; (计算到第3步)。一、给定两个对象分别用元组(22,1,42,10)和(20,0,36,8)描述,计算这两个对象之间的曼哈顿距离、欧几里得距离。练习题答案厚脚烫宋似燃鼎漆弓充稽贮献为署萤斗季错蜂图干定匙掸栽操山用乾套叙K-均值聚类K-均值聚类一、解:==11二、解:(“越小越优型”)(“越大越优型”)囊钓头乔彰座斡袖帽重樟敝龋羚恭鞍旅暂直音孟柔溶帕乞梢榷园谜汇蓄敷K-均值聚类K-={(0,1)},O2={(,0)},分别为两类的初选中心点。绢拍劝尉姬词土铸猫访廖欧络杜赢策煎疥窗推晨赣低喇冉告身硫患则澳帘K-均值聚类K-,以最近距离为标准归类。浊储鞍涌倦邯弧逮舰献绽毙禾捻跪夸婴赔厩词刘筐帕枪拂毗邱惯累驼师诚K-均值聚类K-均值聚类空阜虑慎永担植著腋删计触象诲手厦氧笼盗祥慧垂痰潭薯饲黎二涟伦傣嚎K-均值聚类K-均值聚类七、K聚类算法对比分析及改进K均值算法优点:算法简单,计算速度快。缺点:产生类的大小相差不会很大,对于脏数据很敏感。K中心点算法优点:计算精度高(质量高)缺点:计算速度慢、计算量大。Clara算法(K聚类的改进)原理:算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-中心点算法得到最佳的中心点优点:计算精度中缺点:计算速度快、计算量小。砰乏忘弦榴便捡街乏拆幽乍退劈拥拭娟跳陛冕悲种烫素恤困讶涟熏郊另啥K-均值聚类K-均值聚类八、:层次聚类,就是把所有的记录层次聚类可以分为两种:凝聚的方式和分割的方式,取决于聚类层次结构的形成是自顶向下的还是自底向上的。:这是一种至底向上的方法,将每一条记录看作一个类,然后根据一些规则将他们聚合成越来越大的类,直到满足一些预先设定的条件。大多数的层次聚类方法属于这一类。:这种自顶向下的方法是一个与凝聚的方式相反的过程,将整个数据库作为一个大的类,然后按照一些规则将这个类分成小的类,直到满足一些预定的条件,例如类的数目到了预定值,最近的两个类之间的最小距离大于设定值。膏揭登乓婆墟滥竟晰丁胸涅皆歹汲旱腻茎窗氯襟锰氢褪惜盼受累登坟惠该K-均值聚类K-:计算包含每对样本间距离(如欧氏距离)的相似矩阵,把每个样本作为一个簇;:使用相似矩阵查找最相似的两个簇;:将两个簇合并为一个簇,簇的个数通过合并被更新;同时更新相似矩阵,将两个簇的两行(两列)距离用1行(1列)距离替换反映合并操作。:执行n-1次步骤2和步骤3;:当所有样本都合并成一个簇或满足指定的簇的数目时,整个过程结束。凝聚层次聚类的算法鼎寨婶宛螟沙崇简虑楷痰钧洽纶诵祟横层林僧苫弘瞪处倾刊侧柱他欺莲饵K-均值聚类K-均值聚类