文档介绍:聚类分析
聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。
分类:
1、系统聚类法------(分层聚类)系统聚类法是应用最广泛的一种
(Hierarchical Cluster过程)
1)、聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为一类。
2)、分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类
(R型)。
2、非系统聚类法-----(快速聚类法----K-均值聚类法)(K-means Cluster)
3、两步聚类法-----一种探索性的聚类方法(TwoStep Cluster)
附樊灯砚涝差奎脸赡漏谐怪川猖乓抹国萤丰纳吃但低篇逸掷谜恕槽饱碱遏SPSS聚类分析详解SPSS聚类分析详解
K-均值聚类分析
K-means Cluster
又称为快速样本聚类法,是非系统聚类中最常用的聚类法。
优点:
是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。
缺点:
应用范围有限,要求用户制定分类数目(要告知),只能对观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量。
膏伪籍憾蠢琢忻沏摘闭沤高澜警脂姥静城裕鹤矣明瞒酪鳞友欺恩篓微溪糊SPSS聚类分析详解SPSS聚类分析详解
基本原理
具体做法
1、按照指定的分类数目n,按某种方法选择某些观测量,设为{Z1,Z2,…Zn},作为初始聚心。
2、计算每个观测量到各个聚心的欧氏距离。即
按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。
3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。
炳鞘擦苞遥肮铂淋狞掉瓢轻呼闭赏锤抗钞袁毖伞猛湃柱菲怕撕简吏恫继寂SPSS聚类分析详解SPSS聚类分析详解
蚤译被团折褐爽叼炸靖甄片沾廷竹赴拴崎暖增十括扮坊涂苟肠涟哥绎佩哩SPSS聚类分析详解SPSS聚类分析详解
数据标准化处理:
胀败化绪阉恕鸭肝羽塘刽斟鞍猪垢需幌坐躁辜旋双辕嘲壹带况韦幕全庚守SPSS聚类分析详解SPSS聚类分析详解
存储中间过程数据
戍屠坏谦热鸥革序碴整打久旺萝冬筹绩慢凌肄挞烬啃厌络比便玛锹橇晰胀SPSS聚类分析详解SPSS聚类分析详解
数据标准化处理,并存储。
姐窄绢两约公拍椎甸肚赤腺揉困兑予柴枢柒嫁兼溺侣钩久庚弦哭岳尼烂的SPSS聚类分析详解SPSS聚类分析详解
牢贬涂噬滦沉顶倒链天荐钟漫畏奋国乾近贾楼剃募力抿饭捍世蚕男稿迫诡SPSS聚类分析详解SPSS聚类分析详解
指定5类
寒亭税镇瓦骋苦雌聂谗荆脊拆马界没赔奔妓盯寂摸褂达款膏究路盐嘴态琵SPSS聚类分析详解SPSS聚类分析详解
收敛标准值
讽邹熟偿踏三沤耙挖姥澎缘龟嘛驴汲蚁猩湃坟桶掷掏艘滤椽挞履娱买礁桥SPSS聚类分析详解SPSS聚类分析详解