1 / 30
文档名称:

第九讲聚类分析.ppt

格式:ppt   大小:2,673KB   页数:30页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第九讲聚类分析.ppt

上传人:文库新人 2022/3/17 文件大小:2.61 MB

下载得到文件列表

第九讲聚类分析.ppt

相关文档

文档介绍

文档介绍:第九讲聚类分析
现在学****的是第1页,共30页
方法原理
按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。
为了得到比较合理的分类,首先要采用适当的指标来定量地吸引客户使用更多的服务。关于客户服务使用情况的标准变量包含在数据〈〉中,请使用快速聚类法对客户进行聚类。
zlnlong~ zlnwire、zmultlin~ zebill
注意类别数、分类结果的实际应用。
现在学****的是第16页,共30页
大客户:购买很多服务
中等客户:主要使用“calling”服务
小客户:使用很少的服务,或者不购买任何服务
现在学****的是第17页,共30页
惨了,近一半的客户属于价值非常小的客户。能不能从这群人中找到一些相对来说价值比较大的客户呢?
现在学****的是第18页,共30页
发现一类具有潜在价值的客户:购买网络服务
寻找到25%的潜在客户!
现在学****的是第19页,共30页
练****br/>、gloss、opacity三个变量的取值将20个样本分为三类
方差分析表,剔除无用变量
均数描述和均数图,考察变量在各组间的均值变化情况
按姿势蝶泳、仰泳、蛙泳、自由泳四类对游泳运动员进行分类。数据〈〉
现在学****的是第20页,共30页
Hierarchical Cluster过程
属于系统聚类法的一种
其聚类过程可以用树形结构(treelike structure)来描绘的方法
方法原理
先将所有n个变量/观测看成不同的n类
然后将性质最接近(距离最近)的两类合并为一类
再从这n-1类中找到最接近的两类加以合并
依此类推,直到所有的变量/观测被合为一类
使用者再根据具体的问题和聚类结果来决定应当分为几类
现在学****的是第21页,共30页
Hierarchical Cluster过程
特点
一旦记录/变量被划定类别,其分类结果就不会再进行更改
可以对变量或记录进行聚类
变量可以为连续或分类变量
提供的距离测量方法非常丰富
运算速度较慢
现在学****的是第22页,共30页
Hierarchical Cluster过程
分析实例:
,对售价在10万以上的汽车进行分类。
type=0, sales>100
现在学****的是第23页,共30页
Hierarchical Cluster过程
分析实例:
电信服务提供商希望了解客户对于各种服务的使用情况,如果能够对服务进行分类,他们就可以将服务进行打包,推出更有吸引力的服务。服务的使用情况包含在数据〈〉中,请使用系统聚类法来研究不同类型的服务之间的关系。
对变量进行聚类
Toll free service ~ Wireless service 、 Multiple lines ~ Electronic billing
冰柱图的解读
现在学****的是第24页,共30页
需要注意的问题
距离测量方法
使用默认值即可
变量选择
无关变量有时会引起严重的错分
应当只引入在不同类间有显著差别的变量
尽量只使用相同类型的变量进行分析
使用连续变量,将分类变量用于结果解释
新的聚类方法可以同时使用这些变量
现在学****的是第25页,共30页
需要注意的问题
共线性问题
对记录聚类结果有较大的影响
相当于某个变量在聚类中的权重大于其它变量
最好先进行预处理
变量的标准化
变量量纲/变异程度相差非常大时需要进行
数理统计算法上要求一律标准化
标准化后会削弱有用变量的作用
现在学****的是第26页,共30页
需要注意的问题
异常值
影响较大
还没有比较好的解决办法
尽力避免
分类数
从实用角度讲,2~8类比较合适
专业意义
一定要结合专业知识进行分析
现在学****的是第27页,共30页
需要注意的问题
其他方面
聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析
聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响
不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解
现在学****的是第28页,共30页
总结
内容\方法
TwoStep
K-Means
Hierarchical
聚类对象
记录
记录
记录、变量
变量类型
连续变量、分类变量
连续变量
连续变量、分类变量
样本量
大样本
(>1000)
大样本
(>1000)
小样本