文档介绍:第二 章 聚类分析
目录
聚类分析引例和简介
常用聚类分析方法和算法
聚类分析中的数据类型及各种距离定义
聚类分析算法
R语言中的聚类分析算法实现
聚类分析引例
就餐饮企业而言,经常会碰到这样的问题:
1)如何通过餐饮客户消费行为的测量,进一步评判餐饮客户的价值和对餐饮客户进行细分,找到有价值的客户群和需关注的客户群?
2)如何合理对菜品进行分析,以便区分哪些菜品畅销毛利又高,哪些菜品滞销毛利又低?
餐饮企业遇到的这些问题,可以通过聚类分析解决。
聚类分析(Cluster analysis)介绍——定义
聚类分析:根据事物的某些方面特征把它们划分成为若干小类(或簇),使得隶属与同一类的个体具有较高的相似度或类似的性质,而不属于同一类的个体具有较低的相似度的分析过程。
问题:如何衡量所谓的“相似度”?
聚类分析中,聚类的依据以数据的形式表示,通常可以视为n维空间中的点,一般我们可以用n维空间中的两点的距离为依据来度量数据之间的相似程度。
簇(Cluster):一个数据对象的集合。
*
例子: 集群和离群值 Clusters & Outliers
x x
x x x x
x x x x
x x x
x x
x
xx x
x x
x x x
x
x x x
x
x x
x x x x
x x x
x
x
x
x x
x x x x
x x x x
x x x
x x
x
xx x
x x
x x x
x
x x x
x
x x
x x x x
x x x
x
Outlier
Cluster
常用聚类分析方法列表
常用聚类分析算法列表
两种数据结构
数据矩阵(n个样本点)
(two modes)
差异度矩阵(距离矩阵)
(one mode)