1 / 80
文档名称:

2021年度数据分析和软件应用聚类分析讲义.ppt

格式:ppt   大小:968KB   页数:80页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2021年度数据分析和软件应用聚类分析讲义.ppt

上传人:读书之乐 2021/1/31 文件大小:968 KB

下载得到文件列表

2021年度数据分析和软件应用聚类分析讲义.ppt

相关文档

文档介绍

文档介绍:系统聚类分析(Hierarchical Cluster过程) :直观,易懂。
快速聚类(K-means Cluster过程):
快速,动态。
有序聚类:保序(时间顺序或大小顺序)。
聚类分析方法
数据分析和软件应用聚类分析
2021/1/31
1
例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行归类。
应聘者
1
2
3
4
5
6
7
8
9
10
X
28
18
11
21
26
20
16
14
24
22
Y
29
23
22
23
29
23
22
23
29
27
Z
28
18
16
22
26
22
22
24
24
24
§1 什么是聚类分析
数据分析和软件应用聚类分析
2021/1/31
2
数据分析和软件应用聚类分析
2021/1/31
3
数据分析和软件应用聚类分析
2021/1/31
4
我们直观地来看,这个归类是否合理?
计算4号和6号得分的离差平方和:
(21-20)2+(23-23)2+(22-22)2=1
计算1号和2号得分的离差平方和:
(28-18)2+(29-23)2+(28-18)2=236
计算1号和3号得分的离差平方和为482,由此可见一般,归类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。
由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?
数据分析和软件应用聚类分析
2021/1/31
5
聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类。
例如对上市公司的经营业绩进行聚类;又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。
数据分析和软件应用聚类分析
2021/1/31
6
思考:样本点之间按什么刻画相似程度
思考:样本点和小类之间按什么刻画相似程度
思考:小类与小类之间按什么来刻画相似程度
数据分析和软件应用聚类分析
2021/1/31
7
一、变量测量尺度的类型
变量按照测量它们的尺度不同,可以分为三类。
(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。
§2 相似性度量
数据分析和软件应用聚类分析
2021/1/31
8
(2)顺序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。
数据分析和软件应用聚类分析
2021/1/31
9
(3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,人口性别的男和女,市场交易中的买和卖等都是此类变量。
数据分析和软件应用聚类分析
2021/1/31
10