1 / 43
文档名称:

统计分析聚类分析.ppt

格式:ppt   大小:2,250KB   页数:43页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

统计分析聚类分析.ppt

上传人:卓小妹 2022/5/3 文件大小:2.20 MB

下载得到文件列表

统计分析聚类分析.ppt

文档介绍

文档介绍:统计分析聚类分析
第1页,共43页,编辑于2022年,星期二
SPSS的聚类分析
第2页,共43页,编辑于2022年,星期二
聚类分析概述
概念:
聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析2年,星期二
二值变量型个体间的距离
根据临床表现研究病人是否有类似的病
姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4
张三 男 1 0 1 0 0 0
李四 女 1 0 1 0 1 0
王五 男 1 1 0 0 0 0
……..
聚类分析概述
第16页,共43页,编辑于2022年,星期二
二值变量型个体间的距离
雅科比(Jaccard)系数:适用二值变量
个体j
个体i
1 0
1 a b
0 c d
a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数
特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化
聚类分析概述
第17页,共43页,编辑于2022年,星期二
雅科比(Jaccard)系数:适用二值变量
(两种编码比较)
姓名 授课方式 上机时间 选某门课程
张三 1 (0) 1(0) 1(0)
李四 1 (0) 1(0) 0(1)
王五 0 (1) 0(1) 1(0)
(张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
(张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同)
(张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3
(张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同)
聚类分析概述
第18页,共43页,编辑于2022年,星期二
品质型个体间的距离
Jaccard系数举例:根据临床表现研究病人是否有类似的病
姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4
张三 男 1 0 1 0 0 0
李四 女 1 0 1 0 1 0
王五 男 1 1 0 0 0 0
……..
结论:张三和李四最有可能得类似的病;李四和王五最不太有可能得
聚类分析概述
第19页,共43页,编辑于2022年,星期二
二值变量型个体间的距离
卡方距离:计数变量
聚类分析概述
姓名
选修课门数(期望频数)
专业课门数(期望频数)
得优门数(期望频数)
合计
张三
9()
6(6)
4()
19
李四
8()
6(6)
5()
19
合计
17
12
9
38
第20页,共43页,编辑于2022年,星期二
聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如:

样本的欧氏距离
元 万元
(1,2) 265000
(1,3) 218000
(2,3) 47000
聚类分析概述
第2