1 / 41
文档名称:

聚类分析.ppt

格式:ppt   大小:827KB   页数:41页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析.ppt

上传人:核辐射 2022/6/25 文件大小:827 KB

下载得到文件列表

聚类分析.ppt

文档介绍

文档介绍:聚类分析
二、聚类标准
输入模式可用向量表示,比较不同模式的相似性可转化为比较两个向量的距离,因而可用模式向量间的距离作为聚类判据。
传统模式识别中常用到的两种聚类判据是欧式最小距离法和余弦法
2022/6/25
8
《医学信间重叠,并且允许模糊的边界。
2022/6/25
26
《医学信息分析与决策》课程组
四、EM算法
EM算法的步骤:估计步骤(Estimate)和最大化步骤(Maximize),EM算法的名字由这两个步骤的英文单词的第一个字母组成。具体情况如下:
令D={x(1),…, x(n)}为n个观察到的数据向量。设H={z(1),…, z(n)}表示隐藏变量z的n个值,与观察到的数据点D一一对应
观察到数据的对数似然函数为:
2022/6/25
27
《医学信息分析与决策》课程组
四、EM算法
2022/6/25
28
《医学信息分析与决策》课程组
四、EM算法
EM算法在以下两者间交替:固定参数θ,使F相对于分布Q最大化;固定分布Q=p(H),使F相对于参数θ最大化。具体分为如下两个步骤:
2022/6/25
29
《医学信息分析与决策》课程组
五、案例分析
对某城市年龄范围为25岁~55岁的中青年人群进行调查。各属性的含义如下:
属性
含义
属性
含义
属性
含义
ID
主键
Tiredness
熬夜
familial medical history
家族心血管病史
Sex
性别
Exercise
运动锻炼****惯
fatness
肥胖情况
Age
年龄
Diet
个人饮食偏好
hypertension
血压
Profession
工作压力状况
sitting-up
早起****惯
blood sugar
血糖
Marital Status
婚姻状况
petting
养宠物
blood fat
血脂
Own car
是否有车
drink
喝酒
diabetes
糖尿病
Emotion
情绪状态
smoking
吸烟
coronary heart disease
冠心(心脏)病
2022/6/25
30
《医学信息分析与决策》课程组
五、案例分析
2022/6/25
31
《医学信息分析与决策》课程组
五、案例分析
Microsoft聚类分析通过其查看器来解释,SQL Server Analysis Server提供的聚类分析查看器有4个选项卡。聚类之间是相互联系的,通过单独的某一个视图难以理解挖掘模型,但可以同时使用这些视图。
聚类的目的之一是给每一类贴上标签
2022/6/25
32
《医学信息分析与决策》课程组
五、案例分析
(1)获得顶层视图
血脂高的
都没有冠心病
分类1的血脂较高的人多,有冠心心脏病的人多;而分类6的血脂普遍正常,且都没有冠心病。
2022/6/25
33
《医学信息分析与决策》课程组
五、案例分析
(1)获得顶层视图
分类1
2022/6/25
34
《医学信息分析与决策》课程组
五、案例分析
(2)选择一个聚类并且找出与其它聚类之间的区别,以聚类1为例:分类特征视图,该视图通过以递减概率显示属性来描述聚类事例的特征
这个聚类的成员喜欢早起,工作强度大等,然而这些信息还不能作为该类的标识,可能其它类也喜欢早起和工作强度大
2022/6/25
35
《医学信息分析与决策》课程组
五、案例分析
点击分类对比选项卡,将分类1与它的补充进行了比较。
这里可以看到冠心病才是类1最重要的特征。
2022/6/25
36
《医学信息分析与决策》课程组
五、案例分析
(3)确定一个聚类如何区别于相邻的聚类
这个聚类可能非常相似于其它的聚类,并且在这个时候所做的标识适用于所有这些聚类。
与聚类1相似的聚类强度都不大,相对来说,与类8和类10相似性大点。通过比较类1和8,可以看出这两个聚类的重要差异是劳动强度和是否早起;通过比较类1和10,可以看出这两个聚类的重要差异是是否养宠物。
2022/6/25
37
《医学信息分析与决策》课程组
五、案例分析
(4)验证判断是否正确
通过比较聚类与其相邻的聚类,并且对聚类进行改进的时候,就有可能出现误导的情况:
两个聚类之间的差别可能是由一个属性引起的,该属性在这两个聚类中都不常见,但是在其中一个聚类中更少见。
通过对聚类1进行进一步验证,发现可以用“冠心病”标识“聚类1”,即聚类1的主要特征是有“冠心病”。
2022/6/25
38
《医学信息分析与决策》课程组
五、案例分析
(5)对聚类进行标识