文档介绍:该【聚类分析 】是由【非学无以广才】上传分享,文档一共【46】页,该文档可以免费在线阅读,需要了解更多关于【聚类分析 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。37
1
第十九章 聚类分析 (clustering analysis)
37
2
鉴别分析:在已知分为若干个类的前提下,获得鉴别模型,并用来判定观测对象的归属。 聚类分析:将随机现象归类的记录学措施,在不懂得应分多少类合适的状况下,试图借助数理记录的措施用已搜集到的资料找出研究对象的合适归类措施。已成为发掘海量基因信息的首选工具。 两者都是研究分类问题的多元记录分析措施。
37
3
聚类分析属于探索性记录分析措施,按照分类目的可分为两大类。 例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类: 又称指标聚类,是指将m个指标归类的措施,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类: 又称样品聚类,是指将n个样品归类的措施,其目的是找出样品间的共性。
37
4
指标聚类
目的:把多种指标按相似程度聚成几类,每类
找一种经典指标来代表本来的多种指标。
资料规定:指标是定量的,理论上也可以所有
是定性的或等级的(要少用)效果不好。
用途:
;可与鉴别分析合用找经典指标。
37
5
样品聚类
目的:把多种样品按摄影近样品聚成几类,作分类比较研究。需要时也可每类找一种经典样品来代表各类样品。
资料规定:描述样品的指标所有定量。
用途:分类
37
6
无论是R型聚类或是Q型聚类的关键是怎样定义相似性,即怎样把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similarity coefficient)的定义。
37
7
聚类记录量
指标聚类(R型聚类)的聚类记录量:指标间的相似系数。0≤C≤1; C越大越相似。大则同类,小则异类。
(1)定量指标:用简单有关系数定义为相似系数。(定量指标包含定性指标转化成0,1变量和等级指标转化成的1,2,…变量)
(2)定性指标或等级指标(包括具有定量指标转换成的等级指标),可用列联络数定义为 和 指标的相似系数:
37
8
R型(指标)聚类的相似系数 X1,X2,…,Xm表达m个变量,R型聚类常用简单有关系数的绝对值定义变量与间的相似系数: 绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩有关系数定义非正态变量之间的相似系数。当变量均为定性变量时,最佳用列联络数定义类间的相似系数。
37
9
样品聚类(Q型聚类)的聚类记录量(相似
系数):2个样品间距离,越短越靠近,
短则同类,长则异类。
样品聚类的基本原则:把距离短的样品归在
相似类,距离长的样品归在不一样类。
37
10
Q型(样品)聚类常用相似系数 将n例(样品)当作是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。(1)欧氏距离: 欧氏距离(Euclidean distance) (2)绝对距离:绝对距离(Manhattan distance)(3)Minkowski距离:绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的长处是定义直观,计算简单;缺陷是没有考虑到变量间的有关关系。基于此引进马氏距离。