文档介绍:该【聚类分析(数学建模)公开课一等奖课件赛课获奖课件 】是由【梅花书斋】上传分享,文档一共【77】页,该文档可以免费在线阅读,需要了解更多关于【聚类分析(数学建模)公开课一等奖课件赛课获奖课件 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。聚类分析
分类
俗语说,物以类聚、人以群分。
但什么是分类的根据呢?
例如,要想把中国的县提成若干类,就有诸多种分类法;
可以按照自然条件来分,
例如考虑降水、土地、曰照、湿度等各方面;
也可以考虑收入、教育水准、医疗条件、基础设施等指标;
既可以用某一项来分类,也可以同步考虑多项指标来分类。
一、聚类分析的基本概念
研究对样品或指标进行分类的一种多元记录措施,是根据研究对象的个体的特征进行分类的措施。
聚类分析把分类对象按一定规则提成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不一样类中趋向于不相似。
职能是建立一种能按照样品或变量的相似程度进行分类的措施。
聚类分析
对于一种数据,人们既可以对变量(指标)进行分类(相称于对数据中的列分类),也可以对观测值(事件,样品)来分类(相称于对数据中的行分类)。
例如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,
当然,并不一定事先假定有多少类,完全可以按照数据自身的规律来分类。
本章要简介的分类的措施称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不一样。
聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不一样的相似性(亲疏关系)。于是根据一批样本的多种观测指标,详细找出某些彼此之间相似程度较大的样本(或指标)聚合为一类,把此外某些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系亲密的聚合到一种小的分类单位,关系疏远的聚合到一种大的分类单位,直到把所有样本(或指标)都聚合完毕,把不一样的类型一一划分出来,形成一种由小到大的分类系统。最终把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表达出来。这种措施是最常用的、最基本的一种,称为系统聚类分析。
饮料数据( )
16种饮料的热量、咖啡因、钠及价格四种变量
怎样度量远近?
假如想要对100个学生进行分类,假如仅仅懂得他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把靠近的点放到一类。
假如还懂得他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。
三维或者更高维的状况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料均有四个变量值。这就是四维空间点的问题了。
两个距离概念
按照远近程度来聚类需要明确两个概念:一种是点和点之间的距离,一种是类和类之间的距离。
点间距离有诸多定义方式。最简单的是歐氏距离,尚有其他的距离。
当然尚有某些和距离相反但起同样作用的概念,例如相似性等,两点越相似度越大,就相称于距离越短。
由一种点构成的类是最基本的类;假如每一类都由一种点构成,那么点间的距离就是类间距离。不过假如某一类包含不止一种点,那么就要确定类间距离,
类间距离是基于点间距离定义的:例如两类之间近来点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,多种点间距离和类间距离的选择是通过记录软件的选项实现的。不一样的选择的成果会不一样,但一般不会差太多。
二、距离
用 表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件:
每个样本有p个指标,因此每个样本可以当作p维空间中的一种点,n个样本就构成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的靠近程度。
常见的距离有:
minkowski distance (明氏距离):
当 q=1 block distance 绝对值距离:
当 q=2 squared euclidean distance 平方欧式距离
ú
û
ù
ê
ë
é
-
å
=
=
p
t
q
jt
it
x
x
d
q
1
1
当q= chebychev distance 切比雪夫距离