1 / 31
文档名称:

聚类分析.ppt

格式:ppt   大小:195KB   页数:31页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析.ppt

上传人:相惜 2020/6/21 文件大小:195 KB

下载得到文件列表

聚类分析.ppt

相关文档

文档介绍

文档介绍:数据的分类—()16种饮料的热量、咖啡因、?对数据进行分类就需要知道距离?你知道那些距离?.如何度量距离远近?如果想要对100个学生进行分类,而仅知道他们的数学成绩,则只好按照数学成绩分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。.两个距离概念按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是歐氏距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。.两个距离概念由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。.向量x=(x1,…,xp)与y=(y1,…,yp)之间的距离或相似系数:欧氏距离:Euclidean平方欧氏距离:SquaredEuclidean夹角余弦(相似系数1):cosinePearsoncorrelation(相似系数2):Chebychev:Maxi|xi-yi|Block(绝对距离):Si|xi-yi|Minkowski:当变量的测量值相差悬殊时,,s为标准差,, (d(xi,xj)表示点xi∈Gp和xj∈Gq之间的距离)最短距离法:最长距离法:重心法:离差平方和:(Wald)类平均法:(中间距离,可变平均法,可变法等可参考各书).在用欧氏距离时,(NearestNeighbor)x21•x12•x22•x11•.最长距离(FurthestNeighbor)•••x11•x21••••.