1 / 30
文档名称:

04聚类分析.doc

格式:doc   大小:1,104KB   页数:30页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

04聚类分析.doc

上传人:读书之乐 2019/9/16 文件大小:1.08 MB

下载得到文件列表

04聚类分析.doc

相关文档

文档介绍

文档介绍:04聚类分析聚类分析专题§,“物以类聚,人以群分”,在自然科学和社会科学等各领域中,存在着大量的分类问题。分类学是人类认识世界的基础科学,在古老的分类学中,人们主要靠经验和专业知识进行定性的分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,这便形成了数值分类学这一学科,之后又将多元分析的技术引入到数值分类学,便又从数值分类学中分离出一个重要分支──聚类分析。与多元分析的其它分析方法相比,聚类分析方法较为粗糙,理论上还不够完善,正处于发展阶段。但是,由于该方法应用方便,分类效果较好,因此越来越为人们所重视。这些年来聚类分析的方法发展较快,内容越来越丰富。判别分析与聚类分析都是研究事物分类的基本方法,它们有着不同的分类目的,彼此之间既有区别又有联系。各种判别分析方法都要求对类有事先的了解,通常是每一类都有一个样本,据此得出判别函数和规则,进而可对其它新的样品属于哪一类作出判断。对类的事先了解和确定常常可以通过聚类分析得到。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于不相似。聚类分析能够用来概括数据而不只是为了寻找“自然的”或“实在的”分类。例如,在选拔少年运动员时,对少年的身体形态、身体素质、生理功能的各种指标进行测试,据此对少年进行分类,分在同一类里的少年这些指标较为相近。类确定好之后,可以根据各类的样本数据得出选材的判别规则,作为选材的依据。又如,根据啤酒中含有的酒精成分、纳成分、所含的热量“卡路里”数值,可以对啤酒进行分类。聚类分析根据分类对象不同分为型聚类分析和型聚类分析。型聚类分析是指对样品进行聚类,型聚类分析是指对变量进行聚类。本章我们主要讨论型聚类。§(或变量)进行分类时,样品(或变量)之间的相似性是如何度量的呢?这一节中,我们介绍两个相似性度量──距离和相似系数,前者常用来度量样品之间的相似性。后者常用来度量变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按测量尺度的不同可以分为以下三类:间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。我们这里主要讨论具有间隔尺度变量的样品聚类分析方法。一、距离设为第个样品的第个指标,。每个样品有个变量,故每个样品都可以看成是中的一个点,个样品就是中的个点。在中需定义某种距离,第个样品与第个样品之间的距离记为,在聚类过程中,距离较近的点倾向于归为一类,距离较远的点应归属不同的类。所定义的距离一般应满足如下四个条件:(Ⅰ),对一切;(Ⅱ),当且仅当第个样品与第个样品的各变量值相同;(Ⅲ),对一切;(Ⅳ),对一切。…1…2……常用的距离有如下几种:(Minkowski)距离第个样品与第个样品间的明考夫斯基距离定义为()这里为某一自然数,这是一个最常用最直观的距离。当时,,称为绝对值距离;当时,,称为欧氏距离;当时,,称为切比雪夫距离。当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应直接采用明考夫斯基距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是,令,,其中,为第个变量的样本均值,为第个变量的样本方差。(Mahalanobis)距离第个样品与第个样品间的马氏距离为()其中,为样本协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关。不足之处是对马氏距离公式中的,若始终不变,则往往显得不妥;若要随聚类过程而不断变化,则会有许多不便。(Lance和Williams)距离当,,时,则可以定义第个样品与第个样品间的兰氏距离为()这个距离与各变量单位无关,但没有考虑变量间的相关性。由于它对大的异常值不敏感,故适用于高度偏斜的数据。,因此有时采用欧氏距离显得不够理想,有人建议采用斜交空间距离。第个样品与第个样品间的斜交空间距离定义为其中是变量与变量间的相关系数。当个变量互不相关时,,即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。以上几种距离的定义均要求变量是间隔尺度的,如果使用

最近更新

专题02勾股定理【五大题型】-【好题汇编】备战.. 28页

哈尔滨部分奶牛场隐性乳房炎流行病学调查及中.. 2页

周期和失谐周期双层加劲板的振动传播特性分析.. 2页

含硅桥联并环结构电致发光材料的合成及性质研.. 2页

后过渡金属催化的碳碳及碳杂键的合成研究 2页

可表演性视角下北路壮剧英译研究 2页

叠合板式剪力墙抗震性能试验研究及非线性有限.. 2页

取芯软袋翻衬提拉过程的有限元动态仿真 2页

发展农业导向下苏州产业发展型乡村发展研究 2页

20xx春季大班配班工作计划 16页

双轴式单轨转向架构架疲劳分析 2页

双腹板、顶底角钢半刚性节点的ANSYS数值模拟分.. 2页

双水相微萃取-高效液相色谱-串联质谱测定水体.. 2页

20xx惠州学院专业排名 4页

20xx建筑顶岗实习报告 35页

20xx幼儿托班的语言教案 6页

双元能力形成前因及其绩效结果的实证研究:基.. 2页

20xx年秋季新学期一年级班主任工作计划 9页

题目通过本次课程的培训和研修你一定对自己的.. 2页

统信UOS怎么安装HP打印机 1页

广东《锅炉大气污染物排放实用标准》(DB44765.. 10页

安全注射知识的培训 29页

智能光伏管理系统介绍-2016 48页

数学建模国家财政收入的影响因素的评价及预期.. 18页

中国文化与现代生活 62页

TMT卷绕机报警内容 1页

基督教讲章;悔改的撒该----恩临全家 6页

TMT-ATI614R-12卷绕机基础知识 6页