文档名称：

第九讲系统聚类.docx

格式：docx 大小：314KB 页数：9页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

第九讲系统聚类.docx

上传人:泰山小桥流水 2024/4/15 文件大小：314 KB

下载得到文件列表

第九讲系统聚类.docx

相关文档

文档介绍

文档介绍：该【第九讲系统聚类】是由【泰山小桥流水】上传分享，文档一共【9】页，该文档可以免费在线阅读，需要了解更多关于【第九讲系统聚类】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。精品文档精品文档2精品文档第九讲系统聚类分析人们往往会碰到通过划分同类属性的对象很好的解决问题的情形, 而不论这些对象是个体、公司、产品甚至行为。为此常用的技巧是聚类分析。聚类分析将个体或对象分类,使得同一类的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的差异性最大化。一、导言近些年类,统计学的多元分析方法有了迅速的发展,多元分析技术自然被引用到分类学中,于是从数值分类逐渐分离出聚类分析这个新的分支。我们认为,所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似度的统计量,以这些统计量为划分类型的依据,把一些相似度较大的样品(或指标),聚合为一类,把另一类彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样品(或指标)都聚合完毕,把不同类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张分类图(又称谱系图),用它把所有样品(或指标)间的亲疏关系表示出来。在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。过去人们主要靠经验和专业知识,作定性分析处理,致使许多分类带有主观性的任意性,不能很好的揭示客观事物内在本质差别和联系,特别是对于多因素、多指标的分类问题,定型分类更难以实现准确分类。为了克服定型分类时存在的不足,统计学这个有用的工具逐渐被引进到分类学中,形成数值分类学。随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。与多元分类的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。SPSSforWindows的系统聚类分析其统计结果与图形有凝聚顺序表、相似矩阵、聚类成员结果的范围;且可绘制垂直冰柱图、水平冰柱图或树状结构图等。聚类分析根据用户选择不同的聚类方法、不同的量度、是否标准化、不同联结的图形,其分类的结果是不尽相同的。二、样品(Q型)聚类分析以地级行政单元作为区域分析的对象,利用多元统计分析方法对河北省11个地级市的农村基础设施状况进行分析。其指标的选择主要根据代表性原则、综合性原则、系统性原则、易获得性原则,选取2007年河北省社会经济发展指标因子8项,组成一个原始数据矩阵X,作为分析的依据。所选取的指标有:乡村劳动力资源(x1)、农用机械总动力(x2)、农村用电量(x3)、农村社会总产值(x4)、自来水受益村(x5)、通电话村(x6)、有效灌溉面积)、精品文档精品文档2精品文档(x7农村运输业固定资产(x8)。表9-1指标数据表乡村劳农用机械农村用电农村社会自来受通电村有效灌农村运输业固城市动力资总动力量(万千总产值益村数溉面积定资产源(人)(千瓦)瓦小时)(万元)(个)(个)(公顷)(万元)石家庄62487739804418495628525146唐山37855020499068547760秦皇岛1131928472262124364138657邯郸44824445905347535707435227邢台24151949545172553587379118保定32162541166210655113431368张家口6859928634067249021159708承德12182916202552138738182419沧州53722756795741561042332882廊坊38681431643222283788280718衡水26763449334982473719138165资料来源:2008年河北农村统计年鉴(一)...得到图9-1图9-1单击打开系统聚类分析主对话框见图 9-2。① Variable (变量)列表,进行聚类分析的变量。本例为 x1--x8LableCasesby(识别个案),本例为城市Cluster(聚类方法),可以选择Case(样本聚类)或Variables(指标聚类)。④Display(显示)Statistics(统计量),系统分析的统计量。Plots(图形),冰柱图(Icicle)、树状图(Dendrogram)等诣虏蠶囱鹣货皑況饃钢錠腦鳳笾嘸。精品文档精品文档3精品文档图9-2(二)单击 Statistics打开系统聚类分析统计量对话框见图 9-3图9-3Agglomeration schedule(凝聚顺序表),显示每阶段中结合的个案(分类)的距离及每个引入聚类的个案(变量)的最终聚类水平,本案例选择此项。Proximitymatrix(相似性矩阵),显示项目间的距离或相似性。本案例选择此项。ClusterMembership(聚类成员),显示各个案分配到 1个或1个以上级别的聚类结合。None(不显示聚类成员)。这是默认格式。Singlesolution(单一聚类成员)。若选此项,应设定Numberofcluster(聚类数),必须输入一个大于1的整数。Rangeofsolutions(某范围聚类成员),若选此项应设定Minimumnumberofcluster及Maximumnumberofcluster(最大聚类数)。(三)单击Continue/Plots,打开HierarchicalClusterAnalysis:Plots(系统聚类分析:图形)对话框,见图9-4嚨詞惻陧弑誹沩劌聹擋絲驁跹鞏綴。精品文档精品文档4精品文档图9-4精品文档精品文档5精品文档Dendrogram(树形图),树形图可直观的表示系统聚类分析过程每步结合的聚类及聚类系数值。竖线的连接表示个案的结合, 树状图将实际距离按比例赋值为 0~25,并隐藏每步的距离比。树状图可用于评估聚类模型的凝聚性, 并且提供保持适当聚类的信息。树状图是 SPSS的独特风格,一般均选择此项。Icicle(冰柱图),显示包括所有聚类和聚类范围冰柱图。可显示个案合并到聚类的过程,在图形的底部未合并任何个案,从下往上阅读时,通过 X或条进行聚类合并,不同的分类通过项目间的空格表示。冰柱图显示分析中每次迭代的个案结合到聚类的信息。赅奂戬啞攢唛痈攆蹒颌屆韧鳏鲥饺。精品文档精品文档9精品文档Allcluster(所有聚类的冰柱图 ),这是默认格式Specifiedrangeofcluster(某指定范围的冰状图),应当设定StartCluster(起始分类)、Stopcluster(结束分类),及By(间隔)。None不显示冰状图。Orientation(方向),可选择Vertical(垂直冰状图)或Horizonal(水平冰状图)。(四)单击 Continue/Method,打开(系统聚类分析:方法)对话框,见图 9-5ClusterMethod(聚类方法)下拉菜单Between-gropeslinkage(组间均联法)。Within-groupslinkage(组内均联法)Nearestneighbor(近邻法)又称最短距离法或单联法Furthestneighbor(远邻法)又称最长距离法或完全关联法CentroidClustering(重心聚类法)又称质心法MedianCluster(中位数聚类法 )Ward'sMethord(Ward法)镱项証缘馈骤鹨蘇拨镳泷鹘郵锕氳。精品文档精品文档9精品文档图9-5Interval(等距资料)下拉菜单Euclideandistance(Euclidean距离),两项目值之差的平方和的平方根。SquaredEuclideandistance(Euclidean距离平方),两项目之差的平方和。Chebychev(Chebychev距离),两项目值间差值的最大绝对值。Cosine(余弦测度),两向量间的余弦相似性测度。Pearsoncorrelation(Pearson相关测度),两向量间的积矩相关系数,此项为等距资料相似性测度的默认选项。Block(区组距离),两项目值间的最大绝对值的总和。Minkowski(Minkowski 距离),两项目值差值 P次幂绝对值之和的 P次方根。Customized(自定义距离),两项目值差值 P次幂绝对值之和的 r次方根。Counts(计数数据)下拉菜单岡贅啬苧閨谗铹檜费骧癞頎卫鈳斓。测度),该测度基于两组频数相等的χ2检验。Chi-squaremeasure(χ22Phi-squaremeasure(φ测度)为结合频数的平方根正态化的φ测度Binary(二值数据)下拉菜单Euclideandistance(Euclidean距离)根据四个表计算SQRT(b+c),b和c表示在一项中出现,而在另一项中不出现的对角格子。SquaredEuclideandistance(Euclidean距离平方),计算不一致的个案数,范围是(0,+∞)。Sizedifference(大小不同的测度),范围是(0,1)的不对称指数。Pattendifference(模式差异测度),范围是(0,1)的二值数据的不相似性测度,根据四个表计算bc/(n**2),b和c表示在一项中出现,而在另一项中不出现的对角格子例数,n表示总观测值例数,范围是(0,1)。Variance(方差测度),根据四个表计算(b+c)/4n,b和c表示在一项中出现,而在另一项中不出现的对角格子例数,n表示总观测值例数,范围是(0,1)。報鲱顴凄坟溈羈镀屬穩谕鉭横弳虽。精品文档精品文档8精品文档Dispersion(分配相似性测度),测度值范围是( -1,1)Shape(形状测度),范围是(0,1)的观测值。Simplematching(简单匹配相似性测度),是匹配数与总数的比值,分配给匹配与不匹配个案的权重相等。Phi4-ponitcorrelation(φ4点相关测度),Pearson相关系数的二元形式,测度范围值是-1,1)。Lambda(Goodman和Kruskalλ相似性测度),为使用一个项目预测另一个项目(双方向预测)的误差简化比例(PRE)的一致性,观测值范围是(0,1)。Kulczynski1(Kulczynski1 相似性测度),为结合出现数与所有不匹配数的比值,观测值大于0,,。Kulczynski2(Kulczynski2相似性测度),为一个特征在一项中出现而导致该特征也在另一项中出现的条件概率。Anderberg'sD(Anderberg'sD相似性测度)与λ相似性测度类似,为使用一个项目预测另一个项目的实际误差降低的一致性,测度值范围是(0,1)Dice(Dice相似性系数)在匹配系数中剔除不出现的结合, 分配给匹配个案双倍的权重。Hamann(Hamann相似性测度),为匹配数与不匹配数之差除以项目总数,测度值范围是(-1,1)。ard(ard相似性系数)为相似性比值,在匹配系数中剔除不出现的结合,分配给匹配与不匹配个案的权重相等。鰍嬤紱賄构镇艷荣煒饞闶鯛餘驂刹。Ochiai(Ochiai相似性测度),余弦相似性测度的二元方式,测度范围是(0,1)。Rogersandtanimoto(Rogers-tanimoto相似性测度),分配给不匹配个案RussellandRao(Russell-Rao二项点积),分配给匹配与不匹配的个案的权重相等。SokalandSneath1(Sokal-Sneath1相似性测度),为一个特征在一项中出现而导致该特征也在另一项中出现的条件概率。Yule'Y(YuleY综合系数)是 2╳2表的交叉比例函数,为边际总数的自变量,测度值范围是(-1,1)。躓镀鲢恽蛳宮跞纓銀遷颗誥闫輊殞。精品文档精品文档9精品文档Yule'Q(YuleQ综合系数),Goodman课Kruskalλ相似性测度的比例,是2╳2表的交精品文档精品文档9精品文档叉比例函数,边际总数的自变量,测度范围是( 0,1)。(五)单击 Continue/Save打开(聚类分析:保存新变量顷艱紜饉筹鈔垩詰劑幗鹼状廳绂赓。)对话框。见图9-6精品文档精品文档9精品文档图9-6Clustermembership(聚类成员)None,不进行新变量储存聚类成员。Singlesolution ,单一聚类成员,可以增加一个新变量储存类某类的成员。Rangeofsolutions,可以增加一些新变量储存某范围内聚类的成员。锭譚螄聞儲厦騍經嚀臨紛氽釅薊顶。精品文档精品文档9精品文档(六)单击 Continue/OK得到结果Proximities(相似性)个案处理摘要相似性矩阵凝聚顺序表精品文档精品文档13精品文档冰状图精品文档精品文档14精品文档树形图如果将11个城市分成 4类,那么由树形图可见,第水),第 II 类为(衡水,廊坊,保定) ,第 III类为(唐山)。趨絛詘赝蠻开媧薟萦終劊劍纘撄執。I类为(秦皇岛,张家口,承德,衡为(邯郸,沧州,石家庄),第IV精品文档精品文档9精品文档