1 / 14
文档名称:

聚类分析论文.doc

格式:doc   大小:118KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析论文.doc

上传人:docin 2019/11/13 文件大小:118 KB

下载得到文件列表

聚类分析论文.doc

文档介绍

文档介绍:合肥学院2013-2014第一学期《多元统计分析》课程论文论文题目 城市行业聚类分析     姓  名   汪桃桃      学  号  1107021016    专  业 数学与应用数学     成  绩          ——以城市行业为例,讨论以下16个城市的聚类分析摘要本文对我国16个地区6个行业的相关数据做标准变换下的类平均法,离差平方和法进行聚类分析对这16个地区进行聚类分析,得出聚类结果如下:={北京},={天津,内蒙古,江西,辽宁,安徽,福建,山西,吉林},={河北,上海,黑龙江,江苏,河南,浙江,山东}关键词聚类分析 类平均法 sas软件一、问题提出与分析表1是我国16个地区6个行业的相关数据,利用调查数据对16个地区进行分类。表格116个地区6个行业的调查数据地区交通运输、仓储和邮政业信息传输、计算机服务和软件业批发和零售业住宿和餐饮业金融业房地产业北京503650282530天津12212473河北256225233山西214184143内蒙古16472101上海326177207辽宁15583103吉林265183134黑龙江36725112211江苏3172810276浙江241028152810安徽154134154福建164136129江西16482102山东3364012339河南2953910229       该实验内容属于聚类分析问题,方案是:对样品做标准变换下的类平均法,离差平方和法进行聚类分析。聚类分析的相关知识如下:1、类平均法(averagelinkagemethod)有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义GK和GL之间的距离为其中nK和nL分别为类GK和GL的样品个数,dij为GK中的样品i与GL中的样品j之间的距离,如图所示。容易得到它的一个递推公式:另一种定义方法是定义类与类之间的平方距离为样品对之间平方距离的平均值,即它的递推公式为类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。2、离差平方和法类中各样品到类重心(均值)的平方欧氏距离之和称为(类内)离差平方和。设类GK和GL合并成新类GM,则GK,GL和GM的离差平方和分别是它们反映了各自类内样品的分散程度。类内离差平方和的几何解释:类内离差平方和WK是类GK内各点到类重心点  的直线距离之平方和。图1离差平方和几何图定义GK和GL之间的平方距离为这种系统聚类法称为离差平方和法或Ward方法(Ward’sminimumvariancemethod)。也可表达为离差平方和法使得两个大的类倾向于有较大的距离,因而不易合并;相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合我们对聚类的实际要求。离差平方和法的平方距离递推公式为二、模型建立 把交通运输、仓储和邮政业记为,信息传输、计算机服务和软件业记为,批发和零售业记为,住宿和餐饮业记为,金融业记为,房地产业记为,对这16个样品的,,,,,做标准变换下的类平均法,离差平方和法进行聚类分析。建立相应的聚类分析模型,利用SAS程序来求解,分析结果,得出相应的结论。三、sas――操作程序:dataEX82;inputgroup$X1-X6;cards;北京   50  36  50  28  25  30天津   12  2  12  4  7  3河北   25  6  22  5  23  3山西   21  4  18  4  14  3内蒙古 16  4  7  2  10  1上海   32  6  17  7  20  7辽宁   15  5  8  3  10  3吉林   26  5  18  3  13  4黑龙江 36  7  25  11  22  11江苏   31  7  28  10  27  6浙江   24  10  28  15  28  10安徽   15  4  13  4  15  4福建   16  4  13  6  12  9江西   16  4  8  2  10  2山东   33  6  40  12  33  9河南   29  5  39  10  22  9;procprintdata=EX82;run;lusterdata=EX82method=outtree=B82;varX1-X6;idgroup;proctreedata=B82horizontalgraphics;title'a';run;lusterdata=EX82method=outtree=B82;varX1-X6;idgroup;proctreedata=B82horizontalgraphics;title'b';run;procsortd