文档名称：

使用SAS进行简单的聚类分析讲解.doc

格式：doc 大小：16KB 页数：12页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

使用SAS进行简单的聚类分析讲解.doc

上传人:雪雁 2023/1/18 文件大小：16 KB

下载得到文件列表

使用SAS进行简单的聚类分析讲解.doc

相关文档

文档介绍

文档介绍：该【使用SAS进行简单的聚类分析讲解】是由【雪雁】上传分享，文档一共【12】页，该文档可以免费在线阅读，需要了解更多关于【使用SAS进行简单的聚类分析讲解】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。使用SAS进行简单的聚类分析讲解
聚类分析的目的是把分类对象按一定的规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何的假定。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于彼此不相似。聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类是指对样品进行聚类,R型聚类分析是指对变量进行聚类。SAS中用于判别分析的过程主要有以下四个:PROCCLUSTER谱系聚类(Q型聚类分析)
PROCFASTCLUSK均值快速聚类,适用于大样本(Q型聚类分析)
PROCMODECLUS非参数聚类(Q型聚类分析)
PROCVARCLUS变量聚类(R型聚类分析)(Q型聚类分析)
[例1]
试根据1997年信息基础设施的发展情况,对世界20个国家和地区进行聚类分析。描述信息基础设施的变量主要有六个:
Cal-每千人拥有电话线数;
Cellphone-每千户居民移动电话数;
Fee-高峰时期每三分钟国际电话成本;
Computer-每千人拥有的计算机数;
Mips-每千人中计算机功率(每秒百万指令);
Net-每千人互联网络户主数。datacluster1;
infiledatalines;
inputCountry$CalCellphoneFeeComputerMipsNet;
datalines;

.**********.48

;
run;PROCCLUSTERDATA=cluster1STANDARDMETHOD=CENTROIDCCCPSEUDOUT=TREE;
PROCTREEDATA=TREEHORIZONTALSPACES=1;
RUN;[说明]
METHOD=的选项可以为:AVERAGE(平均法)
CENTROID(重心法)
COMPLETE(最长距离法)
DENSITY(非参数概率密度估计法)
EML(最大似然法)
FLEXIBLE(flexible-beta法)
MCQUITTY(Mcquitty的相似分析法)
MEDIAN(中位数法)
SINGLE(最短距离法)
TWOSTAGE(两阶段密度法)
WARD(Ward最小方差法)
STANDARD对变量实施标准化。
CCC、PSEUDO为了计算一些统计量用以判别全部样品究竟聚成几类较为合适。CCC要求打印聚类判别据的立方及在一致无效假设下近似期望值R2,PSEUDO要求打印伪F(标志PSF)和t2(标志PST2)统计量。当分类数目不同时,它们就有不同的取值,CCC和PSF出现峰值所对应的分类数较合适、PST2出现峰值的前一行所对应的分类数较合适。
OUT=TREE产生名为TREE的输出数据集,它可被TREE过程用来输出聚类结果的树状图。HORIZONTAL要求将树状图水平放置,SPACES=1要求各样品之间的间隔为1。[结果及其解释]
如果聚为3类,其聚类结果为:一类是信息基础设施最为发达的美国,一类是一些发达国家,其他的国家和地区聚为另外一类。(Q型聚类分析)处理大样本时一般采用非分层聚类法(快速聚类法)。聚类的个数k可以根据需要事先指定。与分层聚类方法相比,非分层聚类方法不必确定距离矩阵,不必存储基本数据,因此适用于处理很大的数据集。
下面仍使用[例1]的数据,对PROCFASTCLUS加以说明:PROCFASTCLUSDATA=cluster1UT=resultMAXC=3CLUSTER=c;
RUN;[说明]
MAXC=3要求总共聚为3类
OUT=result结果输出到数据集result
CLUSTER=c分类标志的变量名c,其取值为1,2,3[结果及其解释]
聚类结果为:一类是信息基础设施最为发达的美国,一类是一些发达国家,其他的国家和地区聚为另外一类。(R型聚类分析)[例2]对1996年全国30个省市自治区经济发展基本情况的八项指标作变量聚类分析:
X1:GDP
X2:居民消费水平
X3:固定资产投资
X4:职工平均工资
X5:货物周转量
X6:居民消费价格指数
X7:商品零售价格指数
X8:工业总产值datacluster2;
infiledatalines;
inputProvince$X1-X8;
datalines;