1 / 9
文档名称:

SAS中的聚类分析方法总结.pdf

格式:pdf   大小:711KB   页数:9页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

SAS中的聚类分析方法总结.pdf

上传人:小s 2022/7/20 文件大小:711 KB

下载得到文件列表

SAS中的聚类分析方法总结.pdf

文档介绍

文档介绍:SAS 中的聚类分析方法总结(1)——聚类分析概述

说起聚类分析,相信很多人并不陌生。这篇原创博客我想简单说一下我所理解的聚类分析,
欢迎各位高手不吝赐教和拍砖。
按照正常的思路,我大概会说如下几个问题:
1. 还是有点差。尤其是第二主成分
之后的主成分。那用什么比较好呢?答案是 proc varclus——斜交主成分。
我们常说的主成分实际上正交主成分。斜交主成分是在正交主成分的基础上再做了一些旋转。
这样得到的主成分不仅能保留主成分的优点(主成分变量相关程度比较低)。另外一方面又
能有很到的解释性,并且能达到对变量聚类的效果。使同类别里面的变量尽可能相关程度比
较高,不同类别里面的变量相关程度尽可能低。这样根据一定的规则我们就可以在每个类别
里面选取一些有代表性的变量,这样既能保证原始的数据信息不致损失太多,也能有效消除
共线性。有效提升聚类分析的精度。
8. 用 proc mds 和 proc princomp 做什么?
将原始数据降到两维,通过图形探测整个数据聚类后大致大类别数

9. 用 proc aceclus 做什么?
聚类算法尤其是 k-means 算法要求聚类数据是球形数据。如果是细长型的数据或者非凸型数
据,这些算法的表现就会相当差。 一个很自然的变通想法就是,能不能将非球形数据变换成
球形数据呢?答案是可以的。这就要用到 proc aceclus。
10. 标准化对聚类分析到底有什么影响?

1) 在 讲 影 响 之 前 先 罗 列 一 下 proc stdize 里 面 的 标 准 化 方 法 吧2) 标准化对聚类分析的影响

从图 1 中不太容易看清楚标准化对于聚类分析的影响




从 图 2 可 以 清 晰 的 看 到 标 准 化 对 于 聚 类 分 析 的 影 响3) 各种标准化方法的比较
一个模拟数据的例子,模拟数据有三个类别,每个类别有 100 个样本。我们比较了各种标准
化方法之后再进行聚类的误判情况,可以大概看出各种标准化方法的差异。但此例并不能说
明以下方法中误分类数小的方法就一定优与误分类数大的方法。有时候还跟数据本身的分布
特征有关。这个例子也提醒我们有时候我们常用的 std 和 range 标准化并不见得是最好的选
择。附:本节相关 sas 代码就作为回帖吧。
/******************