1 / 3
文档名称:

统计分析系列聚类分析.doc

格式:doc   大小:85KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

统计分析系列聚类分析.doc

上传人:386259182 2020/5/30 文件大小:85 KB

下载得到文件列表

统计分析系列聚类分析.doc

文档介绍

文档介绍:注:模型中的符号和说明要根据具体情况稍加改变聚类分析一般与判别分析、主成分分析、回归分析等一起使用聚类分析和判别分析有密切联系。判别分析是1、已知类型和数目;2、并要有一批来自各个类别的类型和样本。然后进行归类。聚类分析是,事先不知类别的通常情况下,距离系数用于对样本进行聚类,相似系数一般用于对变量(指标)进行聚类。由于聚类分析是常用分析方法,使用时看情况是否加入下面的具体模型。在聚类分析不是问题关键时,我们可以直接描述如下:对样本进行聚类的描述:聚类分析的相似性度量可利用欧氏距离、兰氏距离、马氏距离。统计学一般采用欧氏距离进行聚类分析,欧氏距离中的每个分量对距离的贡献同等。分量为测量值时常有大小不等的随机波动且当测量值为不同性质的量时欧氏距离与单位有关,单位不同影响距离的大小。采用兰氏距离可避免此缺点,但兰氏距离未考虑各测量值之间的相关性。而马氏距离不仅适用于分量性质不同的情况,也考虑了各测量值之间的相关性。故本题采用马氏距离对样本进行聚类分析。本题由于时间样本量比较小,利用sas进行聚类时,出现了样本量不足的问题,本题采用添加常量样本解决,这样会使马氏距离整体发生变化,但不会影响聚类结果。样本进行聚类的方法很多,但这些方法涉及的面广且深,暂时只作了解:平均连接法,重心法,最长距离法,密度连接法,等方差最大似然法等聚类分析模型设有n个样本,每个样品测得p项指标(变量),原始资料阵为:式中,(i=1,2,…,n;j=1,2,…,p)为第i个样本第j个指标的观测数据。距离系数聚类法样本的聚类标志常用距离,第i个样本及第j个样本在p维空间中的距离为:由于距离是观测指标的函数,观测指标越多,差的平方和也越大,差的平方和除以p是为了扣除观测指标个数的影响。把n个样本的两两之间的距离都计算出来以后,可以排列成距离系数矩阵:式中,然后根据的大小对n个样本进行聚类,距离小的归于一类,距离大的样本归于不同类。相似系数聚类法常用的相似系数有夹角余弦和相关系数。夹角余弦用角度分割法来表示相似程度。把任意两个样本看成p维空间的两个向量。这两个向量的夹角余弦为:的值在+1和-1之间变化。当两个