文档名称：

聚类分析例题.docx

格式：docx 大小：86KB 页数：10页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

聚类分析例题.docx

上传人:guoxiachuanyue011 2022/7/10 文件大小：86 KB

下载得到文件列表

聚类分析例题.docx

相关文档

文档介绍

文档介绍：
由问题1中我们得知，第二组评酒员的的评价结果更为可信，所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分，然后计算出每支酒的10个分数的平均值，作定类的个数，这是一个十分困难但又必须解决的问题；因为分类本身就没有一
定标准，人们可以从不同的角度给出不同的分类。在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定，此处阀值为Dki。
根据样本的散点图直观的确定。当样本所含指标只有2个或3个时，可运用散点图直观
观察。如果指标超过3个时，可用主成份法先综合指标。
根据统计量确定分类个数。在SAS中，提供了一些来自方差分析思想的统计量近似检验
类个数如何选择更合适。
R2统计量：
R2=1一sA/ST2二sB/S2(523)
其中，SA为分类数为k个数时的总类内离差平方和，M为所有样品或变量
的总离差平方和。R2越大，说明类内的离差平方和在总离差平方和中比例较小，也就是分为
k个类的效果越好。显然分类越多，每个类离差越小，R2越大，所
以我们只能取k使得R2足够大，但k本身比较小，而且R2不再大幅度增加。
半偏R2统计量:在把类Ck和类Cj合并为下一水平的类Cm时，定义半偏相
关：
2
半偏R=Bki/T()
其中Bki=Sm-(Sk-Si)为合并类引起的类内离差平方和的增量：ST为类CT
的类内离差平方和。半偏R2用于评价单次合并效果，其值越大，说明上次合并效果越好。
伪F统计量：
伪「=(T-Pk)/(k-1)(525)
Pk/(n-k)
伪「统计量评价分为k个类的效果。伪F统计量越大，表达分为k个类越合理。通常取
伪F统计量较大而类数小的聚类水平
伪t2统计量：
2
t=Bki/((SkS)/(nk•m-2))()
用此统计量评价合并类Ck和类Cl的效果，该值大说明合并的两个类Ck和类
Cl是很分开的，这个合并不成功，而应该去合并前的水平。
通过使用sas软件的cluster过程和tree过程，可以求解分析出结果。

首先，我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标，通过聚类分析，把酿酒葡萄分成五类，得到初步的结果（见图3）:
从图中我们能够直观的看到把酿酒葡萄分为5大类，为了检验效果，我们通过判别分析检验原本的28种葡萄分类的结果，得到表8.
表8:误判概率表（具体表见附录）
组号
1
2
3
4
5
概率

在误差一栏我们看到，每一组的分类都存在或多或少的误差，我们觉得这个结果是不满意的。为了进一步优化方案以及简化分析过程，我们利用逐步判别法对参与分类的因素进行逐步剔除，以达到减少噪声干扰的目的，让得到的结果更加合理和完善。
通过逐步判别法，我们剔除了原本59个数据中的35个相关不大，造成干扰的因素，剩下了24个因素。经过剔除干扰项后，为了检验剔除后干扰项后的结果是否更加合理，我们重新对剩余的24个因素进行了聚类分析，做谱系聚类图和判别分析。得到了新的结果（见表9）：
表9:优化后的聚类分析部分结果（详细见附录）
分类数
样品