1 / 10
文档名称:

聚类分析例题.docx

格式:docx   大小:86KB   页数:10页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析例题.docx

上传人:guoxiachuanyue011 2022/7/10 文件大小:86 KB

下载得到文件列表

聚类分析例题.docx

相关文档

文档介绍

文档介绍:
由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每支酒的10个分数的平均值,作定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一
定标准,人们可以从不同的角度给出不同的分类。在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定,此处阀值为Dki。
根据样本的散点图直观的确定。当样本所含指标只有2个或3个时,可运用散点图直观
观察。如果指标超过3个时,可用主成份法先综合指标。
根据统计量确定分类个数。在SAS中,提供了一些来自方差分析思想的统计量近似检验
类个数如何选择更合适。
R2统计量:
R2=1一sA/ST2二sB/S2(523)
其中,SA为分类数为k个数时的总类内离差平方和,M为所有样品或变量
的总离差平方和。R2越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为
k个类的效果越好。显然分类越多,每个类离差越小,R2越大,所
以我们只能取k使得R2足够大,但k本身比较小,而且R2不再大幅度增加。
半偏R2统计量:在把类Ck和类Cj合并为下一水平的类Cm时,定义半偏相
关:
2
半偏R=Bki/T()
其中Bki=Sm-(Sk-Si)为合并类引起的类内离差平方和的增量:ST为类CT
的类内离差平方和。半偏R2用于评价单次合并效果,其值越大,说明上次合并效果越好。
伪F统计量:
伪「=(T-Pk)/(k-1)(525)
Pk/(n-k)
伪「统计量评价分为k个类的效果。伪F统计量越大,表达分为k个类越合理。通常取
伪F统计量较大而类数小的聚类水平
伪t2统计量:
2
t=Bki/((SkS)/(nk•m-2))()
用此统计量评价合并类Ck和类Cl的效果,该值大说明合并的两个类Ck和类
Cl是很分开的,这个合并不成功,而应该去合并前的水平。
通过使用sas软件的cluster过程和tree过程,可以求解分析出结果。

首先,我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标,通过聚类分析,把酿酒葡萄分成五类,得到初步的结果(见图3):
从图中我们能够直观的看到把酿酒葡萄分为5大类,为了检验效果,我们通过判别分析检验原本的28种葡萄分类的结果,得到表8.
表8:误判概率表(具体表见附录)
组号
1
2
3
4
5
概率





在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不满意的。为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进行逐步剔除,以达到减少噪声干扰的目的,让得到的结果更加合理和完善。
通过逐步判别法,我们剔除了原本59个数据中的35个相关不大,造成干扰的因素,剩下了24个因素。经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我们重新对剩余的24个因素进行了聚类分析,做谱系聚类图和判别分析。得到了新的结果(见表9):
表9:优化后的聚类分析部分结果(详细见附录)
分类数
样品