1 / 10
文档名称:

聚类分析例题.docx

格式:docx   大小:39KB   页数:10页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析例题.docx

上传人:guoxiachuanyue009 2022/6/12 文件大小:39 KB

下载得到文件列表

聚类分析例题.docx

文档介绍

文档介绍:聚类分析例题


由问题1中我们得知,第二组评酒员的的评价结果更为可信,所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分,然后计算出每一疋1|2/(I/哄+1/耳)
()
Ward方法并类时总是使得并类导致的类内离差平方和增量最小。
系统聚类数的确定。在聚类分析中,系统聚类最终得到的一个聚类树,如何确定类的个数,这是一个十分困难但又必须解决的问题;因为分类本身就没有一定标准,人们可以从不同的角度给出不同的分类。在实际应用中常使用下面
几种方法确定类的个数。由适当的阀值确定,此处阀值为q-
根据样本的散点图直观的确定。当样本所含指标只有2个或3个时,可运用散点图直观观察。如果指标超过3个时,可用主成份法先综合指标。
根据统计量确定分类个数。在SAS中,提供了一些来自方差分析思想的统计量近似检验
类个数如何选择更合适。
1)统计量:
疋=l_s;/s;二s;/s;
()
其中,S;为分类数为k个数时的总类内离差平方和,s;为所有样品或变量的总离差平方和。F越大,说明类内的离差平方和在总离差平方和中比例较小,也就是分为k个类的效果越好。显然分类越多,每个类离差越小,疋越大,所以我们只能取k使得用足够大,但k本身比较小,而且疋不再大幅度增加。
半偏R2统计量:在把类Q和类C,合并为下一水平的类时,定义半偏相关:
半偏R2=Bkl/T()
其中以为合并类引起的类内离差平方和的增量:st为类
C,的类内离差平方和。半偏F用于评价单次合并效果,其值越大,说明上次合
并效果越好。
伪F统计量:
()
伪“统计量评价分为k个类的效果。伪F统计量越大,表达分为k个类越合理。通常取伪F统计量较大而类数小的聚类水平。
伪尸统计量:
广二BJ((s女+sj/(nk+q—2))()
用此统计量评价合并类G和类q的效果,该值大说明合并的两个类Q和类
C,是很分开的,这个合并不成功,而应该去合并前的水平。
通过使用sas软件的cluster过程和tree过程,可以求解分析出结果。

首先,我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标,通过聚类分析,把酿酒葡萄分成五类,得到初步的结果(见图3):
从图中我们能够直观的看到把酿酒葡萄分为5大类,为了检验效果,我们通过判别分析检验原本的28种葡萄分类的结果,得到表&
表8:误判概率表(具体表见附录)
组号
1
2
3
4
5
概率





在误差一栏我们看到,每一组的分类都存在或多或少的误差,我们觉得这个结果是不满意的。为了进一步优化方案以及简化分析过程,我们利用逐步判别法对参与分类的因素进行逐步剔除,以达到减少噪声干扰的目的,让得到的结果更加合理和完善。
通过逐步判别法,我们剔除了原本59个数据中的35个相关不大,造成干扰的因素,剩下了24个因素。经过剔除干扰项后,为了检验剔除后干扰项后的结果是否更加合理,我们重新对剩余的24个因素进行了聚类分析,做谱系聚类图和判别分析。得到了新的结果(见表9):
图3: