文档介绍:第五章聚类分析
概述
出发点:
将所研究某个对象(某个物体或某个变量)看成为多维(多变量或多物体)空间上的一个点,形容点与点之间的关系,将关系密切的点归为同一群。
2. 聚类分析的两种类型
根据分类对象不同,分为Q型(Q-mode)和R型(R-mode)。
Q型――对样品进行分类。即把不同的物体(如岩石标本、样品等物种或人种)进行比较,目的是要确定不同物体之间的关系,从而将物体进行归类分群。
R型――对变量进行分类。即属于同一物种的各种属性,即各类变量(如岩石厚度、岩石成分及各种化验观测数据)进行比较,目的是要不同变量之间的关系,从而对变量进行分类。
例
在煤田地质勘探过程中,有时煤系含有多个煤层,如果标志层不明显,只用宏观的标志进行煤层对比较为困难,这时就可用聚类分析进行煤层的数字分类,从而达到对比煤层的目的。
做法是在一个煤田或勘探区内,选择若干个煤钻孔,对所有煤层进行工业分析、光谱分析等取得一批实验观测数据(如下表)。
指标
化验号
Ag
SQg
煤灰成分
SiO2
Fe2O3
Al2O3
CaO
MgO
SO3
1
2
3
4
5
6
7
8
9
多维空间的点就不能用图形直观的表现出来。
表示多维空间点与点之间的疏密关系的量,称为相似性度量(相似性统计量),如相似系数、相关系数、距离系数、离差平方和增量等。
第二节数据规则化
为了消除数量级的影响,而对数据进行规则化。