文档介绍:第9章因子分析与主成份分析
因子分析与因子分析过程
因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。线性综合 指标往往是不能直接观测到的,但它更能反映事物的木质。
因子分析概念
在各个领域的科学研究屮往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便 进行分析寻找规律。多变量大样木无疑会为科学研究提供丰富的信息,但也在一定程度上增加了 数据采集的T作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分 析的复杂性。由于各变量Z间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在 于备变量屮的各类信息,而综合指标Z间彼此不相关,即各指标代表的信息不重叠。这样就可以 对综合指标根据专业知识和指标所反映的独特含义给予命名。这种分析方法成为因了分析,代表 备类信息的综合指标就称为因了或主成份。根据因了分析的目的我们知道,综合指标应该比原始 变量少,但包括的信息量应该相对损失较少。
原始变量:XI、X2、X3、X4……Xm
主成份:Zl、Z2、Z3、Z4……Zn
则各因了与原始变量之间的关系可以表示成:
Xi=b]]Z|+b]2Z2+bi3Z3 +b|nZn+ e 丨
X2=b21Z14"b22^2^"^23^3 +b2nZn+ e 2
X3=b3]Z计b32Z2+b33Z3 +b3nZn+ e 3
Xm=bm]Z]+bm2Z2+bm3Z3 ~^t)mnZn4- e n
写成矩阵形式为:X二BZ+E。其值X为原始变量向量,B为公因子负荷系数矩阵,Z为公因 子向量,E为残差向量。公因子Zl、Z2、Z3-Zn Z间彼此不相关,称为正交模型。因子分析的 任务就是求出公因子负荷系数和残差。
如果残差E的影响很小可以忽略不计,数学模型变为X=B乙 如果Z屮备分量Z间彼此不相 关,形成特殊形式的因了分析,称为主成分分析。主成分分析的数学模型可以写成:
+ a 2n】X m
Z|= a nX j+ a 12X2+ a 13X3
Z3= a 31X 1+ a 32X2+ a 33X 3 + a 3mX m
+ a 1 n】X ni
Zn= e nlX 1+ a “2X2+ a n3X 3 + a nn】X m
写成矩阵形式为:Z=AXo Z为主成份向量,A为主成份变换矩阵,X为原始变量向量。主 成份分析的目的是把系数矩阵A求出。主成份乙、Z?、Z3…在总方差屮所占比重依次递减。
从理论上讲m=n即有多少原始变量就有多少主成份,但实际上,前面几个主成份集屮了大 部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。
因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。如果因了分析结果保 证了因了之间的正交性(不相关)但对因了不易命名,还可以通过对因了模型的旋转变换使公因 子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。 进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。如果经过正交变换后对公因 子仍然不易解释,也可以进行斜交旋转。或许可以得到比较容易解释的结果。
因子分析
建立数据文件
现以对12个地区的5个经济指标的调查数据进行因了分析为例,木数据是美国洛衫矶标准 大城市统计区中的12个人口调杳