文档介绍:Last updated at 10:00 am on 25th December 2020
主成分分析与因子分析的联系与区别
一、问题的提出
在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏因子载荷旋转时建立的模型,故如果不进行因子载荷旋转,许多应用者将容易把此时的因子分析理解成主成分分析,这显然是不正确的。
然而此时的主成分的系数阵即特征向量与因子载荷矩阵确实存在如下关系:
主成分分析中,主成分的方差等于原始数据相关矩阵的特征根,其标准差也即特征根的平方根,于是可以将除以其标准差(单位化)后转化成合适的公因子,即令,,则式(4)变为:
(4)*
可得, (5)
式(5)便是主成分系数矩阵与初始因子载荷阵之间的联系。不能简单地将初始因子载荷矩阵认为是主成分系数矩阵(特征向量矩阵),否则会造成偏差。
三、实证分析
通过实例来研究SPSS软件中的因子分析和主成分分析及二者分析结果的比较。运用两种分析方法对2005年江苏省13个主要城市的经济发展综合水平进行分析。
本文在选取指标时遵循了指标选取的基本原则,即针对性、可操作性、层次性、全面性等原则,选取了以下反映城市经济发展综合水平的9项指标: GDP(X1)亿元 、人均GDP (X2) 元 、城镇居民人均可支配收入(X3)元、农村居民纯收入(X4) 元、第三产业占GDP比重(X5)%、金融机构存款余额(X6)亿元、万人中各专业技术人员数(X7)人、科技三项和文教科卫支出(X8)亿元、实际利用 外资(X9) 亿美元。
(一) 数据来源及处理
按照上述指标体系,选取了江苏13个城市的数据,(所有数据均来源于《江苏统计年鉴(2006)》)。指标都是正指标,无需归一化,将自动对原始数据进行标准差标准化处理,消除指标量纲及数量级的影响。
(二) 运用SPSS进行分析
首先,通过SPSS中的Data Reduction-Factor命令进行因子分析,本文采取主成分分析法来抽取公共因子,并依据特征值大于1来确定因子数目。
相关的分析结果及分析,如下:
由于因子分析是基于相关矩阵进行的,即要求各指标之间具有一定的相关性,求出相关矩阵是必要的。KMO统计量是,且Bartlett球体检验 值为,卡方统计值的显着性水平为小于,都说明各指标之间具有较高相关性,因此本文数据适用于作因子分析。
表2中,依据特征值大于1的原则,提取了2个公因子(主成分),它们的累积方差贡献率达%,这2个公因子(主成分)包含了原指标的绝大部分信息,可以代替原来9个变量对城市经济发展水平现状进行衡量。
初始因子载荷矩阵(见表3)反映了公因子与原始变量之间的相关程度,而主成分的系数矩阵并不反映公因子与原始变量之间的相关程度,故不能直接用表3中的 数据表示。根据该系数矩阵与初始因子载荷阵之间的关系(如式(5)),可以计算出前2个特征值所对应的特征向量阵(系数矩阵),见表4。
很明显表4和表3中的数据相差很大,因此,如果将初始因子载荷阵误认为是主成分系数矩阵,分析结果将会产生较大偏