文档介绍:因子分析在市场调研中的应用
市场调研过程中,研究人员经常需要面对大批量的数据,这些数据不但数据量大,涉及的变量众多,而且变量间往往存在一定的相关性,为分析问题带来了一定的难度。因此,如何正确有效的处理这些多变量大样本的数据,既是研究人员感兴趣的一个问题,也是研究人员需要具备的一种能力。在这方面,因子分析有着较为广泛的应用。
因子分析是一种主要用于数据化简和降维的多元统计分析方法。在面对诸多具有内在相关性的变量时,因子分析试图使用少数几个随机变量来描述这许多变量所体现的一种基本结构,从而将数据降至一个可以掌握的水平(a manageable level)。这既便于问题的分析,易于抓住问题的本质所在,同时也为后续的统计分析奠定了基础。
一、因子分析的数理统计背景
从数理统计的角度来看,因子分析的基本目的是,用少数几个随机变量去描述许多变量之间的协方差关系。与多元回归不同的是,这里的少数几个随机变量是不可观测的,通常称之为因子。本质上,因子分析基于这样的思想:根据相关性的大小将变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。由此,可以认为,每组变量代表一个基本结构(因子),它们可以反映问题的一个方面,或者说一个维度。
因子模型假定观测到的每一个随机变量Xi线性的依赖于少数几个不可观测的随机变量F1,F2,,…Fm(mon factor)和一个附加的方差源ei(通常称为特殊因子或误差,unique factor),即:
(1)
其中,lij为第i个变量在第j个因子上的载荷,称为因子负载(factor load)。
通常对随机变量Fj和ei进行如下假定:
()
()
()
即:(1)各公共因子的均值为0,方差为1,且因子之间不相关;
(2)各误差的均值为0,具有不等方差,且误差之间不相关;
(3)公共因子和误差间相互独立。
满足(1)式及假设()—()的因子模型通常称之为正交因子模型。这也是因子模型中应用最为广泛的一类模型。除此之外,还有斜交因子模型,即各因子间存在相关,这种模型在寻求因子解释方面存在一定优势,但由于相关性的存在降低了其应用价值,在实际应用并不多见。
统计中,常常将变量间的一种相关关系看作为一种“信息”。因子分析正是基于变量间的方差-协方差矩阵(相关
-协相关矩阵,对标准化的随机变量而言二者是一致的)的一种分析方法,它希望利用公共因子来尽可能的解释变量间的这种关系。在正交因子模型中,我们具有如下的协方差结构:
()
()
()
即:(1)可测变量Xi的方差可由该变量在m个公共因子上的负载平方和(munality)和特殊因子的方差(特殊度,speciality)表出;
(2)可测变量Xi、Xj间的协方差可由可测变量在所有公共因子上的负载的对应乘积之和给出;
(3)可测变量和公共因子之间的协方差即为因子负载。
上述的协方差结构()—()为我们分析因子模型的适合度、选择和评价公共因子等方面提供了依据。
二、如何进行因子分析
统计软件,如SPSS等的广泛应用使因子分析的实际计算过程相当简易,但是对研究人员而言,明白一种分析方法的意义往往比知晓其计算过程更为重要。