文档介绍:第13章主成分分析和因子分析
第1页,共21页,2022年,5月20日,15点12分,星期五
主成分分析
主成分分析的基本原理
主成分分析的数学模型
主成分分析的合作主成分分析
第9页,共21页,2022年,5月20日,15点12分,星期五
Stata的输出结果(选择主成分)
该表是选则主成分的主要依据
第10页,共21页,2022年,5月20日,15点12分,星期五
“Initial Eigenvalues”(初始特征根)
实际上就是本例中的9个主轴的长度
特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息
特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率
设特征根为,则第i个主成分的方差贡献率为
比如,,占总特征根的的比例(方差贡献率)%,%的信息,可见第一个主成分对原来的9个变量解释的还不是很充分
根据什么选择主成分?
第11页,共21页,2022年,5月20日,15点12分,星期五
根据主成分贡献率
一般来说,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分
%
根据特特征根的大小
一般情况下,当特征根小于1时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大
比如表中除前3个外,其他主成分的特征根都小于1。所以只选择了3个主成分
根据什么选择主成分?
第12页,共21页,2022年,5月20日,15点12分,星期五
Stata还提供了一个更为直观的图形工具来帮助选择主成分,即碎石图(Scree Plot)
从碎石图可以看到9个主轴长度变化的趋势
实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前3个主成分即可
根据什么选择主成分? (Scree Plot)
第13页,共21页,2022年,5月20日,15点12分,星期五
怎样解释主成分?
主成分的因子载荷矩阵
表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aij
比如,第一主成分所在列的系数-(ROA)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大
第14页,共21页,2022年,5月20日,15点12分,星期五
载荷图(Loading Plot)直观显示主成分对原始9变量的解释情况
图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数
每一个变量对应的主成分载荷就对应坐标系中的一个点
第一个主成分很充分地解释了原始的后4个变量(与每个原始变量都有较强的正相关关系),第二个主成分则较好地var2,var3,var5,var6这2个变量(与它们的相关关系较高),而与其他变量的关系则较弱(相关系数的点靠近坐标轴)
怎样解释主成分? (Loading Plot)
第15页,共21页,2022年,5月20日,15点12分,星期五
因子分析
因子分析的基本原理
因子分析的数学模型
因子分析的步骤
因子分析的Stata命令
第16页,共21页,2022年,5月20日,15点12分,星期五
因子分析可以看作是主成分分析的推广和扩展,但它对问题的研究更深入、更细致一些。实际上,主成分分析可以看作是因子分析的一个特例
简言之,因子分析是通过对变量之间关系的研究,找出能综合原始变量的少数几个因子,使得少数因子能够反映原始变量的绝大部分信息,然后根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。因此,因子分析属于多元统计中处理降维的一种统计方法,其目的就是要减少变量的个数,用少数因子代表多个原始变量
什么是因子分析? (factor analysis)
第17页,共21页,2022年,5月20日,15点12分,星期五
原始的p个变量表达为k个因子的线性组合变量
设p个原始变量为 ,要寻找的k个因子(k<p)为 ,主成分和原始变量之间的关系表示为
因子分析的数学模型
因子分析的数学模型
系数aij为第个i变量与第k个因子之间的线性相关系数,反映变量与因子之间的相关程度,也称为载荷(lo