文档介绍:数据分析-因子分析
第一页,共40页。
§1 引言
因子分析(factor analysis)是一种数据简化的技术。
原理:通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结十八页,共40页。
变换后因子贡献
设正交矩阵,做正交变换
变换后因子的贡献发生了变化!
*
第十九页,共40页。
1、方差最***
方差最***从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上又较高的载荷时,对因子的解释最简单。方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于1,另一部分趋于0。
*
第二十页,共40页。
2、四次方最大旋转
四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上又较高的载荷,而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上又非零的载荷,这时的因子解释是最简单的。
四次方最***通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。
*
第二十一页,共40页。
3、等量最***
等量最***把四次方最***和方差最***结合起来求Q和V的加权平均最大。
*
第二十二页,共40页。
§ 5 因子得分
(一)因子得分的概念
前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。
*
第二十三页,共40页。
1、巴特莱特因子得分(加权最小二乘法)
巴特莱特因子得分计算方法的思想 :
把 看作因变量;
把因子载荷矩阵 看成自变量的观测;
把某个个案的得分 看着最小二乘法需要求的系数 。
*
第二十四页,共40页。
由于特殊因子的方差相异,所以用加权最小二乘法求得分,每个各案作一次,要求出所有样品的得分,需要作 次。
*
第二十五页,共40页。
2、Thompson方法
*
第二十六页,共40页。
则,我们有如下的方程组:
*
第二十七页,共40页。
j=1,2,…,m
*
第二十八页,共40页。
注:共需要解m次才能解
出 所有的得分函数的系数。
*
第二十九页,共40页。
§ 6 因子分析的步骤、展望和建议
计算所选原始变量的相关系数矩阵
相关系数矩阵描述了原始变量之间的相关关系。可以
帮助判断原始变量之间是否存在相关关系,这对因子分析
是非常重要的,因为如果所选变量之间无关系,做因子分
析是不恰当的。并且相关系数矩阵是估计因子结构的基础。
选择分析的变量
用定性分析和定量分析的方法选择变量,因子分析的前
提条件是观测变量间有较强的相关性,因为如果变量之间
无相关性或相关性较小的话,他们不会有共享因子,所以
原始变量间应该有较强的相关性。
一、 因子分析通常包括以下五个步骤
*
第三十页,共40页。
提取公共因子
这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到60%才能符合要求;
因子旋转
通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。
*
第三十一页,共40页。
计算因子得分
求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。
*
第三十二页,共40页。
(二)展望和建议
在因子分析研究中,必须做出许多决策。大概最重要的决策是选择公共因子数m。虽然已知m时对模型充分性有大样本检验,但这只是对近似正态分布的数据适用。而且,若变量数和观测数都大,检验将会很有把握地拒绝小m的模型,而正是此时因子分析可提供一个有用的近似。最为常见的是,m最后的选定基于下述考虑的综合:(1) 所解释的样本方差的比例;
(2) 题材知识;