文档介绍:主成分分析和因子分析
汇报什么?
假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。
如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?
当然不能。
你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。
对众多变量进行降维
每个人都会遇到有很多变量的数据。
比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。
这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的,即有很多重叠信息。人们希望能够找出它们的少数“代表”来对它们进行描述。
本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(ponent analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。
成绩数据()
100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。
从本例可能提出的问题
目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?
这一两个综合变量包含有多少原来的信息呢?
能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。
主成分分析(ponents Analysis)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
例中的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。由于6维空间无法直接观察,因此,我从2维空间开始解释主成分分析的原理。
主成分分析原理
当散点呈椭圆状分布时,代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。
但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。
如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。
椭圆(球)的长短轴相差得越大,降维也越有道理。
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
主成分分析的几何解释
平移、旋转坐标轴
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
主成分分析的几何解释
平移、旋转坐标轴
•