文档介绍:2014数学建模培训
11/18/2017
1
第10讲主成分分析与因子分析
11/18/2017
2
一、主成分分析
11/18/2017
3
1. 引言
引例1 居民生活质量综合评价。
为了全面分析我国各省市自治区的城市居民生活质量,选取如下六个指标:人均工资、人均住房面积、人均道路面积、人均公园绿地面积、商品销售总额、旅游外汇收入。
假设给定了各省市自治区的上述
11/18/2017
4
六个指标数据,试对各省市自治区的居民生活质量进行综合评价。
事实上,上述六个指标存在一定的相关性,应该将它们综合成几个不相关的指标后再进行分析。
引例2 量体裁衣。
上衣尺寸特征有:领长、袖长、衣长、胸围、袖宽、肩宽等,每个人
11/18/2017
5
元统计中也称为“变量”。例如在评价企业业绩时,要考虑利润、产值、产品数量、产品质量、固定资产、流动资产等。若要全部列出,可能有几十个指标。
但选取的变量过多,不但会增加计算量,而且由于这些变量间可能高度相关,从而造成信息的重叠,给问
11/18/2017
7
题的分析和解释带来困难,甚至会影响最终统计分析的结果。例如在进行回归分析时,变量间的多重共线性会使得回归分析的结果受到质疑。
因此,人们希望对这些相关的众多变量进行“降维”,即用少数不相关的新变量反映原始变量所提供的绝大部分信息,通过对新变量的分析解决
11/18/2017
8
问题。由这几个新变量出发还可以得到一个总的指标,按此总指标来进行排序、分类,问题就可能简单得多。
降维的常用统计方法有主成分分析和因子分析。
主成分分析由Pearson于1901年首先提出,后由Hotelling于1933年进行了发展。
11/18/2017
9
主成分利用降维的思想,在保证信息损失最少的原则下,将多个原始指标转化为几个综合指标。
转化后的综合指标称为主成分,主成分是原始变量的线性组合,且主成分间互不相关。
需要注意的是,主成分分析往往只是一个中间过程,需要与其它方法
11/18/2017
10