文档介绍:数据分析(方法与案例)
作者 贾俊平
统计学
统 计 学
Statistics
*
模型选择是艺术,而不是科学。
数数据信息的最长的几个轴作为新变量,这样,降维过程也就完成了
主成分分析的基本思想 (以两个变量为例)
找出的这些新变量是原来变量的线性组合,叫做主成分
主成分分析的数学模型
主成分分析
*
数学上的处理是将原始的p个变量作线性组合,作为新的变量
设p个原始变量为 ,新的变量(即主成分)为 ,主成分和原始变量之间的关系表示为
主成分分析的数学模型
主成分分析的数学模型
aij为第i个主成分yi和原来的第j个变量xj之间的线性相关系数,称为载荷(loading)。比如,a11表示第1主成分和原来的第1个变量之间的相关系数,a21表示第2主成分和原来的第1个变量之间的相关系数
*
选择几个主成分?选择标准是什么?
被选的主成分所代表的主轴的长度之和占了主轴总程度之和的大部分
在统计上,主成分所代表的原始变量的信息用其方差来表示。因此,所选择的第一个主成分是所有主成分中的方差最大者,即Var(yi)最大
如果第一个主成分不足以代表原来的个变量,在考虑选择第二个主成分,依次类推
这些主成分互不相关,且方差递减
主成分的选择
*
究竟选择几个主成分才合适呢?
一般要求所选主成分的方差总和占全部方差的80%以上就可以了。当然,这只是一个大体标准,具体选择几个要看实际情况
如果原来的变量之间的相关程度高,降维的效果就会好一些,所选的主成分就会少一些,如果原来的变量之间本身就不怎么相关,降维的效果自然就不好
不相关的变量就只能自己代表自己了
主成分的选择
主成分分析的步骤
主成分分析
*
对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响
根据标准化后的数据矩阵求出相关系数矩阵
求出协方差矩阵的特征根和特征向量
确定主成分,并对各主成分所包含的信息给予适当的解释
主成分分析的步骤
*
【例12-1】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释
主成分分析 (实例分析)
31个地区的6项经济指标
SPSS
*
第1步 选择【Analyze】下拉菜单,并选择【Data Reduction-
Factor】,进入主对话框
第2步 在主对话框中将所有原始变量选入【Variables】
第3步 点击【Descriptives】,在【correlation Matrix】下选择
【Coefficirnts】,点击【Continue】回到主对话框
第4步 点击【Extraction】,在【Display】下选择【Scree
Plot】,点击【Continue】回到主对话框
第5步 点击【Rotation】,在【Display】下选择【Loading
Plot】,点击【Continue】回到主对话框
点击【OK】
用SPSS进行主成分分析
主成分分析
SPSS
*
SPSS的输出结果
各变量之间的相关系数矩阵
变量之间的存在较强的相关关系,适合作主成分分析
*
SPSS的输出结果(选择主成分)
各主成分所解释的原始变量的方差
该表是选择主成分的主要依据
*
“Initial Eigenvalues”(初始特征根)
实际上就是本例中的6个主轴的长度
特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息
特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率
设特征根为,则第i个主成分的方差贡献率为
比如,,占总特征根的的比例(方差贡献率)%,%的信息,可见第一个主成分对原来的6个变量解释的已经很充分了
根据什么选择主成分?
*
根据主成分贡献率
一般来说,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分
%
根据特特征根的大小
一般情况下,当特征根小于1时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大
比如表