文档介绍:经济预测与决策EconomicForecastandDecisionMaking主讲:徐瑞E-mail:******@1第十章对应分析第1节对应分析概述第2节对应分析的基本步骤教学时数:22第1节对应分析概述一、对应分析的提出1、社会科学的定量研究常常会研究两个或多个品质型变量的相关关系,这种研究通常从两个变量的列联表(参见表11-2)入手。(1)如果行分类与列分类相互独立,则有因此,我们可以通过研究行分类与列分类同时出现的实际概率与期望概率的差别大小来判断行列分类是否独立。(2)列联表检验的原假设:行变量与列变量相互独立,采用检验。32、当变量的分类值较多时,这种分析常常难以解释变量之间的联系。(1)变量分类值较多使列联表庞大,不易于对列联表进行直观的观察,难以揭示行列变量间的联系。(2)常见的分析方法侧重于揭示两个变量之间的关联,却淡化了变量各分类之间的内在关联。二、对应分析的基本思想1、对应分析(CorrespondenceAnalysis):以两个变量的列联表为研究对象,运用降维的方法,通过图形方式直观揭示变量不同分类之间的对应关系。42、对应分析的基本思想:当行变量和列变量分类较多时,可以把行变量的各取值视作n维空间上的m个点,而列变量的各取值可以看作m维空间上的n个点,然后采用降维的方法将行变量和列变量各分类表现在一张二维图上。(1)编制两个品质变量的列联表,将表中的每个数据单元看作两个变量在相应类别上的对应点。(2)将变量之间的联系同时反映在一张二维或三维的散点图——对应分析图上,使联系密切的类别点较集中,联系疏远的类别点较分散。(3)通过观察对应分布图揭示变量类别之间的联系。5第2节对应分析的基本步骤一、编制列联表,计算概率矩阵编制两个品质变量的列联表,两个变量分别称为行变量和列变量。r为行变量的分类数(水平数),c为列变量的分类数,观察频数6计算规范化的概率意义上的列联表(矩阵):。根据概率矩阵还可以计算行变量和列变量的边缘概率,进而考察行变量与列变量是否相互独立。7二、根据概率矩阵确定数据点的坐标1、将概率矩阵的r行看成r个样本,并将这r个样本看成c维空间中的r个数据点,且各数据点的坐标为:其中,。2、由于列联表的研究是对等的,对列也做类似的处理。3、如果两个数据点比较接近,则表明行(列)变量的相应两个类别在列(行)变量所有类别上的频数分布差异均不明显。8三、对行变量和列变量进行降维处理1、将概率矩阵的c列看做c个变量,计算c个变量的协方差矩阵RA。类似地,再计算r个行的协方差矩阵RB。矩阵RA和RB有相同的非零特征根(特征根数),但特征向量不同。2、基于矩阵RA做一次因子分析,得到行因素的各类别的因子载荷。基于矩阵RB做一次因子分析,得到列因素的各类别的因子载荷。3、通常取2个因子(特征值),这样可以在一张二维图上描绘两个变量各分类。9四、绘制行列变量的对应分析图1、因子载荷矩阵元素的取值范围相同且含义类似,可以将它们分别看作c个二维点和r个二维点。这些点实际上是两个多维空间上的点的二维投影。2、以因子载荷矩阵的第一个因子为横轴,第二个因子为纵轴,以两个因子的载荷值为坐标值在图上描点就得到对应分析图(因子载荷图)。3、对应分析只能以图形方式揭示变量之间的关系,而不能给出具体的统计量来度量这种相关程度,因此容易得出主观性较强的结论。10