1 / 47
文档名称:

SAS系统和数据分析典型相关分析.doc

格式:doc   大小:1,763KB   页数:47页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

SAS系统和数据分析典型相关分析.doc

上传人:yzhlyb 2018/8/20 文件大小:1.72 MB

下载得到文件列表

SAS系统和数据分析典型相关分析.doc

相关文档

文档介绍

文档介绍:典型相关分析
典型相关分析(Canonical Correlation Analysis)是研究两组变量间相关关系的一种多元统计分析方法。它能够揭示两组变量之间的内在联系,真正反映两组变量间的线性相关情况。
典型相关分析
我们研究过两个随机变量间的相关,它们可以用相关系数表示。然而,在实际中常常会遇到要研究两组随机变量间和的相关关系问题。和可能是完全不同的,但是它们的线性函数可能存在密切的关系,这种密切的关系能反映和之间的相关关系。因此,就要找出的一个线性组合及的一个线性组合,希望找到的和之间有最大可能的相关系数,以充分反映两组变量间的关系。这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。如果一对变量(,)还不能完全刻画两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(,)不相关的情况下也具有尽可能大的相关系数。直到进行到找不到相关变量对时为止。这便引导出典型相关变量的概念。
典型相关系数与典型相关变量
设有两组随机变量和,假定它们都已经标准化了,即,,若记:
此时,它们的协方差矩阵(也是相关系数矩阵)为:
其中,
实际上,我们要找:
使和的相关系数达到最大。由于对任意常数,,,,有(其中,),因而不妨假定:
()
()
此时,。在与的条件下,使达到最大的与分别与和组成的新变量:
()
称为第一对典型变量,其相关系数称为第一典型相关系数。若用一对变量还不足以完全反映两组变量的相关时,可以定义第二对典型变量,这时除要求, 外,还要求,,和,在这些条件下使达到最大。一般地,第对典型变量定义如下:
称为第对典型变量,其系数向量与使达到最大,并且满足如下条件:
()
,此时称为第对典型相关系数。
求法
我们采用Lagrage乘子法,从开始逐一求、。下面仅以、的求法作一简述,以下假定是正定矩阵。记:
()
其中,、为Lagrage乘子,用、表示仅仅为了下面计算式的简单而已。将
对、分别求偏导,并令其为0,再与约束条件联立,则、应满足以下方程组:
()
在式()的前二式两边左乘和,并利用式()的后二式有:
,
()
由于,故有。再由()及的非奇异性知:
()
将其代入式(),则:
()
再由的非奇异性知:
()
记,式()表明是的特征根,是其对应的特征向量。又由式()知是与的相关系数,要求其达到最大, 一定是的最大特征根,是最大特征根对应的特征向量;进而可由式()求出。第一典型相关系数是的最大特征根的算术根。
其实也可证明是的最大特征根对应的特征向量。由于M1 与M2 有相同的非零特征根,因此,此时求出的和直接从式()求出的是一致的。
用同样方法可知是M1的第二大的特征根对应的特征向量,可通过下式求出:
()
一般来说,可求出M1 的个非零特征根,M1对应于这些特征根的特征向量分别记为、、…、,进而:
()
j = 1,2, …,r,以、为系数可组成第对典型变量,。第对典型变量对应的相关系数是的算术根,这便是第个典型相关系数,j = 1,2, …,r,这里r ≤min(p ,q) 。
实际应用中,通常是未知的,已知的只是的个样品:
,,…,。
我们只能从样本去其估计、和。然后,用相应的估计量代替中相应的未知参数矩阵,因此要考虑矩阵的非零特征根及相应的特征向量,有关的计算可按以前讨论的方法进行。
应注意的几个问题
典型相关是研究两组变量之间相关性的一种统计分析方法。与主成分分析一样,它也是一种降维技术。多重相关是典型相关的一个特例,简单相关是多重相关的一个特例。
第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减,各对典型相关所含的信息互不重复。
经标准化的两组变量间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的。
典型变量的最大对数等于两组变量中较少一组的变量个数。
每个典型变量除在另一组里与其配对的那个典型变量外,它同所有其他典型变量均不相关。
第一对典型相关的大小至少同任一变量与对应的那组变量间的多重相关一样大。
至于选取多少对典型相关可通过检验来确定。
Cancorr典型相关分析过程
描述两组变量之间的相关性,可用典型相关过程cancorr完成。简单相关和多重相关都是典型相关的特殊情况,此时两组变量中有一组或两组只含一个变量。对于两组变量,如果一组变量用x表示,另一组变量用y表示,那么典型相关分析就是找出(>l)个变量的线性组合值与(>l)个变量的线性组合值,使两者