第10章 典型相关分析.ppt
《第10章 典型相关分析.ppt》由会员分享,可在线阅读,更多相关《第10章 典型相关分析.ppt(117页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章典型相关分析典型相关分析CanonicalCorrelationAnalysis 1.两个随机变量两个随机变量Y与与X简单相关系数简单相关系数2.一个随机变量一个随机变量Y与一组随机变量与一组随机变量X1,X2,Xp多重相关多重相关(复相关系数复相关系数)3.一组随机变量一组随机变量Y1,Y2,Yq与另一组随机变量与另一组随机变量X1,X2,Xp典型相关系数典型相关系数何时采用典型相关分析何时采用典型相关分析 典型相关是简单相关、多重相关的推广;典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关或者说简单相关系数、复相关系数是典型相关系数的特例。系数的特例
2、。典型相关典型相关是研究是研究两组变两组变量之间量之间相关性的一种统计分析相关性的一种统计分析方法方法.也是一种降维技术也是一种降维技术.由由Hotelling(1935,1936)最早提最早提出,出,CooleyandLohnes(1971)、Kshirsagar(1972)和和Mardia,Kent,andBibby(1979)推动了它的应用。推动了它的应用。vv什么是典型相关分析?什么是典型相关分析?vv典型相关分析是研究两组变量之间相典型相关分析是研究两组变量之间相关关系的一种多元统计分析方法它关关系的一种多元统计分析方法它借用借用主成分分析降维的思想主成分分析降维的思想,分别对两组变
3、量,分别对两组变量提取主成分,且使两组变量提取的主成分提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系两组变量整体的线性相关关系典型相关关系研究两组变量之间整体的线典型相关关系研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内整体来进行研究而不是分析每一组变量内部的各个变量所研究的两组变
4、量可以是部的各个变量所研究的两组变量可以是一组为自变量,而另一组变量为因变量;一组为自变量,而另一组变量为因变量;两组变量也可以是同等的地位,但典型相两组变量也可以是同等的地位,但典型相关关系要求两组变量都至少是间隔尺度关关系要求两组变量都至少是间隔尺度 通常情况下,为了研究两组变量通常情况下,为了研究两组变量的的相相关关关关系系,可可以以用用最最原原始始的的方方法法,分分别别计计算算两两组组变变量量之之间间的的全全部部相相关关系系数数,一一共共有有pq个个简简单单相相关关系系数数,这这样样又又烦烦琐琐又又不不能能抓抓住住问问题题的的本本质质。如如果果能能够够采采用用类类似似于于主主成成分分的
5、的思思想想,分分别别找找出出两两组组变变量量的的各各自自的的某某个个线线性性组组合合,讨讨论论线线性性组组合合之之间间的的相相关关关关系系,则则更更简简捷。捷。在在解解决决实实际际问问题题中中,这这种种方方法法有有广广泛泛的的应应用用。如如,在在工工厂厂里里常常常常要要研研究究产产品品的的q个个质质量量指指标标和和p个原材料的指个原材料的指标标之之间间的的相相关关关关系系;也也可可以以是是采采用用典典型型相相关关分分析析来来解解决决的的问问题题。如如果果能能够够采采用用类类似似于于主主成成分分的的思思想想,分分别别找找出出两两组组变变量量的的线线性性组组合合既既可可以以使使变量个数简化,又可以
6、达到分析相关性的目的。变量个数简化,又可以达到分析相关性的目的。例例 家庭特征与家庭消费之间的关系家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了调查了调查了7070个家庭的下面两组变量:个家庭的下面两组变量:个家庭的下面两组变量:个家庭的下面两组变量:分析两组变量之间的关系。分析两组变量之间的关系。分析两组变量之间的关系。分析两组变量之间的关系。X1X2Y1Y2Y3X11.000.800.260.670.34X20.801.000.
7、330.590.34Y10.260.331.000.370.21Y20.670.590.371.000.35Y30.340.340.210.351.00变量间的相关系数矩阵变量间的相关系数矩阵Y2Y3Y1X2X1 典型相关分析的思想:典型相关分析的思想:首先分别在每组变量中找出第一对线性组首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,合,使其具有最大相关性,然后再在每组变量中找出第二对线性组然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。关,第二对本身具有次大的相关性。V2和和W2与与V
8、1和和W1相互独立相互独立,但但V2和和W2相关相关.如如此继续下去此继续下去,直至进行到直至进行到r 步步,两组变量的相关性两组变量的相关性被提取完为止被提取完为止.R min(p,q),可以得到可以得到r 组变量组变量.典型相关的数学描述典型相关的数学描述一般地一般地,假设有一组变量假设有一组变量X1,Xp与与Y1,Yq,我们我们要研究这两组变量的相关关系要研究这两组变量的相关关系,如何给两组变量之间的如何给两组变量之间的相关性以数量的描述相关性以数量的描述?当当p p=q q=1=1时时,就是研究两个变量就是研究两个变量X 与与Y 之间的相关关系之间的相关关系.相关系数就是最常见的度量相
9、关系数就是最常见的度量,其定义为其定义为当当p p1,1,q q=1(=1(或或或或 q q1,1,p p=1)=1)时时,p维随机向量维随机向量设设则称则称为为Y与与X1,Xp的的全相关系数全相关系数全相关系数全相关系数,全相关系数用于度量一个随机变全相关系数用于度量一个随机变量量Y与一组随机向量与一组随机向量X1,Xp的相关关系的相关关系.当当p p,q q 11时时,利用主成分分析的思想利用主成分分析的思想,可以把多个变量与多可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关个变量之间的相关化为两个新的综合变量之间的相关.也就是也就是求求和和,使得新的综合变量使得新的综合变
10、量和和之间有最大可能的相关之间有最大可能的相关,基于这个思想就产生了典型相关分析基于这个思想就产生了典型相关分析.10.1总体典型相关总体典型相关设设及及为随机向量为随机向量,我们用我们用X 和和Y 的线性组合的线性组合和和之间的相关性来研究两组随机变量之间的相关性来研究两组随机变量X 和和Y 之间的相关性之间的相关性.我们希望找到我们希望找到 和和 ,使使最大最大.由相关系数的定义由相关系数的定义易得出对任意的常数易得出对任意的常数e,f,c和和d,均有均有这说明使得相关系数最大的这说明使得相关系数最大的并不唯一并不唯一.故求综合变量故求综合变量常限定常限定,.于是有以下定于是有以下定义义.
11、定义定义定义定义10.1.110.1.1设设p+q 维随机维随机向量向量的均值向量为的均值向量为0,协方差阵协方差阵 0(不妨设不妨设pq).如果如果存在存在和和使得使得则称则称是是X,Y的的第一组第一组第一组第一组(对对对对)典型相关变量典型相关变量典型相关变量典型相关变量,它们之间的它们之间的相相关系数称为关系数称为第一个典型相关系数第一个典型相关系数第一个典型相关系数第一个典型相关系数.则称则称是是X,Y的的第第第第 k k 组组组组(对对对对)典型相关变量典型相关变量典型相关变量典型相关变量,它们之间的它们之间的相相关系数称为关系数称为第第第第 k k 个典型相关系数个典型相关系数个典
12、型相关系数个典型相关系数(k=2,p).如果存在如果存在使得使得典型相关变量的解法典型相关变量的解法设随机向量设随机向量其中其中(不妨设不妨设pq);E(Z)=0;以及以及D(Z)=1.1.第一对典型相关变量的求法第一对典型相关变量的求法第一对典型相关变量的求法第一对典型相关变量的求法令令则则V,W 的相关系数的相关系数求第一对典型相关变量就等价于求求第一对典型相关变量就等价于求和和使使用拉格朗日乘子法用拉格朗日乘子法,令令(其中其中 1和和 2为拉格朗日乘为拉格朗日乘子子)为求为求 的极大值的极大值,对上式分别关于对上式分别关于 ,求偏导求偏导,并令其为零并令其为零,得得(10.1.(10.
13、1.1)1)再分别用再分别用左乘方程左乘方程(10.1.1)def 得得则方程组则方程组(10.1.1)等价于等价于(10.1.(10.1.2)2)则方程组则方程组(10.1.2)有非零解的充要条件是有非零解的充要条件是(10.1.3)该方程的左端是该方程的左端是 的的p+q次多项式次多项式.求解求解 的高次方程的高次方程(10.1.3),把求得的最大的把求得的最大的 代回方程组代回方程组(10.1.2),再求得再求得 和和 ,从而得出从而得出第一对典型相关变量第一对典型相关变量.具体计算时具体计算时,因因 的高次方程的高次方程(10.1.3)不易解不易解;将其代入方程将其代入方程组组(10.
14、1.2)后还需求解后还需求解(p+q)阶方程阶方程.为了计算上的简便为了计算上的简便,常作以下常作以下变换变换:用用 12 22-1左乘方程组左乘方程组(10.1.2)的第二的第二项项,得得()将上将上()式代入方程组式代入方程组(10.1.2)得第一式得第一式得得:即即再用再用 11-1左乘上式得左乘上式得:的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为将将左乘左乘(10.1.2)的第一式的第一式,并将第二式代入并将第二式代入,得得()再用再用 22-1左乘左乘()式得式得:的特征根的特征根是是 ,相应的特征向,相应的特征向量为量为故求解方程故求解方程(10.1.3)等价于求解方
15、程组等价于求解方程组(10.1.4):(10.1.4)由于由于 110,220,故故 11-10,22-10.结结结结论论论论:2 2既既既既是是是是MM1 1又又又又是是是是MM2 2的的的的特特特特征征征征根根根根,和和和和 是是是是相相相相应应应应于于于于MM1 1和和和和MM2 2的特征向量。的特征向量。的特征向量。的特征向量。至此,典型相关分析转化为求至此,典型相关分析转化为求M1和和M2特特征根和特征向量的问题。征根和特征向量的问题。第第一一对对典典型型变变量量提提取取了了原原始始变变量量X与与Y之之间间相相关关的的主主要要部部分分,如如果果这这部部分分还还不不能能足足以以解解释释
16、原原始始变变量量,可可以以在在剩剩余余的的相相关关中中再再求求出出第第二二对典型变量和他们的典型相关系数。对典型变量和他们的典型相关系数。在剩余的相关中再求出第二对典型变量和他们的典型相关系在剩余的相关中再求出第二对典型变量和他们的典型相关系数数.设第二对典型变量为:设第二对典型变量为:求第二对典型相关变量就等价于求求第二对典型相关变量就等价于求 2和和 2,使使2.2.典型相关变量的一般求法典型相关变量的一般求法典型相关变量的一般求法典型相关变量的一般求法定理定理定理定理10.1.110.1.1设设(不妨设不妨设pq);E(Z)=0,D(Z)=,其中其中记记并设并设p 阶方阵阶方阵的特征值依
17、次为的特征值依次为而而l1,lp为为相应的单位正交特征向量相应的单位正交特征向量.令令为为X 和和Y 的第的第k 对典型相关变量对典型相关变量.k为第为第k个典型相关系数个典型相关系数.例例 家庭特征与家庭消费之间的关系家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量:分析两组变量之间的关系。分析两组变量之间的关系。X1X2Y1Y2Y3X11.000.800.260.670.34X20.801.000.330.590.34Y10.260.331.000.370.21Y20
18、.670.590.371.000.35Y30.340.340.210.351.00变量间的相关系数矩阵变量间的相关系数矩阵典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关系典型相关系数的平方数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数组典型变量的系数V1V2X1(就餐)就餐)0.76890.7689-1.4787X2(电影电影)0.27211.64431.6443Y组典型变量的系数组典型变量的系数W1W2Y1(年龄年龄)0.0
19、4911.00031.0003Y2(收入收入)0.89750.8975-0.5837Y3(文化文化)0.19000.2956典型变量的性质典型变量的性质1、同一组的典型变量之间互不相关、同一组的典型变量之间互不相关因为特征向量之间是正交的因为特征向量之间是正交的.故故X X组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:Y Y组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:2、不同组的典型变量之间相关性、不同组的典型变量之间相关性不同组内一对典型变量之
20、间的相关系数为不同组内一对典型变量之间的相关系数为同对则协方差为同对则协方差为,不同对则为零。,不同对则为零。3、Vi,Wi 的均值为的均值为0,方差为方差为1.例例 家庭特征与家庭消费之间的关系家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了调查了70个家庭的下面两组变量:个家庭的下面两组变量:分析两组变量之间的关系。分析两组变量之间的关系。X1X2Y1Y2Y3X11.000.800.260.670.34X20.801.000.330.590.34Y10.260.331.000.370.21Y20.670.590.371
21、.000.35Y30.340.340.210.351.00变量间的相关系数矩阵变量间的相关系数矩阵典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关系典型相关系数的平方数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数组典型变量的系数V1V2X1(就餐)就餐)0.76890.7689-1.4787X2(电影电影)0.27211.64431.6443Y组典型变量的系数组典型变量的系数W1W2Y1(年龄年龄)0.04911.00031.0
22、003Y2(收入收入)0.89750.8975-0.5837Y3(文化文化)0.19000.2956典型变量的结构(相关系数)典型变量的结构(相关系数)V1V2X10.9866-0.1632X20.88720.4614W1W2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的结构(相关系数)典型变量的结构(相关系数)W1W2X10.6787-0.0305X20.61040.0862V1V2Y10.28970.1582Y20.6757-0.0206Y30.35390.0563 两个反映消费的指标与第一对典型变量中两个反映消费的指标与第一对典型变量中V
23、1的相关系数分别为的相关系数分别为0.9866和和0.8872,可以看出,可以看出V1可以作为消费特性的指标,第一对典型变量可以作为消费特性的指标,第一对典型变量中中V1与与Y2之间的相关系数为之间的相关系数为0.9822,可见典型,可见典型变量变量V1主要代表了了家庭收入,主要代表了了家庭收入,V1和和W1的相的相关系数为关系数为0.6879,这就说明家庭的消费与一个,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;家庭的收入之间其关系是很密切的;第二对典型变量中第二对典型变量中V2与与X2的相关系数为的相关系数为0.4614,可以看出,可以看出V2可以作为文化消费特性的可以作为文化
24、消费特性的指标,第二对典型变量中指标,第二对典型变量中W2与与Y1和和Y3之间的之间的分别相关系数为分别相关系数为0.8464和和0.3013,可见典型变,可见典型变量量W2主要代表了家庭成员的年龄特征和教育主要代表了家庭成员的年龄特征和教育程度,程度,V2和和W2的相关系数为的相关系数为0.1869,说明文,说明文化消费与年龄和受教育程度之间的有关。化消费与年龄和受教育程度之间的有关。求解典型相关系数的步骤求解典型相关系数的步骤1.求求X,Y 变量组的相关阵变量组的相关阵R=2.求矩阵求矩阵A、B3.4.可以证明可以证明A、B有相同的非零特征根有相同的非零特征根5.3.求求A或或B的的i(相
25、关平方相关平方)与与Cov(Vi,Wi),i1,m6.4.求求A、B关于关于i的特征根向量即变量系数的特征根向量即变量系数典型相关系数计算实例典型相关系数计算实例已知已知X、Y的相关阵的相关阵R=试求试求X、Y 的典型相关变量和典型相关系数的典型相关变量和典型相关系数.Cov(X)R11Cov(Y)R22Cov(Y,X)R21Cov(X,Y)R121.求矩阵求矩阵A、BA(66)矩阵矩阵0.5298 0.5298 0.5298 0.5298 0.4586 0.4586 0.4586 0.4586 0.3053 0.3053 0.3053 0.3053 0.3986 0.3986 0.3986
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第10章 典型相关分析 10 典型 相关 分析
限制150内