《《典型相关》课件.ppt》由会员分享,可在线阅读,更多相关《《典型相关》课件.ppt(135页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Canonical Correlation Analysis典型相关分析典型相关分析引言引言 典典型型相相关关分分析析是是研研究究两两组组变变量量之之间间相相关关关关系系的的一种统计方法。一种统计方法。在在科科学学研研究究中中常常需需要要分分析析一一组组个个指指标标与与另另一一组组个个指指标标的的相相关关关关系系,简简单单的的方方法法两两两两指指标标间间分分别别统统计计简简单单相相关关关关系系,得得到到个个相相关关系系数数,用用这这些些相相关关系系数数反反映映两两组组变变量量间间的的关关系系。但但这这样样做做即即繁繁琐琐又又抓抓不不住住要要领领。更更有有效效的的方方法法是是类类似似主主成成分分
2、分分析析,考考虑虑每每组组变变量量的的线线性性组组合合,从从这这两两族族线线性性组组合合中中找找出出最最相相关关的的组组合合变变量量,通通过过少少数数几几个个综综合合变变量量来来反反映映两两组组变变量量间间的的相相关关关关系系,这这样样就就可可以以抓抓住住它它们们的的主主要要关关系系,而而且且简简明。这就是典型相关分析的基本思想。明。这就是典型相关分析的基本思想。1.两个随机变量Y与X 简单相关系数2.一个随机变量Y与一组随机变量X1,X2,Xp 多重相关(复相关系数)3.一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型典型典型典型(则则则则)相关系数相关系数相关系数相关系数
3、何时采用典型相关分析何时采用典型相关分析 典型相关分析示意图 X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5CanR1CanR2CanR3CanR4CanR5典型相关和典型相关变量的定义典型相关变量的一般求法典型相关变量的一般求法 第一对典型相关变量的求法第一对典型相关变量的求法典型相关变量的性质典型相关变量的性质例子(数据tv.txt)业内人士和观众对于一些电视节目的观点有什么样的关系呢?该数据是不同的人群对30个电视节目所作的平均评分。观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成第一组变量;而业内人士分评分来自包
4、括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。人们对这样两组变量之间的关系感到兴趣。计算结果 下面一个表给出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累积百分比(Cum.Pct)和典型相关系数(Canon Cor)及其平方(Sq.Cor)。看来,头两对典型变量(V,W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。计算结果 对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1、V2和V3的系数,即典型系数(canonical coeffi
5、cient)。这些系数以两种方式给出;一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。可以看出,头一个典型变量可以看出,头一个典型变量V1相应于前相应于前面第一个(也是最重要的)特征值,主面第一个(也是最重要的)特征值,主要代表高学历变量要代表高学历变量hed;而相应于前面;而相应于前面第二个(次要的)特征值的第二个典型第二个(次要的)特征值的第二个典型变量变量V2主要代表低学历变量
6、主要代表低学历变量led和部分的和部分的网民变量网民变量net,但高学历变量在这里起负,但高学历变量在这里起负面作用。面作用。计算结果 类似地,也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数:。例子结论 从这两个表中可以看出,V1主要和变量hed相关,而V2主要和led及net相关;W1主要和变量arti及man相关,而W2主要和com相关;这和它们的典型系数是一致的。由于V1和W1最相关,这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关;而由于V2和W2也相关,这说明V2所
7、代表的低学历(led)及以年轻人为主的网民(net)观众和W2所主要代表的看重经济效益的发行人(com)观点相关,但远远不如V1和W1的相关那么显著(根据特征值的贡献率)。(二)典型相关系数计算实例1.求X,Y变量组的相关阵R=1985年中国28 省市城市男生(1922岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为Y1,Y2,Y5。现欲研究这两组变量之间的相关性。简单相关系数矩阵 CorrCorr(X X)R R1111CorrCorr(Y Y
8、)R R2222CorrCorr(Y Y,X X)R R2121CorrCorr(X X,Y Y)R R1212简单相关系数公式符号CorrCorr(X X)R R1111CorrCorr(Y Y)R R2222CorrCorr(Y Y,X X)R R2121CorrCorr(X X,Y Y)R R1212(一)求解典型相关系数的步骤1.求X,Y变量组的相关阵R=2.求矩阵A、B 3.4.可以证明A、B有相同的非零特征根5.3.求A或B的i(相关平方)与CanRi,i1,m6.4.求A、B关于i的特征根向量即变量系数2.求矩阵A、BA矩阵(pp)0.5298 0.4586 0.3053 0.3
9、986-0.2919-0.1778-0.0912-0.0701-0.1669-0.1939-0.0007-0.0168 0.2274 0.2739 0.5489 0.0840 0.5238 0.4468 0.0966 0.0376 0.0510 0.3877-0.2523-0.1759-0.0915-0.0979-0.0669-0.0377 0.0061-0.0806 0.0949 0.1421 0.1757-0.0210 0.2171 0.3142 B矩阵(qq)0.2611-0.0560-0.0337-0.0551-0.0312-0.0053 0.5572 0.1009 0.0034-0.
10、0543-0.0632-0.0843 0.0859 0.0013 0.1743-0.1175-0.0007 0.1183 0.2550 0.1490-0.1052 0.1390 0.3531 0.2912 0.5573 3.求矩阵A、B的(相关系数的平方)A A、B B有相同的非零特征值有相同的非零特征值B矩阵求(典型相关系数的平方)0.2611-0.0560-0.0337-0.0551-0.0312-0.0053 0.5572-0.1009 0.0034-0.0543-0.0632-0.0843 0.0859-0.0013 0.1743-0.1175-0.0007 0.1183 0.2550
11、-0.1490-0.1052 0.1390 0.3531 0.2912 0.5573-5个与典型相关系数1 0.76432 0.5436 3 0.2611 40.1256 50.0220 4.求A、B关于i的变量系数(求解第1典型变量系数)求解第2典型变量系数 求解第5典型变量系数 5组(标准化)典型变量系数(X)U1U2U3U4U5X10.5852-1.1443 0.7823 0.0352-0.8298 X2-0.2175 0.0189 0.6032 0.1289 1.5590 X30.5288 1.6213-0.7370-0.4066-1.1704 X40.1890-0.9874-0.77
12、53 0.1229 0.6988 X5-0.1193-0.0626-0.2509-0.5860 1.0488 X60.1948 0.8108 0.1467 0.9523-0.5140 5组(标准化)典型变量系数(X)由标准化典型变量系数获得原变量X对应的粗典型变量系数粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。5组(标准化)典型变量系数(Y)V1V2V3V4V5Y1-0.0838-0.1325 1.0807 0.3750-0.0376 Y2-0.0878 1.2688 0.0701 0.2476-0.3342 Y30.2147-0.3301 0.2218-1.0863 1.410
13、0 Y40.2920-0.2392-0.5765 1.3368-0.2942 Y50.7607-0.2995 0.6532-0.0017-0.6905(三)典型相关系数的特点 1.两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变)2.第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即CanR1max(|Corr(Xi,Yj)|)或CanR1max(|Corr(X,Yj)|)max(|Corr(Xi,Y)|)(四)校 正 典 型 相 关 系 数(Adjusted Canonical Correlation)为了使
14、结果更加明了,增加大值或小值,减少之间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。缺点:1.可能影响max(U1,V1);2.影响(U1,V1)与其他典型变量间的独立性。(五)典型相关系数的标准误(六)E1H的特征值(见典型判别、MANOVA,E误差项,H组间变异)Eigenvalues of Inv(E)*H =CanRsq/(1-CanRsq)Eigenvalue Difference Proportion Cumulative 1 3.2422 2.0510 0.6546 0.6546 2 1.1912 0.8379 0.2405 0.8951 3 0.3533 0.2097
15、 0.0713 0.9665 4 0.1436 0.1212 0.0290 0.9955 5 0.0225 0.0045 1.0000(七)典型相关系数的假设检验 1.全部总体典型相关系数均为02.部分总体典型相关系数为01.全部总体典型相关系数为0F近似检验(SAS结果)Test of H0:The canonical correlations in the current row and all that follow are zeroLikelihood Approximate Ratio F Value Num DF Den DF Pr F1 0.06798466 2.24 30 70
16、 0.00302 0.28840509 1.38 20 60.649 0.16863 0.63195301 0.80 12 50.561 0.65044 0.85521598 0.54 6 40 0.77295 0.97803479 0.24 2 21 0.7920F近似检验(计算公式)多变量统计量与F近似检验 Multivariate Statistics and F ApproximationsStatistic Value F Value Num DF Den DF Pr FWilks Lambda 0.06798 2.24 30 70 0.0030Pillais Trace 1.716
17、51 1.83 30 105 0.0133Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032 Roys Greatest Root 3.24221 11.35 6 21 F 1 1.6532 1.6465 0.9959 0.9959 0.37438667 6.66 4 42 0.0003 2 0.0067 0.0041 1.0000 0.99332139 0.15 1 22 0.70427.典型相关系数的多变量统计量及典型相关系数的多变量统计量及其假设检验其假设检验 Multivariate Statistics and F Approxi
18、mations Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.37438667 6.66 4 42 0.0003 Pillais Trace 0.62977475 5.06 4 44 0.0019 Hotelling-Lawley Trace 1.65991998 8.60 4 24.198 0.0002 Roys Greatest Root 1.65319646 18.19 2 22 .0001 NOTE:F Statistic for Roys Greatest Root is an upper bound.NOTE:F
19、 Statistic for Wilks Lambda is exact.简 单 实 例(P293页 9.2题)计 算8.求求A A、B B关于关于i i的特征向量,即典的特征向量,即典型变量系数型变量系数 Canonical Correlation Analysis Standardized Canonical Coefficients for the VAR Variables u1 u2 x1 0.5667 -1.3604 x2 0.5069 1.3838 Standardized Canonical Coefficients for the WITH Variables v1 v2 y
20、1 0.5184 -1.7857 y2 0.5233 1.7842矩阵矩阵A A的的第1特征值为0.623096简 单 实 例(P293页 9.2题)计 算典型变量的表达式典型变量的表达式9.典型结构分析(可观察典型变量的典型结构分析(可观察典型变量的意义)意义)u1 u2 x1 0.9390 -0.3439 x2 0.9231 0.3845 v1 v2 y1 0.9596 -0.2814 y2 0.9604 0.2788 v1 v2 x1 0.7412 -0.0281 x2 0.7287 0.0314 u1 u2 y1 0.7575 -0.0230 y2 0.7581 0.022810.冗余
21、分析(对方典型变量可解释冗余分析(对方典型变量可解释的信息)的信息)Canonical Redundancy Analysis Standardized Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Canonical Variable Cumulative Canonical Cumulative Number Proportion Proportion R-Square Proportion ProportionX 1 0.8
22、669 0.8669 0.6231 0.5402 0.5402 2 0.1331 1.0000 0.0067 0.0009 0.5411 Y 1 0.9215 0.9215 0.6231 0.5742 0.5742 2 0.0785 1.0000 0.0067 0.0005 0.574711.基于典型变量回归的确定系数基于典型变量回归的确定系数 Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 x1 0.5
23、494 0.5502 x2 0.5310 0.5320 M 1 2 y1 0.5737 0.5743 y2 0.5747 0.5752九、SAS计 算 程 序(1)PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;VAR x1 x2;WITH y1 y2;RUN;九、SAS计 算 程 序(2)DATA canocorr(TYPE=CORR);INPUT _NAME_$x1 x2 y1 y2;_ TYPE_=CORR;CARDS;x110.734560.719150.70398x20.7345610.690380.70855y10.719150.6903810.84307y20.703980.708550.843071;PROC CANCORR DATA=canocorr ALL EDF=24;*EDF=n-1;VAR x1 x2;WITH y1 y2;RUN;
限制150内