生物数据统计分析方法第六章 (2).ppt
生物数据统计分析方法第六章现在学习的是第1页,共81页一、引言一、引言 现在学习的是第2页,共81页 1.两个随机变量Y与X 简单相关系数2.一个随机变量Y与一组随机变量X1,X2,Xp 多重相关(复相关系数)3.一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp 典型典型(则则)相关系数相关系数(一)何时采用典型相关分析(一)何时采用典型相关分析 典型相关是简单相关、多重相关的推广;或者典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的说简单相关系数、复相关系数是典型相关系数的特例。特例。现在学习的是第3页,共81页 典型相关典型相关是研究是研究两组变两组变量量之间相关性的一种统计分析之间相关性的一种统计分析方法。也是一种降维技术。方法。也是一种降维技术。由由Hotelling(1935,1936)Hotelling(1935,1936)最早提最早提出,出,Cooley and Lohnes(1971)Cooley and Lohnes(1971)、Kshirsagar(1972)Kshirsagar(1972)和和 Mardia,Kent,Mardia,Kent,and Bibby(1979)and Bibby(1979)推动了它的应用。推动了它的应用。现在学习的是第4页,共81页实例(X与Y地位相同)X X1 1,X X2 2,X Xp pY Y1 1,Y Y2 2,Y Yq q1 1临床症状临床症状所患疾病所患疾病2 2原材料质量原材料质量相应产品质量相应产品质量3 3居民营养居民营养健康状况健康状况4 4生长发育(肺活量)生长发育(肺活量)身体素质(跳高)身体素质(跳高)5 5人体形态人体形态人体功能人体功能现在学习的是第5页,共81页 1985年中国年中国28 省市城市男生省市城市男生(1922岁岁)的调查数据。记的调查数据。记形态指标形态指标身高身高(cm)、坐高、体重坐高、体重(kg)、胸围、胸围、肩宽肩宽、盆骨宽分盆骨宽分别为别为X1,X2,X6;机能指标机能指标脉搏脉搏(次次/分分)、收缩压、收缩压(mmHg)、舒张压、舒张压(变音变音)、舒张压舒张压(消音消音)、肺活量、肺活量(ml)分别为分别为Y1,Y2,Y5。现欲研究这两组变量之间的相。现欲研究这两组变量之间的相关性。关性。现在学习的是第6页,共81页 现在学习的是第7页,共81页简单相关系数矩阵简单相关系数矩阵 现在学习的是第8页,共81页简单相关系数公式符号简单相关系数公式符号CorrCorr(X X)R R1111CorrCorr(Y Y)R R2222CorrCorr(Y Y,X X)R R2121CorrCorr(X X,Y Y)R R1212现在学习的是第9页,共81页简单相关系数简单相关系数描述两组变量的相关关系的缺点描述两组变量的相关关系的缺点 只是孤立考虑单个只是孤立考虑单个X与单个与单个Y间的相关,没间的相关,没有考虑有考虑X、Y变量组内部各变量间的相关。变量组内部各变量间的相关。两组间有许多简单相关系数(实例为两组间有许多简单相关系数(实例为30个)个),使问题显得复杂,难以从整体描述。(复,使问题显得复杂,难以从整体描述。(复相关系数也如此)相关系数也如此)现在学习的是第10页,共81页(二)典型相关分析的思想(二)典型相关分析的思想采用主成分思想寻找第i对典型典型(相关相关)变量变量(Ui,Vi):典型相关系数典型相关系数典型变量系数或典型权重典型变量系数或典型权重 现在学习的是第11页,共81页 X*1,X*2,X*p和Y*1,Y*2,Y*q分别为X1,X2,Xp和Y1,Y2,Yq的正态离差标准化值。记第一对典型相关变量第一对典型相关变量间的典型相关系数为:CanR1Corr(U1,V1)(使U1与V1 间最大相关)第二对典型相关变量第二对典型相关变量间的典型相关系数为:CanR2Corr(U2,V2)(与U1、V1 无关;使U2与V2 间最大相关)第五对典型相关变量第五对典型相关变量间的典型相关系数为:CanR5Corr(U5,V5)(与U1、V1、U4、V4无关;U5与V5 间最大相关)有:1CanR1CanR2CanR50现在学习的是第12页,共81页典型相关变量的性质典型相关变量的性质现在学习的是第13页,共81页(三)典型相关分析示意图(三)典型相关分析示意图 X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5CanR1CanR2CanR3CanR4CanR5现在学习的是第14页,共81页二、典型相关系数及其检验二、典型相关系数及其检验 现在学习的是第15页,共81页(一)求解典型相关系数的步骤(一)求解典型相关系数的步骤1.求X,Y变量组的相关阵R=2.求矩阵A、B 3.4.可以证明A、B有相同的非零特征根5.3.求A或B的i(相关平方)与CanRi,i1,m6.4.求A、B关于i的特征根向量即变量系数现在学习的是第16页,共81页(二)典型相关系数计算实例(二)典型相关系数计算实例1.求X,Y变量组的相关阵R=现在学习的是第17页,共81页CorrCorr(X X)R R1111CorrCorr(Y Y)R R2222CorrCorr(Y Y,X X)R R2121CorrCorr(X X,Y Y)R R1212现在学习的是第18页,共81页2.求矩阵求矩阵A、B现在学习的是第19页,共81页A矩阵矩阵(pp)0.5298 0.5298 0.4586 0.4586 0.3053 0.3053 0.3986 0.3986-0.2919-0.2919-0.1778-0.1778-0.0912-0.0912-0.0701-0.0701-0.1669-0.1669-0.1939-0.1939-0.0007-0.0007-0.0168-0.0168 0.2274 0.2274 0.2739 0.2739 0.5489 0.5489 0.0840 0.0840 0.5238 0.5238 0.4468 0.4468 0.0966 0.0966 0.0376 0.0376 0.0510 0.0510 0.3877 0.3877-0.2523-0.2523-0.1759-0.1759-0.0915-0.0915-0.0979-0.0979-0.0669-0.0669-0.0377-0.0377 0.0061 0.0061-0.0806-0.0806 0.0949 0.0949 0.1421 0.1421 0.1757 0.1757-0.0210-0.0210 0.2171 0.2171 0.3142 0.3142 现在学习的是第20页,共81页B矩阵矩阵(qq)0.2611-0.0560-0.0337-0.0551-0.0312-0.0053 0.5572 0.1009 0.0034-0.0543-0.0632-0.0843 0.0859 0.0013 0.1743-0.1175-0.0007 0.1183 0.2550 0.1490-0.1052 0.1390 0.3531 0.2912 0.5573 现在学习的是第21页,共81页3.求矩阵求矩阵A、B的的(相关系(相关系数的平方)数的平方)A A、B B有相同的非零特征值有相同的非零特征值现在学习的是第22页,共81页B矩阵求矩阵求(典型相关系数的平方)(典型相关系数的平方)0.2611-0.2611-0.0560-0.0560-0.0337-0.0337-0.0551-0.0551-0.0312-0.0312-0.0053-0.0053 0.5572-0.5572-0.1009 0.1009 0.0034 0.0034-0.0543-0.0543-0.0632-0.0632-0.0843-0.0843 0.0859 0.0859-0.0013 0.0013 0.1743 0.1743-0.1175-0.1175-0.0007-0.0007 0.1183 0.1183 0.2550 0.2550-0.1490 0.1490-0.1052-0.1052 0.1390 0.1390 0.3531 0.3531 0.2912 0.2912 0.5573 0.5573-现在学习的是第23页,共81页5个个与典型相关系数与典型相关系数1 1 0.76430.76432 2 0.5436 0.5436 3 3 0.2611 0.2611 4 40.1256 0.1256 5 50.02200.0220 现在学习的是第24页,共81页4.4.求求A A、B B关于关于i i的变量系数的变量系数(求解第(求解第1 1典型变量系数)典型变量系数)现在学习的是第25页,共81页求解第求解第2 2典型变量系数典型变量系数 现在学习的是第26页,共81页求解第求解第5 5典型变量系数典型变量系数 现在学习的是第27页,共81页5 5组(标准化)典型变量系数组(标准化)典型变量系数(X)(X)U1U2U3U4U5X1X10.5852 0.5852-1.1443-1.1443 0.7823 0.7823 0.0352 0.0352-0.8298-0.8298 X2X2-0.2175-0.2175 0.0189 0.0189 0.6032 0.6032 0.1289 0.1289 1.5590 1.5590 X3X30.5288 0.5288 1.6213 1.6213-0.7370-0.7370-0.4066-0.4066-1.1704-1.1704 X4X40.1890 0.1890-0.9874-0.9874-0.7753-0.7753 0.1229 0.1229 0.6988 0.6988 X5X5-0.1193-0.1193-0.0626-0.0626-0.2509-0.2509-0.5860-0.5860 1.0488 1.0488 X6X60.1948 0.1948 0.8108 0.8108 0.1467 0.1467 0.9523 0.9523-0.5140-0.5140 现在学习的是第28页,共81页5 5组(标准化)典型变量系数组(标准化)典型变量系数(X)(X)现在学习的是第29页,共81页由标准化典型变量系数获得原变量由标准化典型变量系数获得原变量X X对应的粗典型变量系数对应的粗典型变量系数粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。现在学习的是第30页,共81页5 5组(标准化)典型变量系数组(标准化)典型变量系数(Y)(Y)V1V2V3V4V5Y1Y1-0.0838-0.1325 1.0807 0.3750-0.0376 Y2Y2-0.0878 1.2688 0.0701 0.2476-0.3342 Y3Y30.2147-0.3301 0.2218-1.0863 1.4100 Y4Y40.2920-0.2392-0.5765 1.3368-0.2942 Y5Y50.7607-0.2995 0.6532-0.0017-0.6905 现在学习的是第31页,共81页(三)典型相关系数的(三)典型相关系数的特点特点 1.两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变)2.第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即CanR1max(|Corr(Xi,Yj)|)或CanR1max(|Corr(X,Yj)|)max(|Corr(Xi,Y)|)现在学习的是第32页,共81页(四)校正典型相关系数(四)校正典型相关系数(Adjusted Canonical Correlation)为了使结果更加明了,增加大值或小值,减少之间大小的值,将典型变量系数旋转,可得到校正的典型相关系数。缺点:1.可能影响max(U1,V1);2.影响(U1,V1)与其他典型变量间的独立性。现在学习的是第33页,共81页(五)典型相关系数的标准误(五)典型相关系数的标准误 现在学习的是第34页,共81页(六)(六)E1H的特征值(见典型判别、的特征值(见典型判别、MANOVA,E误差项,误差项,H组间变异)组间变异)Eigenvalues of Inv(E)*H =CanRsq/(1-CanRsq)Eigenvalue Difference Proportion Cumulative 1 3.2422 2.0510 0.6546 0.6546 2 1.1912 0.8379 0.2405 0.8951 3 0.3533 0.2097 0.0713 0.9665 4 0.1436 0.1212 0.0290 0.9955 5 0.0225 0.0045 1.0000现在学习的是第35页,共81页(七)典型相关系数的(七)典型相关系数的假设检验假设检验 1.全部总体典型相关系数均为02.部分总体典型相关系数为0现在学习的是第36页,共81页1.全部总体典型相关系数为全部总体典型相关系数为0现在学习的是第37页,共81页F近似检验(近似检验(SAS结果)结果)Test of H0:The canonical correlations in the current row and all that follow are zeroLikelihood Approximate Ratio F Value Num DF Den DF Pr F1 0.06798466 2.24 30 70 0.00302 0.28840509 1.38 20 60.649 0.16863 0.63195301 0.80 12 50.561 0.65044 0.85521598 0.54 6 40 0.77295 0.97803479 0.24 2 21 0.7920现在学习的是第38页,共81页F近似检验(计算公式)近似检验(计算公式)现在学习的是第39页,共81页多变量统计量与多变量统计量与F近似检验近似检验s Multivariate Statistics and F ApproximationssStatistic Value F Value Num DF Den DF Pr FsWilks Lambda 0.06798 2.24 30 70 0.0030sPillais Trace 1.71651 1.83 30 105 0.0133sHotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032s Roys Greatest Root 3.24221 11.35 6 21 F 1 1.6532 1.6465 0.9959 0.9959 0.37438667 6.66 4 42 0.0003 2 0.0067 0.0041 1.0000 0.99332139 0.15 1 22 0.7042现在学习的是第72页,共81页简单实例(简单实例(P293页页9.2题)计算题)计算7.典型相关系数的多变量统计量及其典型相关系数的多变量统计量及其假设检验假设检验 Multivariate Statistics and F Approximations Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.37438667 6.66 4 42 0.0003 Pillais Trace 0.62977475 5.06 4 44 0.0019 Hotelling-Lawley Trace 1.65991998 8.60 4 24.198 0.0002 Roys Greatest Root 1.65319646 18.19 2 22 .0001 NOTE:F Statistic for Roys Greatest Root is an upper bound.NOTE:F Statistic for Wilks Lambda is exact.现在学习的是第73页,共81页简单实例(简单实例(P293页页9.2题)计算题)计算8.求求A A、B B关于关于i i的特征向量,即典型变的特征向量,即典型变量系数量系数 Canonical Correlation Analysis Standardized Canonical Coefficients for the VAR Variables u1 u2 x1 0.5667 -1.3604 x2 0.5069 1.3838 Standardized Canonical Coefficients for the WITH Variables v1 v2 y1 0.5184 -1.7857 y2 0.5233 1.7842现在学习的是第74页,共81页简单实例(简单实例(P293页页9.2题)计算题)计算矩阵矩阵A A的的第1特征值为0.623096现在学习的是第75页,共81页简单实例(简单实例(P293页页9.2题)计算题)计算典型变量的表达式典型变量的表达式现在学习的是第76页,共81页简单实例(简单实例(P293页页9.2题)计算题)计算9.典型结构分析(可观察典型变量的意义)典型结构分析(可观察典型变量的意义)u1 u2 x1 0.9390 -0.3439 x2 0.9231 0.3845 v1 v2 y1 0.9596 -0.2814 y2 0.9604 0.2788 v1 v2 x1 0.7412 -0.0281 x2 0.7287 0.0314 u1 u2 y1 0.7575 -0.0230 y2 0.7581 0.0228现在学习的是第77页,共81页简单实例(简单实例(P293页页9.2题)计算题)计算10.冗余分析(对方典型变量可解释的信冗余分析(对方典型变量可解释的信息)息)Canonical Redundancy Analysis Standardized Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Canonical Variable Cumulative Canonical Cumulative Number Proportion Proportion R-Square Proportion ProportionX 1 0.8669 0.8669 0.6231 0.5402 0.5402 2 0.1331 1.0000 0.0067 0.0009 0.5411 Y 1 0.9215 0.9215 0.6231 0.5742 0.5742 2 0.0785 1.0000 0.0067 0.0005 0.5747现在学习的是第78页,共81页简单实例(简单实例(P293页页9.2题)计算题)计算11.基于典型变量回归的确定系数基于典型变量回归的确定系数 Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 x1 0.5494 0.5502 x2 0.5310 0.5320 M 1 2 y1 0.5737 0.5743 y2 0.5747 0.5752现在学习的是第79页,共81页九、九、SAS计算程序(计算程序(1)PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;VAR x1 x2;WITH y1 y2;RUN;现在学习的是第80页,共81页九、九、SAS计算程序(计算程序(2)DATA canocorr(TYPE=CORR);INPUT _NAME_$x1 x2 y1 y2;_ TYPE_=CORR;CARDS;x110.734560.719150.70398x20.7345610.690380.70855y10.719150.6903810.84307y20.703980.708550.843071;PROC CANCORR DATA=canocorr ALL EDF=24;*EDF=n-1;VAR x1 x2;WITH y1 y2;RUN;现在学习的是第81页,共81页