第十 典型相关分析.pptx
2023/3/281 在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的 q个质量指标 和 p 个原材料指标 的相关关系。当然可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有p*qp*q个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。The canonical correlation analysis-CCA第1页/共51页2023/3/282With canonical correlation,we are working with two sets of variable(e.g.,we might have one set of variables measuring the personality characteristics of high school students and another set of variables measuring their vocational interests).In canonical correlation,we are also trying to re-express and simplify the data.Our goal is to find two linear combinations of the original variables-one combination from the first set variables and one combination from the second(called canonical variables)-that exhibit the largest possible covariance.From James etcAnalyzing Multivariate Data第2页/共51页2023/3/283From James.Analyzing Multivariate DataIn principal components analysis(PCA),we found that a small number of components could account for much of the variance(i.e.,information)in the entire data set.With canonical correlation,we will find that a few pairs of canonical variates can account for much of the interdependence between two sets of variables.第3页/共51页2023/3/284例:家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。The canonical correlation analysis-CCA第4页/共51页2023/3/285X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵The canonical correlation analysis-CCA第5页/共51页2023/3/286y2y3y1x2x1The canonical correlation analysis-CCA第6页/共51页2023/3/287 典型相关分析的典型相关分析的思想思想:首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,The canonical correlation analysis-CCA第7页/共51页2023/3/288 然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对线性组合本身具有次大的相关性。既:u2和v2与u1和v1相互独立,但u2和v2有次大相关性。如此继续下去,直至进行到r步,两组变量的相关性被提取完为止。r min(p,q),可以得到r组变量。The canonical correlation analysis-CCA第8页/共51页2023/3/28910.2 典型相关的数学描述典型相关的数学描述 考虑两组变量的向量 其协方差阵为 其中 1111是第一组变量的协方差矩阵;2222是第二组变量的协方差矩阵;是X X和Y Y的其协方差矩阵。矩阵的分块The canonical correlation analysis-CCA第9页/共51页2023/3/2810 如果我们记两组变量的第一对线性组合为:其中:所以,典型相关分析就是求a a1 1和b b1 1,使 uvuv达到最大。想一想如何求?The canonical correlation analysis-CCA第10页/共51页2023/3/281110.3 10.3 总体总体的典型的典型相关系数相关系数和典型变量和典型变量 在约束条件:下,求a a1 1和b b1 1,使 uvuv达到最大。令The canonical correlation analysis-CCA第11页/共51页2023/3/2812 根据数学分析中条件极值的求法,引入LagrangeLagrange乘数,求极值问题,则可以转化为求 的极大值,其中 和 是 LagrangeLagrange乘数。The canonical correlation analysis-CCA不含不含第12页/共51页2023/3/2813将上面的3 3式分别左乘 和 The canonical correlation analysis-CCA注意到第13页/共51页2023/3/2814将 左乘(3 3)的第二式,得 并将第一式代入,得 的特征根是 ,相应的特征向量为等于单位阵特征根定义The canonical correlation analysis-CCA第14页/共51页2023/3/2815将 左乘(3 3)的第一式,并将第二式代入,得 的特征根是 ,相应的特征向量为回顾特征根定义令The canonical correlation analysis-CCA第15页/共51页2023/3/2816 结论:既是A A又是B B的特征根,和 是相应于A A和B B的特征向量。至此,典型相关分析转化为求A A和B B特征根和特征向量的问题。第一对典型变量提取了原始变量X X与Y Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。The canonical correlation analysis-CCA第16页/共51页2023/3/2817 在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:在约束条件:求使 达到最大的 和 。独立性The canonical correlation analysis-CCA第17页/共51页2023/3/2818例:家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。The canonical correlation analysis-CCA第18页/共51页2023/3/2819X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵The canonical correlation analysis-CCA第19页/共51页2023/3/2820典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919The canonical correlation analysis-CCA第20页/共51页2023/3/2821X X组典型变量的系数U1U2X1(就餐)0.7689-1.4787X2(电影)0.27211.6443Y Y组典型变量的系数V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.2956第21页/共51页2023/3/2822典型变量的性质1 1、同一组的典型变量之间互不相关 X组的典型变量之间是相互独立的:Y组的典型变量之间是相互独立的:因为特征向量之间是正交的。故注意正交与独立的关系The canonical correlation analysis-CCA第22页/共51页2023/3/28232 2、不同组的典型变量之间相关性 不同组内一对典型变量之间的相关系数为:同对则协方差为 i,不同对则为零。The canonical correlation analysis-CCA第23页/共51页2023/3/2824小结1、典型相关分析关注并解决原始数据中两组变量之间的相关关系问题;2、典型相关分析最终转化为求A和B的特征根和特征向量问题。3、第一对典型变量,第二对典型变量;4、注意构造各”对”典型变量的约束条件;5、注意典型变量的两个性质。The canonical correlation analysis-CCA第24页/共51页2023/3/282510.4、样本典型相关系数和典型变量 在实际应用中,总体的协方差矩阵 常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵R进行估计,然后利用估计得到的协方差或相关系数矩阵再进行典型相关分析。由于估计中抽样误差的存在,所以估计以后还需要进行有关的假设检验。The canonical correlation analysis-CCA第25页/共51页2023/3/2826 假设有X组和Y组变量,样本容量为n。假设(X1,Y1),(X2,Y2),(Xn,Yn),观测值矩阵为:The canonical correlation analysis-CCA第26页/共51页2023/3/2827 的最大似然估计是 用 代替 并按以上方法计算 和 ,称 为样本典型相关系数,称 为样本的典型变量。可以证明 分别是总体典型相关系数和典型相关系 数向量的最大似然估计。The canonical correlation analysis-CCA第27页/共51页2023/3/2828计算时也可以从样本的相关矩阵出发求样本的典型相关系数和典型变量,将相关矩阵剖分为:The canonical correlation analysis-CCA第28页/共51页2023/3/2829则有将 带入(7)-(8)式可得:则 分别为矩阵 与 的相应于特征根 的特征向量。从而得到第i对样本的典型变量:及典型相关系数The canonical correlation analysis-CCA第29页/共51页2023/3/283010.5、典型相关系数的显著性检验典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有误,需要进行检验。(一)整体检验检验的统计量:Wilkes分布The canonical correlation analysis-CCA第30页/共51页2023/3/2831按大小次序排列为当n1时,在 成立下 近似服从 分布这里 ,因此在给定检验水平 之下,若由样本算出的 临界值,则否定 (不相关被否定,即相关);即第一对典型变量 具有相关性,其相关系数为 ,即至少可以认为第一个典型相关系数 为显著的。10.5、典型相关系数的显著性检验The canonical correlation analysis-CCA第31页/共51页2023/3/283210.5、典型相关系数的显著性检验第二步:将 除去,再检验其余 个典型相关系数的显著性,这时计算则统计量 近似服从 个自由度的 分布,若 ,则认为 被否定,即第二对典型变量 相关。The canonical correlation analysis-CCA第32页/共51页2023/3/283310.5、典型相关系数的显著性检验第三步:以下逐个检验,直到某一个相关系数 检验为不显著为止。这时我们就找到反映两组变量相互关系的k-1对典型变量。一般,检验第r个(rk)典型相关系数的显著性时,作统计量它近似服从 个自由度的 分布。其中 The canonical correlation analysis-CCA第33页/共51页2023/3/2834 注意:1 1)对两组变量x x和y y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。2 2)H H0 0经检验被拒绝,则应进一步作检验。The canonical correlation analysis-CCA第34页/共51页2023/3/2835 若原假设H H0 0被接受,则认为只有第二对典型变量是有用的;若原假设H H0 0被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设。(二)部分总体典型相关系数为零的检验The canonical correlation analysis-CCA第35页/共51页2023/3/2836如此进行下去.直至对某个k,有The canonical correlation analysis-CCA第36页/共51页2023/3/2837检验的统计量 近似服从自由度为(p-k)(q-k)(p-k)(q-k)的 2 2分布。在给定的显著性水平 下,如果 2 22 2(p-k)(q-k)(p-k)(q-k),则拒绝原假设,认为至少第k+1k+1对典型变量之间的相关性显著。The canonical correlation analysis-CCAWilkes分布与 2分布第37页/共51页2023/3/283810.6、计算步骤及实例计算步骤:第一步 计算相关系数阵R,并将R剖分为第二步 求典型相关系数及典型变量;首先求则 典型变量:The canonical correlation analysis-CCA第38页/共51页2023/3/283910.6、计算步骤及实例第三步 典型相关系数的显著性检验。2 法第39页/共51页2023/3/2840典型相关分析的逻辑框图确定典型相关分析的目的设计典型相关分析检验典型相关分析的基本假设典型函数的估计和识别解释典型函数和变量验证模型The canonical correlation analysis-CCA第40页/共51页2023/3/284110.6 计算实例例1 对某高中一年级男生38人进行体力测试(共7项指标)及运动能力测试(共五项指标),试对两组指标作典型相关分析。体力测试指标:X1=反复横向跳(次);X2=纵跳(cm);X3=背力(kg);X4=握力(kg);X5=台阶试验(指数);X6=立定体前屈(cm);X7=俯卧上体后仰(cm);运动能力测试指标:X8=50米跑(秒);X9=跳远(cm);X10=铅球(m);X11=引体向上(次);X12=耐力跑(秒)原始数据(略):P226第41页/共51页2023/3/2842第一步,计算相关矩阵 :X1X2X3X4X5X6X7X8X9X10X11X12X11.000.300.16-0.020.240.07-0.160.400.360.410.28-0.47X21.000.380.01-0.100.450.25-0.300.640.500.56-0.24X31.000.31-0.240.19-0.01-0.300.550.550.32-0.48X41.00-0.030.050.20-0.280.37-0.040.24-0.09X51.000.050.32-0.43-0.18-0.010.14-0.01X61.000.28-0.080.260.330.23-0.28X71.00-0.250.150.030.080.19X81.00-0.44-0.26-0.460.07X91.000.490.60-0.46X101.000.35-0.52X111.00-0.42X121.00第42页/共51页2023/3/2843第二步 求 的特征值和相应的特征向量,从而得出典型相关系数和典型变量序序号号典型相关典型相关 系数系数 典型变量典型变量 1 2 3 4 5第43页/共51页2023/3/2844第三步 典型相关系数的显著性检验检验 :为此计算结论:第一对典型变量是有价值的第44页/共51页2023/3/2845第三步 典型相关系数的显著性检验检验 :为此计算结论:第二对典型变量是有价值的。第45页/共51页2023/3/2846第三步 典型相关系数的显著性检验故 为不显著的典型相关系数,结论:第三对典型变量价值不大。查检验 :为此计算分布表得个自由度的2211535)2()2(c=-pp结论:因而第四对和第五对典型变量价值也不大!第46页/共51页2023/3/2847根据以上的结果可知对原始两组变量的研究可转化为对第一对及第二对典型变量的研究,通过它们之间的相关性的研究来反映原始两组变量之间的相关关系。第一对典型变量中,无论是第一组变量还是第二组变量,其测试结果越好,的数值也越大,可以解释为它表示全面能力程度,我们看到这两组系数中只有 系数为负,而恰好这两个变量取值意义和其它变量意义相反。第二对典型变量中,第一组变量内 的系数较大,第二组变量内 的系数较大,所以第二对典型变量可以解释为局部能力(即下半身腿的能力)的程度,它显示出跳的能力强。第三步 结果分析第47页/共51页2023/3/284810.6 计算实例例2 全国30个省市自治区农村居民收入与支出的典型相关分析反映农村居民收入的变量4个:X1=劳动者报酬(元);X2=家庭经营收入(元);X3=转移性收入(元);X4=财产性收入(元);反映农村居民生活费支出的变量取8个:X5=食品支出(元);X6=衣着支出(元);X7=居住支出(元);X8=家庭设备及服务支出(元);X9=医疗保健支出(元);X10=交通和通讯支出(元);X11=文教、娱乐用品及服务支出(元);X12=其它商品及服务支出(元)(原始数据略)P231第48页/共51页2023/3/2849本章思考题1、典型相关分析关注和解决什么问题?2、典型相关分析用到哪些线性代数知识?3、什么情况下不能做典型相关?如何判断?4、样本典型相关系数有何特点?5、为何要进行典型相关系数的显著性检验?何时可以结束这种检验?6、典型相关与主成分分析有何区别和联系?7、总结典型相关多元统计分析中的地位与作用。The canonical correlation analysis-CCA第49页/共51页2023/3/2850作业1)用SAS 计算例1;2)用SAS计算例2;3)用典型相关分析技术分析文、理科科目学习的特点;第50页/共51页2023/3/28DXL51感谢您的观看!第51页/共51页