《《典型相关》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《典型相关》PPT课件.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、典型相关分析张国权引言 典型相关分析是研究两组变量之间相关关系的一种统计方法。在科学研究中常需要分析一组个指标与另一组个指标的相关关系,简单的方法两两指标间分别统计简单相关关系,得到个相关系数,用这些相关系数反映两组变量间的关系。但这样做即繁琐又抓不住要领。更有效的方法是类似主成分分析,考虑每组变量的线性组合,从这两族线性组合中找出最相关的组合变量,通过少数几个综合变量来反映两组变量间的相关关系,这样就可以抓住它们的主要关系,而且简明。这就是典型相关分析的基本思想。1.两个随机变量Y与X 简单相关系数2.一个随机变量Y与一组随机变量X1,X2,Xp 多重相关(复相关系数)3.一组随机变量Y1,
2、Y2,Yq与另一组随机变量X1,X2,Xp 典型典型典型典型(则则则则)相关系数相关系数相关系数相关系数何时采用典型相关分析何时采用典型相关分析 典型相关典型相关和典型相关变量的定义典型相关和典型相关变量的定义典型相关变量的一般求法典型相关变量的一般求法 第一对典型相关变量的求法第一对典型相关变量的求法典型相关变量的性质例子(数据例子(数据)业内人士和观众对于一些电视节目的观点业内人士和观众对于一些电视节目的观点有什么样的关系呢?有什么样的关系呢?该数据该数据是不同的人群是不同的人群对对30个电视节目所作的平均评分。个电视节目所作的平均评分。观众评分来自低学历观众评分来自低学历(led)、高学
3、历、高学历(hed)和和网络网络(net)调查三种调查三种,它们形成它们形成第一组变量第一组变量;而业内人士分评分来自包括演员和导演在而业内人士分评分来自包括演员和导演在内的艺术家内的艺术家(arti)、发行、发行(com)与业内各部与业内各部门主管门主管(man)三种,形成三种,形成第二组变量第二组变量。人们。人们对这样两组变量之间的关系感到兴趣。对这样两组变量之间的关系感到兴趣。计算结果计算结果 下下面面一一个个表表给给出出了了特特征征根根(Eigenvalue),特特征征根根所所占占的的百百分分比比(Pct)和和累累积积百百分分比比(Cum.Pct)和和典典型型相相关关系系数数(Cano
4、n Cor)及及其其平平方方(Sq.Cor)。看看来来,头头两两对对典典型型变变量量(V,W)的的累累积积特特征征根根已已经经占占了了总总量量的的99.427%。它们的典型相关系数也都在之上。它们的典型相关系数也都在之上。计算结果计算结果 对对于于众众多多的的计计算算机机输输出出挑挑出出一一些些来来介介绍绍。下下面面表表格格给给出出的的是是第第一一组组变变量量相相应应于于上上面面三三个个特特征征根根的的三三个个典典型型变变量量V1、V2和和V3的的系系数数,即即典典型型系系数数(canonical coefficient)。注注意意,SPSS把把第第一一组组变变量量称称为为因因变变量量(dep
5、endent variables),而而把把第第二二组组称称为为协协变变量量(covariates);显显然然,这这两两组组变变量量是是完完全全对对称称的的。这这种种命命名名仅仅仅仅是是为为了了叙叙述述方方便。便。这这些些系系数数以以两两种种方方式式给给出出;一一种种是是没没有有标标准准化化的的原原始始变变量量的的线线性性组组合合的的典典型型系系数数(raw canonical coefficient),一一种种是是标标准准化化之之后后的的典典型型系系数数(standardized canonical coefficient)。标标准准化化的的典典型型系系数数直直观观上上对对典典型型变变量量的
6、的构构成成给给人人以以更更加加清楚的印象。清楚的印象。可以看出,头一个典型变量可以看出,头一个典型变量V1相应于前相应于前面第一个(也是最重要的)特征值,主面第一个(也是最重要的)特征值,主要代表高学历变量要代表高学历变量hed;而相应于前面;而相应于前面第二个(次要的)特征值的第二个典型第二个(次要的)特征值的第二个典型变量变量V2主要代表低学历变量主要代表低学历变量led和部分的和部分的网民变量网民变量net,但高学历变量在这里起负,但高学历变量在这里起负面作用。面作用。计算结果计算结果 类类 似似 地地,也也 可可 以以 得得 到到 被被 称称 为为 协协 变变 量量(covariate
7、)的的标标准准化化的的第第二二组组变变量量的的相相应应于于头头三三个个特特征征值值得得三三个个典典型型变变量量W1、W2和和W2的的系数:系数:。例子结论例子结论 从从这这两两个个表表中中可可以以看看出出,V1主主要要和和变变量量hed相相关关,而而V2主主要要和和led及及net相相关关;W1主主要要和和变变量量arti及及man相相关关,而而W2主主要要和和com相相关关;这和它们的典型系数是一致的。这和它们的典型系数是一致的。由由于于V1和和W1最最相相关关,这这说说明明V1所所代代表表的的高高学学历历观观众众和和W1所所主主要要代代表表的的艺艺术术家家(arti)及及各各部部门门经经理
8、理(man)观观点点相相关关;而而由由于于V2和和W2也也相相关关,这这说说明明V2所所代代表表的的低低学学历历(led)及及以以年年轻轻人人为为主主的的网网民民(net)观观众众和和W2所所主主要要代代表表的的看看重重经经济济效效益益的的发发行行人人(com)观观点点相相关关,但但远远远远不不如如V1和和W1的的相相关关那那么么显显著著(根根据据特特征征值值的的贡献率)。贡献率)。九、九、SAS计算程序计算程序PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;VAR x1 x2 x3 x4 x5;WITH y1 y2 y3 y4 y
9、5 y6;RUN;健身俱乐部生理量测量资料与运动表现成绩之相关性分析 x1:体重(磅)(Weight)x2:腰围(英吋)(Waist)x3:每分钟脈博跳动次数(Pulse)y1:拉单杠次数(Chins)y2:仰臥起坐次数(Situps)y3:跳跃次数(Jumps)生理与运动表現资料 SAS过程 vprefix=PHYS vname=Physiological Measurementswprefix=EXER wname=Exercises;var weight waist pulse;with chins situps jumps;run;data fit;input weight waist
10、 pulse chins situps jumps;cards;(数据略)proc cancorr data=fit all;例例.某健身房对20个中年人测量三个生理变量:WEIGHT(体重)、WAIST(腰围)、PULSE(脉膊)和三个训练变量:CHIWS(引体向上)、SITVPS(起坐次数)、JVMPS(跳跃次数).试分析这两组变量间的相关性.为此,我们可采用下述SAS程序data fit;input weight waist pulse chins situps jumps;cards;(数据略);proc cancorr data=fit all ;/*PROC CANCORR 语句指
11、示SAS对数据集FIT作典型相关分析,其中ALL选项要求输出所有计算结果*/var weight waist pulse;/*varwith给出前后两组分析变量*/with chins situps jumps;run;SASMeans and Standard Deviations3 Physiological Measurements3 Exercises20 ObservationsVariableMeanStd DevWEIGHT178.60000024.690505WAIST35.4000003.201973PULSE56.1000007.210373CHINS9.4500005.2
12、86278SITUPS145.55000062.566575JUMPS70.30000051.277470SAS同一种类的原始变量的相关同一种类的原始变量的相关Correlations Among the Original VariablesCorrelations Among the Physiological MeasurementsWEIGHTWAISTPULSEWEIGHT1.00000.8702-0.3658WAIST0.87021.0000-0.3529PULSE-0.3658-0.35291.0000SAS同一种类同一种类(运动运动)的原始变量的相关的原始变量的相关 相關矩陣中不
13、同組間絕對值最大相關為腰圍(x2)與仰臥起坐(y2),其相關係數是,但x組內最大相關是體重(x1)與腰圍(x2)的,而y組內最大相關是y1與y2的最大典型相關為 r1,但P值未達顯著水準,第二組典型相關為r2,第三典型相關為r3單位不同因此以標準化資料較合適典型相關的解釋典型相關的解釋X組的第一組典型變項 1 1 2 3係數的正負值應與相關係數相同,否則該變項稱為suppressor variable體重變項(X1)的問題Y組的第一組典型變項 1 123 跳躍次數變項(Y3)的問題典型相關的解釋第一組典型變異解釋對方變項之變異比例分別為與運動變項的第一組典型變項對體重的解釋能力為,對腰圍的解釋
14、能力為,對脈搏的解釋能力為生理變項(x組)的第一組典型變項對拉單槓的預測能力是,對仰臥起坐的預測能力是,對跳躍次數預測能力只有典型相关結果摘要表X变量典型变量1 2 3Y变量典型变量1 2 3Weight-0.7754-1.8844-0.1910Chins-0.3495-0.3755-1.2966Waist1.57931.18060.5060Situps-1.05400.12351.2368Pulse-0.0591-0.23111.0508Jumps0.71641.0622-0.4188解释变异百分比0.28540.00990.0016解释变异百分比0.25840.01750.0008重叠0.
15、23490.02190.0004重叠0.26020.02270.0001典型相关0.7956(P=.0635)0.2006(p=.9491)0.0726(P=.7748)典型变量的特征值与典型相关 y組典型變量權重與負荷 x組典型變量權重與負荷 解释变异百分比 重疊係數 可以研究的課題智能表現(語文、數理)與體能(健康體能、運動體能)的相關研究智商(有多的面向)與情緒智商(有多的面向)的相關研究問卷調查結果間的相關研究?利用分析员应用系统进行典型相关分析SolutionnalysisAnalyst (出现空白数据出现空白数据表表)FileOpen By Sas Name(在在Make one selection窗口中窗口中)work 选中数据名选中数据名(数据数据data fit见见V8文件文件)(OK)Statistics MultivariateCanonical Correlation进入进入典型相关分析主窗口典型相关分析主窗口Canonical Correlation第一组原始变量第一组原始变量weight,vaist,pulseSet 1 第第二组原始变量二组原始变量chine,situps,jumpsSet 2OK
限制150内