统计学,数据到结论13.ppt
《统计学,数据到结论13.ppt》由会员分享,可在线阅读,更多相关《统计学,数据到结论13.ppt(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计学从数据到结论第十三章 典型相关分析13.1两组变量的相关问题两组变量的相关问题 我们知道如何衡量两个变量之间是我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公否相关的问题;这是一个简单的公式就可以解决的问题式就可以解决的问题(Pearson相关相关系数、系数、Kendalls t t、Spearman 秩秩相关系数相关系数)。公式公式如果我们有两组变量,如何能够表如果我们有两组变量,如何能够表明它们之间的关系呢?明它们之间的关系呢?例子(数据例子(数据tv.txt)业内人士和观众对于一些电视节目的观点业内人士和观众对于一些电视节目的观点有什么样的关系呢?有什么样的关系呢?该数
2、据该数据是不同的人群是不同的人群对对30个电视节目所作的平均评分。个电视节目所作的平均评分。观众评分来自低学历观众评分来自低学历(led)、高学历高学历(hed)和网络和网络(net)调查三种调查三种,它们形成它们形成第一组变第一组变量量;而业内人士分评分来自包括演员和导演在而业内人士分评分来自包括演员和导演在内的艺术家内的艺术家(arti)、发行发行(com)与业内各部与业内各部门主管门主管(man)三种,形成三种,形成第二组变量第二组变量。人们。人们对这样两组变量之间的关系感到兴趣。对这样两组变量之间的关系感到兴趣。寻找代表寻找代表 如直接对这六个变量的相关进行两两如直接对这六个变量的相关
3、进行两两分析,很难得到关于这两组变量之间分析,很难得到关于这两组变量之间关系的一个清楚的印象。关系的一个清楚的印象。希望能够把多个变量与多个变量之间希望能够把多个变量与多个变量之间的相关化为的相关化为两个两个变量之间的相关。变量之间的相关。现在的问题是为每一组变量现在的问题是为每一组变量选取一个选取一个综合变量作为代表综合变量作为代表;而一组变量最简单的综合形式就是该而一组变量最简单的综合形式就是该组变量的组变量的线性组合线性组合。13.2 典型相关分析典型相关分析由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因(线性组合由相应的系数确定),因此
4、必须找到此必须找到既有意义又可以确定的线既有意义又可以确定的线性组合。性组合。典型相关分析典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组就是要找到这两组变量线性组合的系数使得这两个由线性组合生成合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之间的变量(和其他线性组合相比)之间的的相关系数最大。相关系数最大。典型变量典型变量假假定定两两组组变变量量为为X1,X2,Xp和和Y1,Y2,Yq,那那么么,问问题题就就在在于于要要寻寻找找系系数数a1,a2,ap和和b1,b2,bq,和和使使得得新新的的综综合合变变量量(亦亦称称为为典
5、型变量典型变量(canonical variable))之之间间的的相相关关关关系系最最大大。这这种种相相关关关关系系是是用用典典型型 相相 关关 系系 数数(canonical correlation coefficient)来衡量的。来衡量的。典型相关系数典型相关系数 这这里里所所涉涉及及的的主主要要的的数数学学工工具具还还是是矩矩阵阵的的特特征征值值和和特特征征向向量量问问题题。而而所所得得的的特特征征值值与与V和和W的的典典型型相相关关系数有直接联系。系数有直接联系。由由于于特特征征值值问问题题的的特特点点,实实际际上上找找到到的的是是多多组组典典型型变变量量(V1,W1),(V2,W
6、2),,其其中中V1和和W1最最相相关关,而而V2和和W2次之等等,次之等等,典型相关系数典型相关系数 而而且且V1,V2,V3,之之间间及及而而且且W1,W2,W3,之之间间互互不不相相关关。这这样样又又出出现现了了选选择择多多少少组组典典型型变变量量(V,W)的的问问题题了了。实实际际上上,只只要要选选择择特特征征值值累累积积总总贡贡献献占占主要部分的那些即可。主要部分的那些即可。软软件件还还会会输输出出一一些些检检验验结结果果;于于是是只只要选择显著的那些要选择显著的那些(V,W)。对对实实际际问问题题,还还要要看看选选取取的的(V,W)是是否否有有意意义义,是是否否能能够够说说明明问问
7、题题才才行行。至至于于得得到到(V,W)的的计计算算,则则很很简简单单,下下面面就就tv.txt数据进行分析。数据进行分析。数学原理?数学原理?计算结果计算结果 第第一一个个表表为为判判断断这这两两组组变变量量相相关关性性的的若若干干检检验验,包包括括Pillai迹迹检检验验,Hotelling-Lawley迹迹检检验验,Wilks l l检检验验和和Roy的的最最大大根根检检验验;它它们们都都是是有有两两个个自自由由度度的的F检检验验。该该表表给给出出了了每每个个检验的检验的F值,两个自由度和值,两个自由度和p值(均为值(均为0.000)。)。计算结果计算结果 下下面面一一个个表表给给出出了
8、了特特征征根根(Eigenvalue),特特征征根根所所占占的的百百分分比比(Pct)和和累累积积百百分分比比(Cum.Pct)和和典典型型相相关关系系数数(Canon Cor)及及其其平平方方(Sq.Cor)。看看来来,头头两两对对典典型型变变量量(V,W)的的累累积积特特征征根根已已经经占占了了总总量量的的99.427%。它们的典型相关系数也都在。它们的典型相关系数也都在0.95之上。之上。计算结果计算结果 对对于于众众多多的的计计算算机机输输出出挑挑出出一一些些来来介介绍绍。下下面面表表格格给给出出的的是是第第一一组组变变量量相相应应于于上上面面三三个个特特征征根根的的三三个个典典型型变
9、变量量V1、V2和和V3的的系系数数,即即典典型型系系数数(canonical coefficient)。注注意意,SPSS把把第第一一组组变变量量称称为为因因变变量量(dependent variables),而而把把第第二二组组称称为为协协变变量量(covariates);显显然然,这这两两组组变变量是完全对称的。这种命名仅仅是为了叙述方便。量是完全对称的。这种命名仅仅是为了叙述方便。这这些些系系数数以以两两种种方方式式给给出出;一一种种是是没没有有标标准准化化的的原原始始变变量量的的线线性性组组合合的的典典型型系系数数(raw canonical coefficient),一一种种是是标
10、标准准化化之之后后的的典典型型系系数数(standardized canonical coefficient)。标标准准化化的的典典型型系系数数直直观观上上对对典典型型变变量量的的构构成成给给人人以以更更加加清清楚的印象。楚的印象。可以看出,头一个典型变量可以看出,头一个典型变量V1相应于前相应于前面第一个(也是最重要的)特征值,主面第一个(也是最重要的)特征值,主要代表高学历变量要代表高学历变量hed;而相应于前面而相应于前面第二个(次要的)特征值的第二个典型第二个(次要的)特征值的第二个典型变量变量V2主要代表低学历变量主要代表低学历变量led和部分的和部分的网民变量网民变量net,但高学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 结论 13
限制150内