应用多元统计分析-第九章 典型相关分析.ppt
《应用多元统计分析-第九章 典型相关分析.ppt》由会员分享,可在线阅读,更多相关《应用多元统计分析-第九章 典型相关分析.ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、典型相关分析第九章典型相关分析典型相关分析两组变量的相关问题两组变量的相关问题我们知道如何衡量两个变量之间是我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公否相关的问题;这是一个简单的公式就可以解决的问题(式就可以解决的问题(PearsonPearson相关相关系数、系数、KendallKendalls ts t、Spearman Spearman 秩相关系数秩相关系数)。如果我们有两组变量,如何表明它如果我们有两组变量,如何表明它们之间的关系呢?们之间的关系呢?例例9.19.1(数据(数据tv.sav)tv.sav)例如:业内人士和观众对于一些电视节目的观点例如:业内人士和观众对
2、于一些电视节目的观点有什么样的关系呢?有什么样的关系呢?数据数据tv.savtv.sav是不同的人群对是不同的人群对3030个电视节目所作的平均评分。个电视节目所作的平均评分。观众评分来自低学历观众评分来自低学历(led)(led)、高学历、高学历(hed)(hed)和网络和网络(net)(net)调查三种,它们形成调查三种,它们形成第一组变量第一组变量;而业内人士分评分来自包括演员和导演在内的艺而业内人士分评分来自包括演员和导演在内的艺术家术家(arti)(arti)、发行、发行(com)(com)与业内各部门主管与业内各部门主管(man)(man)三种,形成三种,形成第二组变量第二组变量。
3、人们对这样两组变量之。人们对这样两组变量之间的关系感到兴趣。间的关系感到兴趣。第一组第一组变量变量:观众观众第二组第二组变量变量:业内业内人士人士低低学学历历高高学学历历网网络络主主管管发发行行人人艺艺术术家家典型相关典型相关如何进行典型相关如何进行典型相关如果直接对这六个变量的相关进行两两如果直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关分析,很难得到关于这两组变量之间关系的一个清楚的印象。系的一个清楚的印象。希望能够把多个变量与多个变量之间的希望能够把多个变量与多个变量之间的相关化为相关化为两个两个变量之间的相关。变量之间的相关。现在的问题是为每一组变量现在的问题是为每一
4、组变量选取一个综选取一个综合变量作为代表;合变量作为代表;而一组变量最简单的综合形式就是该组而一组变量最简单的综合形式就是该组变量的变量的线性组合线性组合。如何进行典型相关如何进行典型相关由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此(线性组合由相应的系数确定),因此必须找到必须找到既有意义又可以确定的线性组既有意义又可以确定的线性组合。合。典型相关分析典型相关分析(canonical correlation(canonical correlation analysis)analysis)就是要找到这两组变量线性组就是要找到这两组变量线性组合
5、的系数,使得这两个由线性组合生成合的系数,使得这两个由线性组合生成的变量(和其他线性组合相比)之间的的变量(和其他线性组合相比)之间的相关系数最大。相关系数最大。XV1V2|VdYW1W2|Wdx1x2xiy1y2yjcr1cr2crdd=min(i,j)(V1=a0+a1x1+aixi)(W1=b0+b1y1+bjyj)建立第一对典型变量建立第一对典型变量(函数函数)的原则的原则尽量使所建的两个典型变量之间的相关尽量使所建的两个典型变量之间的相关系数最大化,就是在两个变量组各自的系数最大化,就是在两个变量组各自的总变化中先寻求他们之间最大的一部分总变化中先寻求他们之间最大的一部分共变关系,并
6、用一对典型变量所描述。共变关系,并用一对典型变量所描述。因而,第一维度上的典型相关系数也随因而,第一维度上的典型相关系数也随之求的。之求的。建立第二对典型变量建立第二对典型变量(函数函数)的原则的原则继续在两组变量剩余的变化中寻找第二继续在两组变量剩余的变化中寻找第二个最大的共变部分,形成第二对典型变个最大的共变部分,形成第二对典型变量,并解出第二维度上的典型相关系数。量,并解出第二维度上的典型相关系数。依此类推,直至所有变化部分被剥离完依此类推,直至所有变化部分被剥离完毕。毕。典型相关分析原理及方法典型相关分析原理及方法设有两组随机向量,典型相关分析原理及方法典型相关分析原理及方法典型相关分
7、析原理及方法典型相关分析原理及方法根据典型相关分析的基本思想,要进行两组随机向量间的相关分析,首先要计算出各组变量的线性组合典型变量,并使其相关系数达到最大。因此,我们设两组变量的线性组合分别为:典型相关分析原理及方法典型相关分析原理及方法显见:典型相关分析原理及方法典型相关分析原理及方法我们希望寻找使相关系数达到最大的向量a与b,由于随机向量乘以常数时并不改变他们的相关系数,所以,为防止结果的重复出现,令:那么:这样就成为求使上式达到最大的系数向量a与b。典型相关系数典型相关系数这这里里所所涉涉及及的的主主要要的的数数学学工工具具还还是是矩矩阵阵的的特特征征值值和和特特征征向向量量问问题题。
8、而而所所得得的的特特征征值值与与V和和W的典型相关系数有直接联系。的典型相关系数有直接联系。由由于于特特征征值值问问题题的的特特点点,实实际际上上找找到到的的是是多多组组典典型型变变量量(V1,W1),(V2,W2),,其其中中V1和和W1最相关,而最相关,而V2和和W2次之等等,次之等等,而而且且V1,V2,V3,之之间间及及而而且且W1,W2,W3,之之间间互互不不相相关关。这这样样又又出出现现了了选选择择多多少少组组典典型型变变量量(V,W)的的问问题题了了。实实际际上上,只只要要选选择择特征值累积总贡献占主要部分的那些即可。特征值累积总贡献占主要部分的那些即可。注意注意严格地说,一个典
9、型相关系数描述的只严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两是一对典型变量之间的相关,而不是两个变量组之间的相关。个变量组之间的相关。而各对典型变量之间构成的多维典型相而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的关才共同揭示了两个观测变量组之间的相关形式。相关形式。典型相关模型的基本假设和数据要求典型相关模型的基本假设和数据要求要求两组变量之间为线性关系,即每对要求两组变量之间为线性关系,即每对典型变量之间为线性关系;典型变量之间为线性关系;每个典型变量与本组所有观测变量的关每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,系
10、也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关其他一些社会发展水之间并不是线性关系,可先取对数。系,可先取对数。即即log经济水平,经济水平,log收入水平。收入水平。典型相关模型的基本假设和数据要求典型相关模型的基本假设和数据要求所有观测变量为定量数据。同时也可将所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。再放入典型相关模型中进行分析。检验假设:检验假设:典型相关分析说明典型相关分析说明下面就下面就tv.savtv
11、.sav数据进行典型相关分析数据进行典型相关分析的说明的说明头头两两对对典典型型变变量量(V,W)的的累累积积特特征征根根已已经经占占了了总总量量的的99.427%99.427%。它它们们的的典典型型相相关关系系数数也也都都在在0.950.95之上。之上。典型相关系数的平方典型相关系数的平方与简单相关系数一样,典型相关系数的实际意与简单相关系数一样,典型相关系数的实际意义并不十分明确。义并不十分明确。所以,由经验的研究人员往往更愿意采用典型所以,由经验的研究人员往往更愿意采用典型相关系数的平方(相当于回归分析中的确定系相关系数的平方(相当于回归分析中的确定系数)。数)。由于相关涉及的两个典型变
12、量都是标准化的,由于相关涉及的两个典型变量都是标准化的,所以双方的方差都等于所以双方的方差都等于1。典型相关系数的平。典型相关系数的平方的实际意义是一对典型变量之间的共享方差方的实际意义是一对典型变量之间的共享方差在两个典型变量各自方差中的比例。在两个典型变量各自方差中的比例。典型相关系数的检验典型相关系数的检验整体检验:整体检验:典型相关系数的检验典型相关系数的检验维度递减检验:仍然是一种多元检验,维度递减检验:仍然是一种多元检验,但可以提供每对典型变量的典型相关是但可以提供每对典型变量的典型相关是否显著的信息。否显著的信息。Dimension Reduction AnalysisRoots
13、Wilks L.F HypothDFError DFSig.of F1 to 32 to 33 to 30.000500.054710.59382141.58046 40.94049 17.78432 9.00 4.00 1.00 58.56 50.00 26.00 0.000 0.000 0.000典型系数典型系数下下面面表表格格给给出出的的是是第第一一组组变变量量相相应应于于上上面面三三个个特特征征根根的的三三个个典典型型变变量量V V1 1、V V2 2和和V V3 3的的 系系 数数,即即 典典 型型 系系 数数(canonical(canonical coefficient)coef
14、ficient)。注注意意,SPSS把把第第一一组组变变量量称称为为因因变变量量(dependent variables),而而把把第第二二组组称称为为协协变变量量(covariates);显显然然,这这两两组组变变量量是是完完全全对对称称的的。这这种种命命名名仅仅仅仅是是为为了了叙叙述方便。述方便。典型系数典型系数这这些些系系数数以以两两种种方方式式给给出出;一一种种是是没没有有标标准准化化的的原原始始变变量量的的线线性性组组合合的的典典型型系系数数(raw(raw canonical canonical coefficient)coefficient),一一种种是是标标准准化化之之后后的的
15、典典型型系系数数(standardized(standardized canonical canonical coefficient)coefficient)。标标准准化化的的典典型型系系数数直直观观上上对对典典型型变变量量的的构构成成给给人人以以更加清楚的印象。更加清楚的印象。典型系数典型系数可以看出,头一个典型变量可以看出,头一个典型变量V V1 1相应于相应于前面第一个(也是最重要的)特征前面第一个(也是最重要的)特征值,主要代表值,主要代表高学历变量高学历变量hedhed;而相应于前面第二个(次要的)特而相应于前面第二个(次要的)特征值的第二个典型变量征值的第二个典型变量V V2 2主
16、要代表主要代表低低学历变量学历变量ledled和部分的网民变量和部分的网民变量netnet,但高学历变量在这里起负面作用。,但高学历变量在这里起负面作用。典型系数典型系数类似地,也可以得到被称为协变量类似地,也可以得到被称为协变量(covariate)(covariate)的标准化的第二组变量的相应于头三个特征值的标准化的第二组变量的相应于头三个特征值得三个典型变量得三个典型变量W W1 1、W W2 2和和W W2 2的系数:的系数:典型负载(相关)系数典型负载(相关)系数也称为因变量或协变量与典型变量之间也称为因变量或协变量与典型变量之间的两两相关系数。的两两相关系数。例子结论例子结论从从
17、这这两两个个表表中中可可以以看看出出,V V1 1主主要要和和变变量量hedhed相相关关,而而V V2 2主主要要和和ledled及及netnet相相关关;W W1 1主主要要和和变变量量artiarti及及manman相相关关,而而W W2 2主主要要和和comcom相相关关;这这和和它它们们的的典典型型系系数数是是一一致的。致的。由由于于V V1 1和和W W1 1最最相相关关,这这说说明明V V1 1所所代代表表的的高高学学历历观观众众和和W W1 1所所主主要要代代表表的的艺艺术术家家(arti)(arti)及及各各部部门门经经理理(man)(man)观观点点相相关关;而而由由于于V
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用多元统计分析-第九章 典型相关分析 应用 多元 统计分析 第九 典型 相关 分析
限制150内