9_典型相关分析.pdf
《9_典型相关分析.pdf》由会员分享,可在线阅读,更多相关《9_典型相关分析.pdf(121页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1典型相关分析典型相关分析1 总体典型相关2 样本典型相关3 典型判别与典型相关的关系1 总体典型相关2 样本典型相关3 典型判别与典型相关的关系2相关变量与变量向量与变量-全相关系数(多重相关系数)向量与向量相关变量与变量向量与变量-全相关系数(多重相关系数)向量与向量相关系数偏相关系数相关系数偏相关系数相关矩阵典型相关系数广义相关系数相关矩阵典型相关系数广义相关系数31 总体典型相关1 总体典型相关典型相关分析是研究两组典型相关分析是研究两组变量变量之间相关关系的一种统计方法.之间相关关系的一种统计方法.4案例案例1三个生理指标和三个训练指标之间的相关关系三个生理指标和三个训练指标之间的相
2、关关系(见教材见教材329页例页例10.3.2,也是,也是SAS中典型相关的例题中典型相关的例题)三个生理指标:三个生理指标:weight:体重体重waist:腰围腰围pulse:脉搏三个训练指标:脉搏三个训练指标:chins:单杠单杠situps:仰卧起坐次数仰卧起坐次数jumps:跳高跳高5案例案例2工作满意度和工作特征的相关关系工作满意度和工作特征的相关关系(SAS系统中典型相关关系的开始案例系统中典型相关关系的开始案例)查找路径:帮助查找路径:帮助(H)SAS帮助和文档帮助和文档(H)SAS产品产品SAS/stat CANCORR过程过程Getting Started 6Job sat
3、isfaction:(1)career track satisfaction(未来发展前景的满意度未来发展前景的满意度):employee satisfaction with career direction and the possibility of future advancement,expressed as a percent(2)management and supervisor satisfaction(对管理及管理者的满意度对管理及管理者的满意度):employee satisfaction with supervisors communication and manageme
4、nt style,expressed as a percent(3)financial satisfaction(对报酬和福利的满意度对报酬和福利的满意度):employee satisfaction with salary and other benefits,using a scale measurement from 1 to 10(1=unsatisfied,10=satisfied)7Job characteristics:(1)task variety(工作变化度工作变化度):degree of variety involved in tasks,expressed as a pe
5、rcent(2)Feedback(反馈意见程度反馈意见程度):degree of feedback required in job tasks,expressed as a percent(3)autonomy(工作中的自主程度工作中的自主程度):degree of autonomy required in job tasks,expressed as a percent8一、变量与变量的相关一、变量与变量的相关两个随机变量的相关系数定义为两个随机变量的相关系数定义为21)var()var(),cov(yxyx=两个随机变量独立两个随机变量独立两个随机变量不相关两个随机变量不相关9反例反例()
6、().02121不独立,但它们之间的相关系数为和则布不独立,但它们之间的相关系数为和则布,服从单位圆内的均匀分,设服从单位圆内的均匀分,设 10()().2.121212121独立是等价的不相关与和都只取两个值,则和)若独立是等价的不相关与和都只取两个值,则和)若(相关与独立是等价的不和服从二元正态分布,则,)设相关与独立是等价的不和服从二元正态分布,则,)设(练习练习1112()()()()()()()()=niiyyniixxiniixyyySxxSyyxxS12121 样本的相关系数样本的相关系数yyxxxySSSr=其中其中13()()()()()()22222121212rSSSSS
7、RyyyyyyyyxxxyTRniiiniinii=+=+=在一元线性回归中在一元线性回归中r的符号取与的符号取与的相同的相同.14()()001000012:,:3(0,1)11ln 2111 ln212(1)ZZHHUnZNrZrrnUU=+=+=+检验统计量近似其中为样本相关系数对显著水平,拒绝域为检验统计量近似其中为样本相关系数对显著水平,拒绝域为1501212:0,:02(2)1(2)HHnrtt nrttn=检验统计量近似服从对显著水平,拒绝域为检验统计量近似服从对显著水平,拒绝域为注:注:SAS中使用这个统计量中使用这个统计量.16例题1.1 数据见教科书329页例10.3.2,
8、检验这些变量两两之间是否相关?三个生理指标:例题1.1 数据见教科书329页例10.3.2,检验这些变量两两之间是否相关?三个生理指标:weight:体重体重waist:腰围腰围pulse:脉搏三个训练指标:脉搏三个训练指标:chins:单杠单杠situps:仰卧起坐次数仰卧起坐次数jumps:跳高跳高注:康复俱乐部对20名中年人测量的结果.170.034930.8838-0.191500.4186-0.226300.3374jumps0.225040.3401-0.645600.0021-0.493080.0272situps0.150650.5261-0.552230.0116-0.389
9、690.0894chinspulsewaistweightPearson Correlation Coefficients,N=20 Prob|r|under H0:Rho=018偏相关系数偏相关系数()()=zyzzyzyyzxzzyzyxzyzzxzxyzxzzxzxxzyzxzzyzxzyyyxxyxxzzzyzxyzyyyxxzxyxxyxzzyx11111),(0)(的条件协差阵为的条件下则给定,协差阵为的均值为设随机向量的条件协差阵为的条件下则给定,协差阵为的均值为设随机向量19()()()().11112112111系数的相关与也是的偏相关系数为与的条件下,给定系数的相关与也是的
10、偏相关系数为与的条件下,给定zyyzxxyxzzzyzzzxzzyzzyzyyzxzzxzxxzyzzxzxyzxy=样本的偏相关系数如何计算?样本的偏相关系数如何计算?20=yyyxxyxxpyxDyxyxxxx ,0 ,)(21机变量为,随设随机向量为机变量为,随设随机向量为?二、向量与变量的相关二、向量与变量的相关),(maxxaycorr 要求要求21()()212121)var()var(),cov(),(aaaxayxayxaycorrxxyyxy=),(),(xaycorrxacycorr=又加约束又加约束1=aaxx目标函数目标函数()()12)(=aaaaQxxxy方法方法1
11、:22代入中得到代入中得到0=axxxy 求导得求导得xyxxa11=1=aaxx1112=xyxxyx xyxxyx12=2111)var(),(max=yyxyxxxyxaxaycorrxya =23()().,0 ,)(221达到最小使得的一个线性组合我们希望找到机变量为,随设随机向量为达到最小使得的一个线性组合我们希望找到机变量为,随设随机向量为xayExaxyxDyxyxxxxyyyxxyxxp=?方法方法2:24()()()()()()()()xyxxxyyyxyxxxyxxxxxyxxxyxxxyyyxxxyyyaaaaaaxayE1111122=+=+=其值为时,上式达到最小,
12、显然,当且仅当由于=+=+=其值为时,上式达到最小,显然,当且仅当由于25()11121 ,.pxxxyxyxxxyyyya xaRaxy=定理在上述假设下,与所有的最大相关在时达到 此时最大相关系数为,称为 与 的多重相关系数或全相关系数定理在上述假设下,与所有的最大相关在时达到 此时最大相关系数为,称为 与 的多重相关系数或全相关系数26()()()()()()2121212221 2 2)()(,.xxxxxyxyxxxxxxxyxxxypxyxxaaaaacaacacxyExacyERac=+=+=选取都有和常数结论知对由前面记证明:为了叙述方便,选取都有和常数结论知对由前面记证明:为
13、了叙述方便,27()()()(),()var()var(),cov(),(2121212121xycorraaaxayxayxaycorrxxyyxyxxyyxy=按相关系数的定义按相关系数的定义28()()()()()()211212112112112121),(=yyxyxxxyyyxyxxxyxyxxxyyyxyxxxyxxyyxyxycorr29()().0 222110=+=+=RRSSRxxyTRpp样本的多重相关系数为复相关系数对样本来讲,建立回归样本的多重相关系数为复相关系数对样本来讲,建立回归?30).,(max ybxacorryx自然想到用的相关自然想到用的相关,和研究两
14、个随机向量 和研究两个随机向量三、向量与向量的相关三、向量与向量的相关31典型相关分析的基本思想:在两组变量中选取若干有代表性的综合变量典型相关分析的基本思想:在两组变量中选取若干有代表性的综合变量(典型变量典型变量),每个综合变量都为这组变量的一个线性组合,由,每个综合变量都为这组变量的一个线性组合,由一组一组变量得到变量得到的综合变量的综合变量之间之间互不相关互不相关,且使,且使两组两组变量变量之间之间产生的综合变量之间产生的综合变量之间相关性尽可能大相关性尽可能大.321.典型相关和典型相关变量的定义典型相关和典型相关变量的定义.之间的相关性与我们来考虑之间的相关性与我们来考虑ybxa
15、()()()()()()()=qpqpbbbbaaaayyyyxxxx?2121212133bbybaaxababyxaybxayxDyyxxxyyyyxxyxx=)var(,)var(),cov(),cov(存在,即二阶矩存在存在,即二阶矩存在,假定假定()()21),(bbaabaybxacorryyxxxy =34=1)var(1)var(.),(),(,01)(bbybaaxabaybxacorrybdxaccorrdcyyxx最常用的限制为结果重复出现必要加适当的限制,防止不和故应对有和的常数对任意非注意:最常用的限制为结果重复出现必要加适当的限制,防止不和故应对有和的常数对任意非注
16、意:35.),(,1)var()var(),(),()2(为正数的情况所以可以只考虑面的限制,为正数,而且仍满足上为负数,则若为正数的情况所以可以只考虑面的限制,为正数,而且仍满足上为负数,则若ybxacorrxaxaybxacorrybxacorr=36()()()()121211112111112111var1,var1111 (),(),00().(),(),max,()pqpqa xb yxxxxxyyyypqypqaaaabbbbcorr a x b ycorr a x b ya x b yx y=+=?定义设维随机向量的均值向量为,协差阵不妨设如果存在设和使得则称是的第一对 组 典
17、型相关变量定义设维随机向量的均值向量为,协差阵不妨设如果存在设和使得则称是的第一对 组 典型相关变量,它们之间的相关系数为第它们之间的相关系数为第.一典型相关系数一典型相关系数37()()()()()().),min()()(,31var ,1var21,1)()(2121qpkkkyxybxaybxaybxakybxabbbbaaaakkkkkkkkkqkkkkpkkk=典型相关系数组对第们之间的相关系数称为典型相关变量,它组对的第是则称的相关系数最大,与)=典型相关系数组对第们之间的相关系数称为典型相关变量,它组对的第是则称的相关系数最大,与)()(对典型变量都不相关对典型变量都不相关;分
18、别与前面)分别与前面)(使得和如果存在使得和如果存在?382.典型相关变量的解法典型相关变量的解法()().),(1)var(1)var(,),(,21法问题,用拉格朗日乘子这是条件极值达最大条件下,使得在和就等价于求求第一对典型相关变量的相关系数则令法问题,用拉格朗日乘子这是条件极值达最大条件下,使得在和就等价于求求第一对典型相关变量的相关系数则令baybxacorrxbxababbaabaybxacorrWVybWxaVxyyyxxxy=39()()()()()()()()()()()()=4 013 012 01 0 1212),(2121bbaababQabaQbbaababaQyyx
19、xyyyxxxxyyyxxxy目标函数为目标函数为40=bbaayyxyxxyxxxyxyyxy212121 41()()12121 2 xxxyyyxyxyaaaabbbbabab=事实上,式两边左乘则有式两边左乘则有事实上,式两边左乘则有式两边左乘则有42aabbbabaxxyxyyxyyyxyxxyxyyyxxyxxyyxx=212110,0,0同理可推出由同理可推出由43当协差阵不是正定阵的时候,推导比较困难,但结论仍成立,只是把矩阵的逆换成广义逆.当协差阵不是正定阵的时候,推导比较困难,但结论仍成立,只是把矩阵的逆换成广义逆.44=bbaaMMxyxxyxyyyxyyxyxxxyxx
20、yxyyyxyyxyxx211211112111 ,令令1212122 ()(1)(2)(3)01.MMMMMM定理关于特征根的结论与有相同的非零特征根;与的特征根非负;与的全部特征根均在 与 之间定理关于特征根的结论与有相同的非零特征根;与的特征根非负;与的全部特征根均在 与 之间45()()()()()()()()0)(,02111112211111222122211122122111212121=LLLLLILLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLmxyxxyxyyyyxyxxyyyxxyxx使得,使得,证明:证明:(3)461 ,1,21121211212112
21、121121211=yyxyxxyxyyyyxyxxyxyyyyxyxxyxyyyyxyxxyxyyyyxyxxyxyy则有特征向量是单位的特征根是矩阵若有即对任意单位向量特别取均有对则有特征向量是单位的特征根是矩阵若有即对任意单位向量特别取均有对47.012122221非零特征值的全部和为设非零特征值的全部和为设MMp?.10 )3()2()1(212121之间与的全部特征根均在与的特征根非负;与有相同的非零特征根;与之间与的全部特征根均在与的特征根非负;与有相同的非零特征根;与MMMMMMxyxxyxyyyxyyxyxxMM=112111,48()112212222121122221212
22、23 ,011,1,.xxxyyyppijijiiippijijKNKK NK KNKipN =?定理令,为对应于特征根的单位正交特征向量,即,取,则定理令,为对应于特征根的单位正交特征向量,即,取,则()是对应于特征根的特征向量,且)是对应于特征根的特征向量,且49()().,12222212121的算术平方根是其中的特征向量对应是的特征向量对应是且有,)令的算术平方根是其中的特征向量对应是的特征向量对应是且有,)令(iiiiiiijijxyiijjyyijxxiiyyiixxiMbMababbaapiba=?.,个典型相关系数为第相关变量,对典型的第为这里,个典型相关系数为第相关变量,对典
23、型的第为这里,kkyxybWxaVkkkkk =50ijjijijjijijijijiiiiiiiiiiiiiiNKKKKNKKKKN=2122212111111又证明:又证明:51ijjxxiijjijxxxxxxijxxiiiiiiixxiixxixxyxyyyyxyxxxxibbaabbMaNaM=)2(212122221212121212121211同理可证同理可证同理可证同理可证52=jijiKKKKbajjijjjijjjijyyxyxxijxyi 0 1112212153()()()().,1)4(,111)3(.,)2(01)1(:21212121212121212122221
24、11为相应的典型相关系数对典型相关变量,为第与则得到,计算,计算的单位正交特征向量求的特征值求具体计算步骤典型相关变量和系数的为相应的典型相关系数对典型相关变量,为第与则得到,计算,计算的单位正交特征向量求的特征值求具体计算步骤典型相关变量和系数的iiiiyyiixxiixxyxyyiiiipxxyxyyyyxyxxpyxyyxyxxiybxapibapiK=?543.典型变量的性质典型变量的性质(1)(a)第一个典型相关系数大于等于原变量组中任何两个变量之间的相关系数;第一个典型相关系数大于等于原变量组中任何两个变量之间的相关系数;(b)第一个典型相关系数大于等于某一组中的一个变量与另一组变
25、量的全相关系数第一个典型相关系数大于等于某一组中的一个变量与另一组变量的全相关系数.55()()()()()()()()()()()().,1),(,1,1 .)()(,2,1,)2(2111piWVjiWVpjWpiVdiagIIWVDWWWVVVpkkyxybWxaViiijijipppppkkkk?=也互不相关;而与且互不相关也互不相关;而与且互不相关;互不相关;此性质说明其中,则,令相关变量对典型的第为设互不相关;此性质说明其中,则,令相关变量对典型的第为设56()()()()ByByWyAxAyVyByBxWxAxAxVxyxZpqbbBppaaAyyyxxyxxpp=),cov()
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 典型 相关 分析
限制150内