《相关回归分析》PPT课件.ppt
相关与回归分析一、相关分析一种事物与另一种事物的相互联系程度 及性质的分析。前面已经讲过:次数资料X2独立性检验,就是一种相关分析。连续性资料相关分析。相关两个具有相互依存的现象,一种现象的数值常常 伴随另一种现象的数值变化,呈现相偕变异,称 为相关。相关分析相关形式相关程度直线相关曲线相关矩阵相关相关系数衡量现象间相互关系的尺度。决定系数衡量相关程度的尺度,不表示 相关性质。相关系数0 1 正相关现象间变量关系成正比。0 -1 负相关现象间变量关系成反比。0 无关独立事件。1 直接相关(x-x)(y-y)=0 无关(x-x)(y-y)0(x-x)(y-y)=1(x-x)(y-y)=0无关(x-x)(y-y)1.96 p0.05 否定H0,接受HA,相关显著。、H0:P1=P2(两样本相关系数相等)HA:P1P2例:6.17 P288页:r10.83 n114 r20.81 n211问:两个相关系数之间的差异是否显著?解:当:r1时,Z1 1/2ln(1+0.83)-ln(1-0.83)当:r2时,Z2 1/2ln(1+0.81)-ln(1-0.0.81)Z1-Z2 U=1/(n1-3)+1/(n2-3)因为:U0.05(双侧)所以:结论:接受H0:P1=P2 r1与r2两个相关系数间的差异不显著。6、相关系数的合并:a、必须是相关系数间无显著差异才能合并。合并的原则:b、不是将r值平均,而是将Z值加权平均。Z值加权平均的公式为:(n3)Z Z 自由度上例(p288页,例)r Z dfn3 (n3)Z r1 r2 df19 (n3)Z (n Z 自由度 1+r因为:Z=1/2ln(1-r )所以:2Z=ln(1+r)/(1-r)取反对数:(1+r)/(1-r)antiln(2Z)1+rantiln(2Z)(1-r)1+r antiln(2Z)-antiln(2Z)r r+antiln(2Z)r antiln(2Z)-1 rantiln(2Z)+1=antiln(2Z)-1 antiln(2Z)-1 antiln(21.1624)-1 r antiln(2Z)+1 antiln(21.1624)+1 所以:水稻籽粒蛋白质含量与赖氨酸含量两个相关系数合并 后的相关系数是:r。再举一个合并相关系数的例子:例:调查我国18岁男子264人,肺活量与身高的:r1 同龄女子37人,肺活量与身高:r2。问:18岁的青年男女,肺活量与身高的相关系数是多少?首先将r值转换成Z值:r Z df (n3)Zr10.395 Z1=1/2ln(1+0.395)-(1-0.395)=0.4177 264-3r20.269 Z2=1/2ln(1+0.269)-(1-0.269)=0.2758 37-3 df295 (n Z 自由度 antiln(2Z)-1 antiln(20.4013)-1 r antiln(2Z)+1 antiln(20.4013)+1 结论:18岁青年男女的肺活量与身高的相关系数是。7、多个相关系数差异显著性的X2检验法:H0:P1=P2=P3=Pi HA:P1P2P3Pi例:统计工人、农民、医生、教师四种不同职业的人的年龄 和血压的相关系数资料如下:职业 r n n3 Z (n3)Z工人 r10.6421 163 160 Z1=农民 r20.6372 79 76 Z2=教师 r30.7921 182 179 Z3=医生 r40.6764 54 51 Z4=(n Z 自由度 X2=(Zi-Z)2(ni3)(0.7617-0.8860)2160+(0.7534-0.8860)276 +(1.0770-0.8860)2179+(0.8224-0.8660)251 查表:X20.05,3=7.815 X20.01,3结论:否定H0,接受HA。相关系数间的差异显著。说明年龄与血压的相关因不同的职业而异。8、组内相关:简单相关也叫组间相关。是研究性质上不同的两种 现象间的关系。组内相关成对的观察单位研究同一现象间的关系 (性质上相同)例如:成对染色体长度间的相关。动物孪生个体体重间的相关。由于两个观察值性质相同,具体观察时难于区别究竟哪一个属于X,哪一个属于Y,所以理论上取平均值。设:n对观察值,故:观察总数2n X+Y 其重量的平均数为:XY=2n 将平均数代入相关系数公式,可以导出:2(X-XY)(Y-XY)r(X-XY)2+(Y-XY)2例:10胎孪生牡羊产后一个月体重间的组内相关。(见下表)孪生第一个个体孪生第二个个体(X-XY)(Y-XY)XX-XY(X-XY)2YY-XY(Y-XY)226-41629-11+433+3932+24+620-1010024-636+6028-2429-11+224-63628-24+1233+3937+749+2135+52534+416+2032+2433+39+627-3935+525-1532+2429-11-2290-10216310+10146114XY=(X+Y)/2n(290+310)/21030 2(X-XY)(Y-XY)2114 r(X-XY)2+(Y-XY)2 216+146 显著性检验:方法一:t法H0:P=0(总体无相关)t=r/Sr=r/(1-r2)/(n2)0.6298=(1-0.62982)/(10-2)=2.2933查表:t0.05,82.306 2.29330.05结论:接受H0,总体无相关 相关不显著 低方法二:r值查表法HO:P=0(总体无相关)n28 K=1(单个样本)查表:r0.05,80.632 0.62980.05结论:接受H0,总体无相关 相关不显著 中方法三:r z (U法)H0:P=0(总体无相关)当r0.6298时 Z=0.7411U=Z n3 =0.741110-3=1.9607U0.05=1.961.96071.96 P0.05结论:否定HO接受HA,相关显著 高三种检验方法U测验最灵敏9、组内相关的推广应用:如:研究三胞胎、四胞胎体重间的相关,其公式为:X+Y+M XYM=MN M表示变量的个数 M(X-XYM)(Y-XYM)(M-XYM)r=(X-XYM)2+(Y-XYM)2+(M-XYM)210、等级相关用等级表示的变数的相关研究(成对的等 级变数之间的相关研究)。如:鸡蛋的大小与蛋壳颜色深浅的相关 植物花的颜色与开花迟早的相关只能用等级表示例:甲乙两个水稻品种在13个地区种植的产量等级:地区号 甲品种等级乙品种等级dd21523927700312111141100513130061112-117910-1183.54-0.50.259880010109111165111223-11133.56-2.56.25d2 6d2rk=1-n(n2-1)1-13(132-1)等级相关系数只是一种粗略的估计。11、净相关(偏相关)净相关是组内相关研究的一种 特殊研究方法。特殊在,每次 固定其它的变量,而只研究其 中的一对变量。这样,可排除 其它变量因素的干扰,得到的 相关系数仅反应两个变量的相 关,故称净相关。之所以称偏,是根据偏回归系数而来的。一级净相关有三个变量,每次固定一个,研究其中两 个。因而有C31=3个一级净相关:r12,3 r13,2 r23,1 二级净相关有四个变量,每次固定两个,研究其中两个。因而有C42=6个二级净相关:r12,34 r13,24 r14,23 r34,12 r24,13 r23,14 二级以上净相关研究计算烦琐,实用价值也不大。一般研究上应用较多的是一级净相关。其公式为:r12r13r23 r12,3(1-r132)(1-r232)r13r12r23 r13,2(1-r122)(1-r232)r23r12r13 r23,1(1-r122)(1-r132)例:橡胶树病情指数与最冷月平均温度及一月份平均温度 13年的资料。年份 病情指数最冷月平均温度一月份平均温度X1*X2X1*X3X2*X3X1X12X2X22X3X3219630.40.1615.3234.0915.3234.096.126.12234.09196452.32735.2915.8249.6416.4268.96826.34857.72259.12196511.8139.2415.2231.0415.2231.04179.36179.36231.04196651.62662.5617.6309.7617.9320.41908.16923.64315.04196742.71823.2916.3265.6916.3265.69696.01969.01265.69196841.51722.2515.5240.2515.5240.25643.25643.25240.25196933.71135.6915.8249.6415.8249.64532.46532.46249.64197112.5156.2515.022515.0225187.5187.5225197236.61339.5615.8249.6415.8249.64578.28578.28249.64197350.72570.4916.025616.0256811.2811.225619742.56.2513.7187.6913.7187.6934.2534.25187.69197535.21239.0416.2262.4416.6275.56570.24584.32268.9219760.40.1613.1171.6115.1228.015.246.04197.81371.915580.23201.33132.49204.63231.985978.416040.153179.93第二步:求简单相关系数:x1x2x1x2/nr12x12-(x1)2/nx22-(x2)2/n 22/13)r13r23第三步:求净相关系数:r12r13r23 r12,3(1-r132)(1-r232)(12)(12)r13r12r23 r13,2(1-r122)(1-r232)(12)(12)r23r12r13 r23,1(1-r122)(1-r132)(12)(12)比较:简单相关(组间相关)净相关(组内相关)r120.7954 r12,3 r130.7716 r13,2 r230.8693 r23,1 由于受另一变量的影响 消除了另一变量的影响 夸大了两者的相关密切 是合理的衡量相关的尺度。程度。第四步:净相关系数显著性检验(U测验法)当:r12,3时,z1/2ln(1+0.3954)ln(10.3954)Uz/1/(n3)zn30.4182/(10-3)U0.05(双侧)结论:接受H0,相关不显著。即:橡胶树的病情指数与最冷月平均气温关系不密切。当:r13,2时 z1/2ln(1+0.2627)ln(10.2627)U0.269013-3结论:接受H0,相关不显著。即:橡胶树的病情指数与一月份平均气温关系不密切。当:r23,1时,z1/2ln(1+0.6629)ln(10.6629)U0.0.798013-3 U0.05(双侧)1.96 U0.01(双侧)结论:否定HO,接受HA,相关显著。即:最冷月平均气温与一月份平均气温的相关显著。12、复相关又称多元相关。即某种现象(依变量)与某 些现象(自变量)的综合相关。如:水稻的产量5月份降雨量 6月份降雨量 7月份降雨量 家畜日增重家畜年龄1岁 家畜年龄2岁 家畜年龄3岁R1,23m=1-(1-r122)(1-r13,22)(1-r14,232)(1-r1m,23(m-1)上例中:已知:r12 r13,2则:R1,2322显著性检验:(U测验)当:r时,z1/2ln(1+0.8112)ln(10.8112)U=1.1305133 U0.01(双侧)结论:否定HO,接受HA.即:橡胶树的发病指数与最冷月平均温度和一月份平均 温度的复相关极显著。