理学直线相关与回归.pptx
客观世界中的种种现象可分为确定性现象和非确定性现象两类。客观世界中的种种现象可分为确定性现象和非确定性现象两类。就两个变量而言,如果对一个变量的每个可能取值,另一个变量都有完全确就两个变量而言,如果对一个变量的每个可能取值,另一个变量都有完全确定的值与之对应,则称这两个变量之间的关系呈现函数关系。定的值与之对应,则称这两个变量之间的关系呈现函数关系。(圆周长圆周长2 2r r)第1页/共56页在生物医学研究中,变量之间的关系多不是确定的,表现为具有随机性的一在生物医学研究中,变量之间的关系多不是确定的,表现为具有随机性的一种种“趋势趋势”,也即自变量,也即自变量(independent variable)(independent variable)取不同数值时,应变量取不同数值时,应变量(dependent variable)(dependent variable)可以是不同的取值,而且某值的出现完全是随机的。可以是不同的取值,而且某值的出现完全是随机的。但是对应但是对应XiXi在一定范围内的不同取值,应变量在一定范围内的不同取值,应变量Y Y随随X X的变化呈现一定的趋势。的变化呈现一定的趋势。第2页/共56页人的身高与体重、收缩压与年龄之间的关系,一般说来,身高愈高的人,体人的身高与体重、收缩压与年龄之间的关系,一般说来,身高愈高的人,体重也重一些;年龄愈长者,收缩压也越高,从总体上看,都有某变量随另一重也重一些;年龄愈长者,收缩压也越高,从总体上看,都有某变量随另一变量变化的趋势。但这种关系显然不是函数关系。变量变化的趋势。但这种关系显然不是函数关系。相关与回归分析就是研究两变量之间非确定性关系的一种统计方法。相关与回归分析就是研究两变量之间非确定性关系的一种统计方法。第3页/共56页一、线性相关的基本概念一、线性相关的基本概念直线相关是研究两变量直线相关是研究两变量 x、y 之间协同变之间协同变化的数量关系的分析方法。化的数量关系的分析方法。第一节线性相关第一节线性相关第4页/共56页为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。第5页/共56页 体重(kg),x 肺活量(),Y L10名女中学生体重与肺活量散点图第6页/共56页二、相关系数二、相关系数*意义:描述两个变量直线相关的方向与密切意义:描述两个变量直线相关的方向与密切 程度的指标。程度的指标。*表示方法:表示方法:-1 r 1正相关 负相关0 r 1 -1 r 3.690 P r0.005(9)=0.776,P0,回归直线从左下方走向右上方,即因变量Y随X的增加而增加;b0,回归直线从左上方走向右下方,即因变量Y随X的增加而减少;b=0,回归直线平行于X轴,即Y与X无统一线性依存关系。第22页/共56页a为回归直线在Y轴上的截距(intercept)a 0,表示直线与Y交点在原点上方 a 0,表示直线与Y交点在原点下方 a=0,表示直线通过原点第23页/共56页第24页/共56页温度(oC)与蛙的心率(次/分)对象 温度(X)心率(Y)XY X2 Y2 1 2 5 10 4 25 2 4 11 44 16 121 3 6 11 66 36 121 4 8 14 112 64 196 5 10 22 220 100 484 6 12 23 276 144 529 7 14 32 448 196 1024 8 16 29 464 256 841 9 18 32 576 324 1024 10 20 34 680 400 1156 11 22 33 726 484 1086 合计132 246 3622 2024 6569例10.3第25页/共56页 1.绘制散点图第26页/共56页2.计算回归系数及常数项:3.建立回归方程:第27页/共56页4.作回归直线 在X实测值范围内,任取两个相距较远的点A、B,连接两点即得回归直线。本例取x1=3,x2=21;代入回归方程得:(3,8.65)和(17,6.06)两点的直线即为所求的回归直线。第28页/共56页绘制回归直线第29页/共56页 三、回归系数的假设检验三、回归系数的假设检验 前面所求得的回归方程是由样本的信息所前面所求得的回归方程是由样本的信息所计算,抽样误差在所难免,必须对其进行假计算,抽样误差在所难免,必须对其进行假设检验。我们知道,即使设检验。我们知道,即使X X、Y Y的总体回归系的总体回归系数数为零,由于抽样误差的存在,其样本回为零,由于抽样误差的存在,其样本回归系数归系数b b也不一定为零。因此需作也不一定为零。因此需作是否为零是否为零的假设检验,的假设检验,可用方差分析或可用方差分析或t t检验。检验。第30页/共56页目的:推断总体回归系数 是否为0,确定所求得的回归方程是否成立。假设:H0:=0 H1:0 =0.05第31页/共56页(一)方差分析首先我们分析一下Y的离均差平方和。对于任一点P(X,Y),其纵坐标被回归线和截成三段:第32页/共56页 因变量Y的离均差平方和划分示意P(X,Y)Y xP(X,Y)第33页/共56页对于任一x和y,有:对于许多x和y,有:Y的离均差平方和,又称总平方和,表示应变量y总的变异,即SS总。回归平方和,总变异中,x和y的线性关系引起的变异,即SS回。其它因素对y的影响,即SS剩余。第34页/共56页第35页/共56页因此,因此,Y Y的总变异及其自由度分别分解为的总变异及其自由度分别分解为 SSSS总总=SS=SS回回+SS+SS剩余剩余 总总=回回+剩余剩余按照方差分析的思想,构造检验统计量按照方差分析的思想,构造检验统计量 回回=1=1,剩余=n-2=n-2第36页/共56页1建立检验假设:H0:0H1:00.052计算统计量第37页/共56页 方差分析表变异来源SS MSF P总变异 1067.55 10回归 1020.23 1 1020.23 194.04 0.01剩余 47.32 9 5.258 第38页/共56页3结论 查F界值表,回归1,剩余9,F0.01(1,9)=10.56 P0.01,拒绝H0,接受H1,可认为温度与蛙的心率之间存在线性回归关系。第39页/共56页(二)t检验 (y-y)2S yx=n-2|b-0|bt=,=n-2 S b S b S yxS b=_ (x-x)2_ _ 如果没有计算MS剩余,则有下列公式:第40页/共56页第41页/共56页本例:查t界值表,t0.05(9)=3.25,P0.01同一资料方差分布结果和t 检验结果一致。第42页/共56页四、应用直线回归方程应注意的问题四、应用直线回归方程应注意的问题*作回归分析要有实际意义;作回归分析要有实际意义;*作回归分析时,如果两变量间是依存因果关作回归分析时,如果两变量间是依存因果关系系,则则“因因”变量为变量为x,x,“果果”变量为变量为y y;若无;若无因果关系因果关系,则以易于测量和较稳定的变量为则以易于测量和较稳定的变量为X X。第43页/共56页*回归分析中,应变量是随机变量,自变量可以是随机变量(型回归模型),也可以是给定的量(型回归模型)。凡随机变量均要求服从正态分布。*经检验拒绝了无效假设的回归方程才有意义。*直线回归方程的适用范围一般以自变量的取值范围为限,不要随意扩大。第44页/共56页五、直线回归方程的应用五、直线回归方程的应用(补充补充)*描述两变量的数量依存关系;描述两变量的数量依存关系;*利用回归方程对应变量利用回归方程对应变量Y Y进行估计。进行估计。*利用回归方程进行统计控制,即利用回归利用回归方程进行统计控制,即利用回归方程进行逆估计(由方程进行逆估计(由 y 估计估计 x)。)。第45页/共56页第三节 直线回归与直线相关的联系与区别第46页/共56页(二)直线相关反映两变量的互存关系(双向);直线回归反映两变量的依存关系(单向)。(一)相关分析要求双变量正态分布 回归分析:型回归模型(因变量服从正态分布);型回归模型(双变量正态分布)区别:第47页/共56页1)同一组资料的 r 与 b 的正负符号是一致的;2)同一组资料的 r 和 b 的假设检验结果是一致的,即 t r=t b;3)当 r=1时,两变量存在直线回归关系;二、线性相关与回归的联系第48页/共56页三、相关回归可以互相解释:r的平方称为确定系数第49页/共56页此式说明当SS总不变的情况下,回归平方和的大小决定了确定系数的大小,r2反映出回归平方和在总平方和中所占的比重。R2越接近1,回归效果越好;利用确定系数可以从回归角度对相关程度做进一步的了解。例如,r=0.5,r2=0.25,说明一个变量的变异仅有25%由另一变量所引起。第50页/共56页第四节等级相关(Spearman)适用于双随机变量不服从正态分布时。等级相关系数(rek correlation coefficient)-1rs50时,可查r界值表(附表11)n2,若rs r(n-2),则P,拒绝H0。第54页/共56页本 章 重 点掌握:直线相关、直线回归的基本概念相关系数、回归系数的意义相关、回归分析的注意事项熟悉:相关、回归系数的假设检验直线回归的应用等级相关的计算 第55页/共56页感谢您的观看!第56页/共56页