理学直线相关与回归学习教案.pptx
会计学1理学直线理学直线(zhxin)相关与回归相关与回归第一页,共56页。客观世界中的种种现象可分为客观世界中的种种现象可分为确定性现象和非确定性现象两确定性现象和非确定性现象两类。类。就两个变量而言,如果对一个就两个变量而言,如果对一个变量的每个可能变量的每个可能(knng)(knng)取值,取值,另一个变量都有完全确定的值另一个变量都有完全确定的值与之对应,则称这两个变量之与之对应,则称这两个变量之间的关系呈现函数关系。间的关系呈现函数关系。(圆周圆周长长2 2r r)第1页/共56页第二页,共56页。n n在生物医学研究中,变量之间在生物医学研究中,变量之间的关系多不是确定的,表现为的关系多不是确定的,表现为具有随机性的一种具有随机性的一种“趋势趋势(qsh)”(qsh)”,也即自变量,也即自变量(independent variable)(independent variable)取不取不同数值时,应变量同数值时,应变量(dependent(dependent variable)variable)可以是不同的取值,可以是不同的取值,而且某值的出现完全是随机的。而且某值的出现完全是随机的。n n但是对应但是对应XiXi在一定范围内的不在一定范围内的不同取值,应变量同取值,应变量Y Y随随X X的变化呈的变化呈现一定的趋势现一定的趋势(qsh)(qsh)。第2页/共56页第三页,共56页。n n人的身高与体重、收缩压与年人的身高与体重、收缩压与年龄之间的关系,一般说来,身龄之间的关系,一般说来,身高愈高的人,体重也重一些;高愈高的人,体重也重一些;年龄愈长者,收缩压也越高,年龄愈长者,收缩压也越高,从总体上看,都有某变量随另从总体上看,都有某变量随另一变量变化一变量变化(binhu)(binhu)的趋势。的趋势。但这种关系显然不是函数关系。但这种关系显然不是函数关系。n n相关与回归分析就是研究两变相关与回归分析就是研究两变量之间非确定性关系的一种统量之间非确定性关系的一种统计方法。计方法。第3页/共56页第四页,共56页。一、线性相关的基本概念一、线性相关的基本概念直线相关是研究两变量直线相关是研究两变量 x x、y y 之间协同之间协同变变化的数量化的数量(shling)(shling)关系的分析方法。关系的分析方法。第一节线性相关第一节线性相关第4页/共56页第五页,共56页。n n为了研究父亲与成年儿子为了研究父亲与成年儿子为了研究父亲与成年儿子为了研究父亲与成年儿子身高之间的关系,卡尔身高之间的关系,卡尔身高之间的关系,卡尔身高之间的关系,卡尔.皮尔逊测量了皮尔逊测量了皮尔逊测量了皮尔逊测量了10781078对父子对父子对父子对父子的身高。把的身高。把的身高。把的身高。把10781078对数字对数字对数字对数字(shz)(shz)表示在坐标上,表示在坐标上,表示在坐标上,表示在坐标上,如图。用水平轴如图。用水平轴如图。用水平轴如图。用水平轴X X上的数上的数上的数上的数代表父亲身高,垂直轴代表父亲身高,垂直轴代表父亲身高,垂直轴代表父亲身高,垂直轴Y Y上的数代表儿子的身高,上的数代表儿子的身高,上的数代表儿子的身高,上的数代表儿子的身高,10781078个点所形成的图形是个点所形成的图形是个点所形成的图形是个点所形成的图形是一个散点图。它的形状象一个散点图。它的形状象一个散点图。它的形状象一个散点图。它的形状象一块橄榄状的云,中间的一块橄榄状的云,中间的一块橄榄状的云,中间的一块橄榄状的云,中间的点密集,边沿的点稀少,点密集,边沿的点稀少,点密集,边沿的点稀少,点密集,边沿的点稀少,其主要部分是一个椭圆。其主要部分是一个椭圆。其主要部分是一个椭圆。其主要部分是一个椭圆。第5页/共56页第六页,共56页。体重(体重(kg),),x 肺肺活活量量(),Y L10名女中学生体重名女中学生体重(tzhng)与肺活量散点图与肺活量散点图第6页/共56页第七页,共56页。二、相关系数二、相关系数 意义:描述两个变量直线相关的方向与密切意义:描述两个变量直线相关的方向与密切(mqi)程度的指标。程度的指标。表示方法:表示方法:-1 r 1正相关正相关 负相关负相关0 r 1 -1 r 3.690 P3.690 P r0.005(9)=0.776 0.8012 r0.005(9)=0.776,P0.005P0,回归直线从左下方,回归直线从左下方走向右上方,即因变量走向右上方,即因变量Y随随X的增加而增加;的增加而增加;n n b0,回归直线从左上方,回归直线从左上方走向右下方,即因变量走向右下方,即因变量Y随随X的增加而减少;的增加而减少;n n b=0,回归直线平行于,回归直线平行于X轴,即轴,即Y与与X无统一线性依存无统一线性依存关系。关系。第22页/共56页第二十三页,共56页。n na a为回归直线为回归直线(zhxin)(zhxin)在在Y Y轴上的截距轴上的截距(intercept)(intercept)n n a 0 a 0,表示直线,表示直线(zhxin)(zhxin)与与Y Y交点在原点上方交点在原点上方n n a 0 a 0,表示直线,表示直线(zhxin)(zhxin)与与Y Y交点在原点下方交点在原点下方n n a=0 a=0,表示直线,表示直线(zhxin)(zhxin)通过原点通过原点第23页/共56页第二十四页,共56页。第24页/共56页第二十五页,共56页。温度温度温度温度(wnd)(oC)(wnd)(oC)与蛙的心率与蛙的心率与蛙的心率与蛙的心率(次次次次/分分分分)对象对象 温度温度(wnd)(X)(wnd)(X)心率心率(Y)XY X2 (Y)XY X2 Y2Y2 1 2 5 10 4 25 1 2 5 10 4 25 2 4 11 44 16 121 2 4 11 44 16 121 3 6 11 66 36 121 3 6 11 66 36 121 4 8 14 112 64 196 4 8 14 112 64 196 5 10 22 220 100 484 5 10 22 220 100 484 6 12 23 276 144 529 6 12 23 276 144 529 7 14 32 448 196 1024 7 14 32 448 196 1024 8 16 29 464 256 841 8 16 29 464 256 841 9 18 32 576 324 1024 9 18 32 576 324 1024 10 20 34 680 400 1156 10 20 34 680 400 1156 11 22 33 726 484 1086 11 22 33 726 484 1086 合计合计132 246 3622 2024 6569132 246 3622 2024 6569例例10.3第25页/共56页第二十六页,共56页。1.绘制绘制(huzh)散点图散点图第26页/共56页第二十七页,共56页。2.计算回归系数及常数计算回归系数及常数(chngsh)项:项:3.建立回归方程:建立回归方程:第27页/共56页第二十八页,共56页。4.4.作回归作回归作回归作回归(hugu)(hugu)直线直线直线直线 在在X X实测值范围内,任取两个相距实测值范围内,任取两个相距(xingj)(xingj)较远较远的点的点A A、B B,连接两点即得回归直线。,连接两点即得回归直线。本例取本例取x1=3x1=3,x2=21x2=21;代入回归方程得:;代入回归方程得:(3 3,8.65)8.65)和(和(1717,6.06)6.06)两点的直线即为所求的两点的直线即为所求的回归直线。回归直线。第28页/共56页第二十九页,共56页。绘制回归绘制回归(hugu)直线直线第29页/共56页第三十页,共56页。三、回归系数的假设检验三、回归系数的假设检验(jinyn)前面所求得的回归方程是由样本的信息前面所求得的回归方程是由样本的信息所所计算,抽样误差在所难免,必须对其进行计算,抽样误差在所难免,必须对其进行假假设检验设检验(jinyn)。我们知道,即使。我们知道,即使X、Y的的总体回归系总体回归系数数为零,由于抽样误差的存在,其样本回为零,由于抽样误差的存在,其样本回归系数归系数b也不一定为零。因此需作也不一定为零。因此需作是否为是否为零零的假设检验的假设检验(jinyn),可用方差分析或,可用方差分析或t检检验验(jinyn)。第30页/共56页第三十一页,共56页。目的目的(md):推断总体回归系数:推断总体回归系数 是否为是否为0,确定所求得的回归方程是否成立。,确定所求得的回归方程是否成立。假设:假设:H0:=0 H1:0 =0.05第31页/共56页第三十二页,共56页。(一)方差分析(一)方差分析首先首先(shuxin)我们分析一下我们分析一下Y的离均差平方和。的离均差平方和。对于任一点对于任一点P(X,Y),其纵坐标被回其纵坐标被回归线和截成三段:归线和截成三段:第32页/共56页第三十三页,共56页。因变量因变量Y的离均差的离均差(jn ch)平方和平方和划分示意划分示意P(X,Y)YxP(X,Y)第33页/共56页第三十四页,共56页。对于对于(duy)任一任一x和和y,有:,有:对于对于(duy)许多许多x和和y,有:,有:Y的离均差平方和,又称总平方和,表示应变量的离均差平方和,又称总平方和,表示应变量(binling)y总的变异,即总的变异,即SS总。总。回归平方和,总变异中,回归平方和,总变异中,x和和y的线性关系引起的变异,的线性关系引起的变异,即即SS回回。其它因素对其它因素对y的影响,的影响,即即SS剩余剩余。第34页/共56页第三十五页,共56页。第35页/共56页第三十六页,共56页。因此,因此,Y Y的总变异及其自由度分的总变异及其自由度分别分解为别分解为 SS SS总总=SS=SS回回+SS+SS剩余剩余(shngy)(shngy)总总=回回+剩余剩余(shngy)(shngy)按照方差分析的思想,构造检按照方差分析的思想,构造检验统计量验统计量 回回=1=1,剩余剩余(shngy)=n-2(shngy)=n-2第36页/共56页第三十七页,共56页。1 1建立检验假设建立检验假设建立检验假设建立检验假设(ji(ji sh)sh):H0H0:0 0H1H1:00 0.050.052 2计算统计量计算统计量计算统计量计算统计量第37页/共56页第三十八页,共56页。方差分析表方差分析表变异变异(biny)(biny)来源来源SS SS MS MSF F P P总变异总变异(biny)1067.55 10(biny)1067.55 10回归回归 1020.23 1 1020.23 194.04 0.01 1020.23 1 1020.23 194.04 0.01剩余剩余 47.32 9 5.258 47.32 9 5.258 第38页/共56页第三十九页,共56页。3结论结论 查查F界值表,界值表,回归回归(hugu)1,剩余剩余9,F0.01(1,9)=10.56 P0.01,拒,拒绝绝H0,接受,接受H1,可认为温度,可认为温度与蛙的心率之间存在线性回归与蛙的心率之间存在线性回归(hugu)关系。关系。第39页/共56页第四十页,共56页。(二)(二)(二)(二)t t检验检验检验检验(ji(ji nyn)nyn)(y-y)2S yx=n-2|b-0|bt=,=n-2 S b S b S yxS b=_ (x-x)2_ _ 如果没有计算如果没有计算(j sun)MS剩余,则有下列公式:剩余,则有下列公式:第40页/共56页第四十一页,共56页。第41页/共56页第四十二页,共56页。本例:本例:本例:本例:查查t界值表,界值表,t0.05(9)=3.25,P0.01同一同一(tngy)资料方差分布结果和资料方差分布结果和 t 检验结果一致。检验结果一致。第42页/共56页第四十三页,共56页。四、应用直线回归方程应注意的问题四、应用直线回归方程应注意的问题作回归分析要有实际意义;作回归分析要有实际意义;作回归分析时,如果两变量间是依存作回归分析时,如果两变量间是依存(ycn)因果关系因果关系,则则“因因”变量为变量为x,“果果”变量为变量为y;若无因果关系;若无因果关系,则以易于则以易于测量和较稳定的变量为测量和较稳定的变量为X。第43页/共56页第四十四页,共56页。回归分析中,应变量是随机变量,自变量可以是回归分析中,应变量是随机变量,自变量可以是回归分析中,应变量是随机变量,自变量可以是回归分析中,应变量是随机变量,自变量可以是随机变量随机变量随机变量随机变量(型回归模型型回归模型型回归模型型回归模型),也可以是给定的,也可以是给定的,也可以是给定的,也可以是给定的量量量量(型回归模型型回归模型型回归模型型回归模型)。凡随机变量均要求服从。凡随机变量均要求服从。凡随机变量均要求服从。凡随机变量均要求服从(fcng)(fcng)(fcng)(fcng)正态分布。正态分布。正态分布。正态分布。经检验拒绝了无效假设的回归方程才有意义。经检验拒绝了无效假设的回归方程才有意义。经检验拒绝了无效假设的回归方程才有意义。经检验拒绝了无效假设的回归方程才有意义。直线回归方程的适用范围一般以自变量的取值范直线回归方程的适用范围一般以自变量的取值范直线回归方程的适用范围一般以自变量的取值范直线回归方程的适用范围一般以自变量的取值范围为限,不要随意扩大。围为限,不要随意扩大。围为限,不要随意扩大。围为限,不要随意扩大。第44页/共56页第四十五页,共56页。五、直线回归方程的应用五、直线回归方程的应用(补充补充)描述两变量的数量依存关系;描述两变量的数量依存关系;利用利用(lyng)回归方程对应变量回归方程对应变量Y进行估进行估计。计。利用利用(lyng)回归方程进行统计控制,即回归方程进行统计控制,即利用利用(lyng)回归方程进行逆估计(由回归方程进行逆估计(由 y 估计估计 x)。)。第45页/共56页第四十六页,共56页。第三节第三节 直线直线(zhxin)回归与直线回归与直线(zhxin)相关相关的联系与区别的联系与区别第46页/共56页第四十七页,共56页。(二二)直线相关反映直线相关反映(fnyng)两变量的互存关系两变量的互存关系(双向双向);直线回归反映直线回归反映(fnyng)两变量的依存关系两变量的依存关系(单向单向)。(一一)相关分析要求双变量正态分布相关分析要求双变量正态分布 回归回归(hugu)分析:分析:型回归型回归(hugu)模型模型(因变量服从正态分布因变量服从正态分布);型回归型回归(hugu)模型模型(双变量正态分布双变量正态分布)区别区别(qbi):第47页/共56页第四十八页,共56页。1)同一组资料的)同一组资料的 r 与与 b 的正负符号是一致的;的正负符号是一致的;2)同一组资料的)同一组资料的 r 和和 b 的假设检验结果的假设检验结果(ji gu)是一致的,即是一致的,即 t r=t b;3)当)当 r=1时,两变量存在直线回归关系;时,两变量存在直线回归关系;二、线性相关与回归二、线性相关与回归(hugu)的联系的联系第48页/共56页第四十九页,共56页。三、相关三、相关(xinggun)回归可以互相解释:回归可以互相解释:r的平方的平方(pngfng)称为确定系数称为确定系数第49页/共56页第五十页,共56页。此式说明当此式说明当SS总不变的情况下,回归平方和的大小决定了确定系数的大小,总不变的情况下,回归平方和的大小决定了确定系数的大小,r2反映出回归平方和在总平方和中所占的比重。反映出回归平方和在总平方和中所占的比重。R2越接近越接近1,回归效果越好;,回归效果越好;利用确定系数可以从回归角度对相关利用确定系数可以从回归角度对相关(xinggun)程度做进一步的了解。例如,程度做进一步的了解。例如,r=0.5,r2=0.25,说明一个变量的变异仅有,说明一个变量的变异仅有 25%由另一变量所引起。由另一变量所引起。第50页/共56页第五十一页,共56页。第四节等级第四节等级第四节等级第四节等级(dngj)(dngj)相关(相关(相关(相关(Spearman)Spearman)适用于双随机变量不服从正态分布时。适用于双随机变量不服从正态分布时。适用于双随机变量不服从正态分布时。适用于双随机变量不服从正态分布时。等级相关系数(等级相关系数(等级相关系数(等级相关系数(rek correlation coefficient)rek correlation coefficient)-1rs+1 -1rs50时,可查r界值表(附表11)n2,若rs r(n-2),则P,拒绝H0。第54页/共56页第五十五页,共56页。本本 章章 重重 点点掌握:掌握:掌握:掌握:直线相关、直线回归的基本概念直线相关、直线回归的基本概念直线相关、直线回归的基本概念直线相关、直线回归的基本概念相关系数、回归系数的意义相关系数、回归系数的意义相关系数、回归系数的意义相关系数、回归系数的意义相关、回归分析的注意事项相关、回归分析的注意事项相关、回归分析的注意事项相关、回归分析的注意事项熟悉:熟悉:熟悉:熟悉:相关、回归系数的假设检验相关、回归系数的假设检验相关、回归系数的假设检验相关、回归系数的假设检验直线回归的应用直线回归的应用直线回归的应用直线回归的应用等级等级等级等级(dngj)(dngj)(dngj)(dngj)相关的计算相关的计算相关的计算相关的计算 第55页/共56页第五十六页,共56页。