《医学统计人卫线性相关与回归.pptx》由会员分享,可在线阅读,更多相关《医学统计人卫线性相关与回归.pptx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一、线性相关(一)概念:如果两个随机变量中,一个变量由小到大变化时,另一个变量也(一)概念:如果两个随机变量中,一个变量由小到大变化时,另一个变量也相应地由小到大相应地由小到大(或由大到小或由大到小)地变化,并且测得两变量组成的坐标点在直角坐地变化,并且测得两变量组成的坐标点在直角坐标系中呈直线趋势,就称这两个变量存在直线相关关系。标系中呈直线趋势,就称这两个变量存在直线相关关系。线性相关,直线相关直线相关(1inear correlation)(1inear correlation)又称简单相关又称简单相关(simple(simple correlation)correlation),要求两
2、个变量均为正态分布,要求两个变量均为正态分布(normal distribution)(normal distribution)资料。一般来说,两个变量都是随机变动的,不分主次,处于同等地位。资料。一般来说,两个变量都是随机变动的,不分主次,处于同等地位。第1页/共29页一、线性相关 两变量间的直线相关关系用相关系数两变量间的直线相关关系用相关系数 r r 描述。描述。直线相关的性质可由散点图直观地说明。直线相关的性质可由散点图直观地说明。见图见图10-210-2第2页/共29页 (a)0r1 (b)-1r0 (c)r=1 (d)r=-1 (e)r=0 (f)r=0 (g)r=0 (h)r=0
3、图10-2 相关系数示意一、线性相关 第3页/共29页一、线性相关(二)相关系数的意义及计算(二)相关系数的意义及计算用用r r表示样本相关系数,表示样本相关系数,表示总体相关系数。表示总体相关系数。它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。计算:计算:第4页/共29页一、线性相关(二)相关系数的意义及计算(二)相关系数的意义及计算相关系数没有单位,其值相关系数没有单位,其值-1-1r r1 1。当两变量呈同向变化时,。当两变量呈同向变化时,0r10r1,为正相关;,为正相关;两变量呈反向变化,两变量
4、呈反向变化,-1-1r r0 0,为负相关;,为负相关;r r0 0为零相关,表示无直线相关关系;为零相关,表示无直线相关关系;两变量呈同向或反向变化且点子分布在一条直线上,两变量呈同向或反向变化且点子分布在一条直线上,|r|r|1 1为完全相关。为完全相关。例例1 1 根据下表资料,试计算根据下表资料,试计算8 8岁健康男孩体重与心脏横径的相关系数。岁健康男孩体重与心脏横径的相关系数。第5页/共29页表1.13名8岁健康男童体重与心脏横径的关系 编号编号体重体重(kg,X)(kg,X)心脏横径心脏横径(cm,Y)(cm,Y)1 125.525.59.29.22 219.519.57.87.8
5、3 324.024.09.49.44 420.520.58.68.65 525.025.09.09.06 622.022.08.88.87 721.521.59.09.08 823.523.59.49.49 926.526.59.79.7101023.523.58.88.8111122.022.08.58.5121220.020.08.28.2131328.028.09.99.9第6页/共29页已算得,lXX=80.2692,lYY=4.1923,lXY=16.3846第7页/共29页一、线性相关(三)相关系数的假设检验(三)相关系数的假设检验相关系数相关系数r r是样本相关系数,它只是总体相
6、关系数是样本相关系数,它只是总体相关系数 的估计值。的估计值。即使从即使从 =0=0的总体作随机抽样,由于抽样误差的影响,所得的总体作随机抽样,由于抽样误差的影响,所得 r r 值也不一定等于值也不一定等于零。零。故当计算算出故当计算算出 r r 值后,接着应做值后,接着应做 =0=0的假设检验,以判断两变量的总体是否有的假设检验,以判断两变量的总体是否有直线相关关系。直线相关关系。第8页/共29页一、线性相关(三)相关系数的假设检验(三)相关系数的假设检验1.1.常用常用t t 检验:检验:假设假设 H H0 0:=0:=0 H H1 1:0 0 第9页/共29页已知 n=13,r=0.89
7、32 第10页/共29页一、直线相关(三)相关系数的假设检验(三)相关系数的假设检验2.2.查表法:按查表法:按 查查P P210210 附表附表1111(r r界值表)界值表)-2=nn第11页/共29页二、直线回归(一)(一)直线回归的概念直线回归直线回归(linear regression)是用直线回归方程表示两个数量变量间是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。依存关系的统计分析方法,属双变量分析的范畴。如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋
8、势,就可以用一个直线方程来定量地描述它们之间的数量依存关系,中呈直线趋势,就可以用一个直线方程来定量地描述它们之间的数量依存关系,这就是直线回归分析。这就是直线回归分析。第12页/共29页二、直线回归(一)(一)直线回归的概念直直线线回回归归分分析析中中两两个个变变量量的的地地位位不不同同,其其中中一一个个变变量量是是依依赖赖另另一一个个变变量量 而而 变变 化化 的的,因因 此此 分分 别别 称称 为为 因因 变变 量量(dependent variable)和和自自变变量量(independent variable),习习惯上分别用惯上分别用y y和和x x来表示。来表示。第13页/共29
9、页二、直线回归(二)(二)直线回归分析的应用条件1.1.两变量的变化趋势呈直线趋势两变量的变化趋势呈直线趋势(linear)(linear);2.2.因变量因变量y y属于正态随机变量属于正态随机变量(normal distribution)(normal distribution);3.3.对于对于I I型回归要求对于每个选定的型回归要求对于每个选定的x x ,y y都有一个正态分布的总体,并且这些总都有一个正态分布的总体,并且这些总体的方差都相等体的方差都相等(equal variance)(equal variance);对于;对于IIII型回归,要求型回归,要求x x、y y均服从正态
10、均服从正态分布。分布。第14页/共29页二、直线回归(三)(三)直线回归分析的一般步骤 1.将n个观察单位的变量对(x,y)在直角坐标系中绘制散点图,若呈直线趋势,则可拟合直线回归方程。2.求回归方程的回归系数和截矩。3.写出回归方程,画出回归直线。4.对回归方程进行假设检验。第15页/共29页二、直线回归(四)(四)直线回归方程及其求法 直线回归方程直线回归方程其中其中 b b 称为回归系数称为回归系数(coefficient of regression)(coefficient of regression),含义为当,含义为当x x每变化每变化1 1个单位时,因变量个单位时,因变量Y Y平
11、均变化的单数;平均变化的单数;a a称为截矩称为截矩(intercept)(intercept),为回归直线或其延长线与,为回归直线或其延长线与 y y 轴交点的纵坐标。轴交点的纵坐标。直线回归方程的求法直线回归方程的求法:第16页/共29页式中式中l lxyxy为为X X、Y Y的离均差积和,的离均差积和,l lxxxx为为X X的离均差平方和;的离均差平方和;第17页/共29页二、直线回归(五)直线回归方程的假设检验(五)直线回归方程的假设检验 回归系数的检验亦即是回归关系的检验,又称回归方程的检验,其目的是检回归系数的检验亦即是回归关系的检验,又称回归方程的检验,其目的是检验求得的回归方
12、程在总体中是否成立,即是否样本代表的总体也有直线回归验求得的回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。关系。即使即使X X、Y Y的总体回归系数的总体回归系数 为零,由于抽样误差的原因,其样本回归系数为零,由于抽样误差的原因,其样本回归系数b b也不一定为零,因此,需作也不一定为零,因此,需作 是否为零的假设检验。是否为零的假设检验。第18页/共29页二、直线回归(五)直线回归方程的假设检验(五)直线回归方程的假设检验 方法有以下两种:方法有以下两种:1.1.方差分析:基本思想是将应变量方差分析:基本思想是将应变量Y Y的总变异的总变异SSSS总分解为总分解为SSSS回归
13、和回归和SSSS剩余,然剩余,然后利用后利用F F检验来判断回归方程是否成立。检验来判断回归方程是否成立。SS总即 为为Y Y的离均差平方和,反映未考虑的离均差平方和,反映未考虑X X与与Y Y的回归关的回归关系时系时Y Y的变异,其意义可通过下图加以说明。的变异,其意义可通过下图加以说明。第19页/共29页P(X,Y)图1.应变量Y的平方和划分示意图Y X任一点P的纵坐标被回归直线与均数 截成三段 表示实测点表示实测点P P与回与回归直线的纵向距离,即实归直线的纵向距离,即实际值际值Y Y与估计值与估计值 之差,之差,称为剩余或残差。称为剩余或残差。即即Y Y估计值估计值 与与均数均数 之差
14、,它与回归系之差,它与回归系数的大小有关。数的大小有关。|b|b|值越大,值越大,也越大,反之亦然。当也越大,反之亦然。当b=0b=0时,回归直线不能使残差时,回归直线不能使残差减小。减小。第20页/共29页SSSS总总 =SS=SS回回 +SS+SS剩剩 SSSS回回为回归平方和,它反映在为回归平方和,它反映在Y Y的总变异中由于的总变异中由于X X与与Y Y的直线关系而使的直线关系而使Y Y变异减小的部分,也就是在总平变异减小的部分,也就是在总平方和中可以用方和中可以用X X解释的部分。解释的部分。SSSS回回越大,说明回归效越大,说明回归效果越好果越好,即即SSSS总总中可用中可用X X
15、与与Y Y线性关系解释的变异越多。线性关系解释的变异越多。SSSS剩剩为剩余平方和,它反映为剩余平方和,它反映X X对对Y Y的线性影响之外的的线性影响之外的一切因素对一切因素对Y Y的变异的作用,也就是在总平方和的变异的作用,也就是在总平方和SSSS总总中无法用中无法用X X解释的部分。在散点图中,各实测点离回解释的部分。在散点图中,各实测点离回归直线越近,归直线越近,SSSS剩剩也就越小,说明直线回归的估计也就越小,说明直线回归的估计误差越小。误差越小。第21页/共29页SS剩=SS总 -SS回 总=回+剩 总=n-1,=n-1,回=1,=1,剩=n-2=n-2 第22页/共29页二、直线
16、回归(五)直线回归方程的假设检验(五)直线回归方程的假设检验 2.t2.t检验:作检验:作b b与与 的比较判断回归方程是否成立。的比较判断回归方程是否成立。实际应用中,由于相关系数的检验简单并与之等价实际应用中,由于相关系数的检验简单并与之等价,故一般用相关系数故一般用相关系数r r的检验来的检验来代替回归系数代替回归系数b b的检验。的检验。说明:两种检验方法是等价的,说明:两种检验方法是等价的,F=tF=t2 2第23页/共29页直线回归方程的应用直线回归方程的应用 1.1.定量描述两变量之间的依存关系:对回归系数定量描述两变量之间的依存关系:对回归系数b b进行假设检验时,若进行假设检
17、验时,若 ,可可认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。的定量表达式。2.2.利用回归方程进行预测:把预报因子(即自变量利用回归方程进行预测:把预报因子(即自变量x x)代入回归方程对预报量)代入回归方程对预报量(即因变量(即因变量Y Y)进行估计,即可得到个体)进行估计,即可得到个体Y Y值的容许区间。值的容许区间。3.3.利用回归方程进行统计控制利用回归方程进行统计控制:规定规定Y Y值的变化,通过控制值的变化,通过控制X X的范围来实现统计的范围来实现统计控制的目标控制的目标,所以统
18、计控制是利用回归方程进行的逆估计。所以统计控制是利用回归方程进行的逆估计。第24页/共29页应用直线相关和回归应注意的问题应用直线相关和回归应注意的问题1.1.作直线相关和回归分析要有实际意义;作直线相关和回归分析要有实际意义;2.2.在进行分析之前,应先绘制散点图,当其分布在进行分析之前,应先绘制散点图,当其分布有直线趋势时,才适宜作直线相关回归分析。有直线趋势时,才适宜作直线相关回归分析。散点图还能提示资料有无异常点。散点图还能提示资料有无异常点。3.3.两变量间存在直线相关关系,并不一定是因果两变量间存在直线相关关系,并不一定是因果关系,可能是伴随关系;关系,可能是伴随关系;4.4.直线
19、回归方程的适用范围一般以自变量的取值直线回归方程的适用范围一般以自变量的取值范围为限,在此范围内求出的估计值称内插;范围为限,在此范围内求出的估计值称内插;超此范围所得超此范围所得 称外延。若无充分理由应避免外称外延。若无充分理由应避免外延。延。5.5.相关系数假设检验中的概率相关系数假设检验中的概率P P的大小只反映结的大小只反映结论的可靠性,不能说明相关关系的密切程度。论的可靠性,不能说明相关关系的密切程度。第25页/共29页直线相关与回归的区别与联系直线相关与回归的区别与联系 (一)区别(一)区别1.1.资料要求不同:相关要求两个变量是双变量正资料要求不同:相关要求两个变量是双变量正态分
20、布;回归要求应变量态分布;回归要求应变量Y Y服从正态分布,而自服从正态分布,而自变量变量X X是能精确测量和严格控制的变量。是能精确测量和严格控制的变量。2.2.统计意义不同:相关反映两变量间的伴随关系统计意义不同:相关反映两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;这种关系是相互的,对等的;不一定有因果关系;回归则反映两变量间的依存关系,有自变量与应回归则反映两变量间的依存关系,有自变量与应变量之分,一般将变量之分,一般将“因因”或较易测定、变异较小或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或者定为自变量。这种依存关系可能是因果关系或从属关系。从属关系。
21、3.3.分析目的不同:相关分析的目的是把两变量间分析目的不同:相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出直线关系的密切程度及方向用一统计指标表示出来;回归分析的目的则是把自变量与应变量间的来;回归分析的目的则是把自变量与应变量间的关系用函数公式定量表达出来。关系用函数公式定量表达出来。第26页/共29页直线相关与回归的区别与联系直线相关与回归的区别与联系 (二)联系(二)联系1.1.变量间关系的方向一致:对同一资料,其变量间关系的方向一致:对同一资料,其r r与与b b的的正负号一致。正负号一致。2.2.假设检验等价:对同一样本,假设检验等价:对同一样本,t t r
22、r =t=t b b,由于,由于t t b b计算较复杂,实际中常以计算较复杂,实际中常以r r的假设检验代替对的假设检验代替对b b的的检验。检验。3.r3.r与与b b值可相互换算值可相互换算4.4.用回归解释相关:相关系数的平方用回归解释相关:相关系数的平方 r r2 2 称为决定称为决定系数系数 r r2 2 是回归平方和与总的离均差平方和之比,故回归平是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分方和是引入相关变量后总平方和减少的部分,其大小取其大小取决于决于 r r2 2。回归平方和越接近总平方和,则。回归平方和越接近总平方和,则 r r2 2
23、越接近越接近1 1,说明引入相关的效果越好,反之,则说明引入相关的说明引入相关的效果越好,反之,则说明引入相关的效果不好或意义不大。效果不好或意义不大。第27页/共29页另外,也可从回归的角度对相关程度做进一步另外,也可从回归的角度对相关程度做进一步的了解。的了解。如如r=0.5r=0.5时,虽按检验水准认为两变量有相关时,虽按检验水准认为两变量有相关关系(关系(r=0.5r=0.5,n=100n=100时,时,t=5.715t=5.715,t t0.050.05,100100 =1.984=1.984,P P0.050.05,认为相关有显著性)且,认为相关有显著性)且相关较密切,但相关较密切,但r r2 2=0.25=0.25,表示,表示SSSS回归回归在在SSSS总总中中占的比例很小,说明两变量间的相关关系实际占的比例很小,说明两变量间的相关关系实际意义不大(即回归效果并不好)。意义不大(即回归效果并不好)。讨论:单项选择题讨论:单项选择题第28页/共29页谢谢您的观看!第29页/共29页
限制150内