医学统计学进阶1多重线性回归与相关课件.pptx
《医学统计学进阶1多重线性回归与相关课件.pptx》由会员分享,可在线阅读,更多相关《医学统计学进阶1多重线性回归与相关课件.pptx(127页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容主要内容第一节第一节 偏相关偏相关第二节第二节 多元线性回归多元线性回归n医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。n在这些有关系的现象中,它们之间联系的程度和性质也各不相同。n关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。相关就是用于研究和解释两个变量之间相关就是用于研究和解释两个变量之间相互相互关系的。关系的。复习:复习:直线相关直线相关Linear Correlation一、相
2、关的类型一、相关的类型二、相关系数二、相关系数三、相关系数的假设检验三、相关系数的假设检验n为了研究父亲与成年儿子为了研究父亲与成年儿子身高之间的关系,卡尔身高之间的关系,卡尔.皮尔逊测量了皮尔逊测量了1078对父子对父子的身高。把的身高。把1078对数字表对数字表示在坐标上,如图。示在坐标上,如图。n它的形状象一块橄榄状的它的形状象一块橄榄状的云,中间的点密集,边沿云,中间的点密集,边沿的点稀少,其主要部分是的点稀少,其主要部分是一个椭圆。一个椭圆。一、相关的类型一、相关的类型正相关 负相关 完全正相关 完全负相关 零相关 二、相关系数二、相关系数 样本的相关系数用r(correlation
3、 coefficient)相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。n一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中雌三醇含量雌三醇含量与产儿的与产儿的体重体重有关。有关。n于是设想,通过测量待产妇尿中雌三醇含量,可于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。以预测产儿体重,以便对低出生体重进行预防。因此收集了因此收集了31例待产妇例待产妇24小时的尿,
4、测量其中的小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。雌三醇含量,同时记录产儿的体重。n问尿中雌三醇含量与产儿体重之间问尿中雌三醇含量与产儿体重之间相关系数相关系数是多是多少?是正相关还是负相关?少?是正相关还是负相关?n分析问题:总体分析问题:总体-样本、样本、目的、变量、关系目的、变量、关系 编号(1)尿雌三醇mg/24h(2产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.0
5、24193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2 待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系 SPSS计算程序1.做散点图:GRAPHS-SCATTERT-SIMPLE-DEFINE2.相关分析:ANALYZE-CORRELATION BIVARIATE-VARIABLES从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间呈正相关,相关系数是0.61。根据资料类型选择不同的方法计算根据资料类
6、型选择不同的方法计算r Pearson:连续变量,双变量正态分布资料连续变量,双变量正态分布资料Kendall:资料不服从双变量正态分布或资料不服从双变量正态分布或 总体分布未知,等级资料。总体分布未知,等级资料。Spearman:等级资料:等级资料问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?三、相关系数的假设检验三、相关系数的假设检验 n上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体总体中的一个样本一个样本,由此得到的相关系数会存在抽样误差。n因为,总体相关系数()为零时,由于
7、抽样误差,从总体抽出的31例,其r可能不等于零。n这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:=n-2 H0:=0 H1:0 =0.05 r=0.61,n=31,代入公式t=n-2=31-2=29 t=4.14查t值表,t0.05(29)=2.045,查t值表,t0.05(29)=2.045,上述计算t=4.142.045,由t所推断的P值小于0.05按=0.05水准拒绝?,接受?认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。另外的例子:n识字数,鞋大小n游泳票与冰激凌
8、销售量 需要排除其它变量的干扰!例例题题:已已知知某某地地29名名13岁岁男男童童身身高高X1(cm)、体体重重X2(kg)和和肺肺活活量量Y(ml),请请计计算算身身高高与肺活量,体重与肺活量的相关关系。与肺活量,体重与肺活量的相关关系。1、身高与肺活量的简单相关系数、身高与肺活量的简单相关系数2、体重与肺活量的简单相关系数、体重与肺活量的简单相关系数3、身高与体重的简单相关系数、身高与体重的简单相关系数第一节第一节 偏相关偏相关一、概念一、概念 当有多个变量存在时,为了研究任何两当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系个变量之间的关系,而使与这两个变量有联
9、系的其它变量都保持不变。即控制了其它一个或的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。多个变量的影响下,计算两个变量的相关性。二、偏相关系数二、偏相关系数 偏相关系数是用来衡量任何两个变量之间偏相关系数是用来衡量任何两个变量之间的关系的大小。的关系的大小。当控制一个变量时,偏相关系数的计算公式:当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。Analyze-Correlation-Partial把分析变量选入把分析变量选入 Variable 框框把控制变量选入把控制变量选入 Controlling for 框框点击点击 Options点击点击 St
10、atistics:选择:选择 Mean and standard deviation Zero-order correlation Continue OK三、三、SPSS操作步骤操作步骤结结 果:果:身高与肺活量的偏相关系数身高与肺活量的偏相关系数(体重为控(体重为控制变量)制变量)P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.X2(体重)(体重)Y(肺活量)(肺活量)X1(身高)(身高)Y(肺活量)(肺活量)1.0000 .098 (0)(26)P=.P=.619X1(身高)(身高).0
11、98 1.0000 (26)(0)P=.619 P=.P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.X1(身高)(身高)Y(肺活量)(肺活量)X2(体重)(体重)Y 1.0000 .569 (0)(26)P=.P=.002X2 .569 1.0000 (26)(0)P=.002 P=.肺活量与体重的偏相关系数肺活量与体重的偏相关系数(身高作(身高作为控制变量)为控制变量)n在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。n那么,如果我们知道了一位待产妇的尿雌三醇含量,
12、能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢?n这要用直线回归的方法来解决。一、回归方程一、回归方程二、回归系数二、回归系数三、回归系数的假设检验三、回归系数的假设检验四、直线回归的应用四、直线回归的应用复习:复习:直线回归直线回归Linear Regressionn知知道道了了两两个个变变量量之之间间有有直直线线相相关关关关系系,并并且且一一个个变变量量的的变变化化会会引引起起另另一一个个变变量量的的变变化化,这这时时,如如果果它它们们之之间间存存在在准准确确、严严格格的的关关系系,它它们们的的变变化化可可用用函函数数方方程程来来表表示示,叫叫它它们们是是函函数数关关系系,它它们们之
13、之间间的的关关系系式式叫叫函数方程函数方程。n但但在在实实际际生生活活当当中中,由由于于其其它它因因素素的的干干扰扰,许许多多双双变变量量之之间间的的关关系系并并不不是是严严格格的的函函数数关关系系,不不能能用用函函数数方方程程反反映映,为为了了区区别别于于两两变变量量间间的的函函数数方方程程,我我们们称称这这种种关关系系式式为为直线回归方程直线回归方程,这种关系为直线回归,这种关系为直线回归.直线回归就是用来描述一个变量如何依赖依赖于另一个变量。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回直线回归方程归方程。一、回归方程n简单直线回归简单直线回归(line
14、ar regression)是用来描述一个是用来描述一个变量依赖于另一个变量的线性关系。变量依赖于另一个变量的线性关系。这里两变量的地位是不同的,其中这里两变量的地位是不同的,其中X为自为自变量,可随机变动亦可人为取值;而变量,可随机变动亦可人为取值;而Y被被视为依赖于视为依赖于X而变化的因变量。而变化的因变量。a称为截距称为截距(intercept),表示,表示X取值为取值为0时时Y的的平均水平。平均水平。b称为回归系数称为回归系数(regression coefficient)或直或直线的斜率线的斜率(slope),表示,表示X每变化一个单位时,每变化一个单位时,Y平均改变平均改变b个单位
15、。个单位。nb0时,随时,随X的增大而增大;的增大而增大;nb0时,随时,随X的增大而减小;的增大而减小;nb=0时,直线与时,直线与X轴平行,轴平行,Y与与X无直线关系无直线关系 二、回归系数n在数理统计中,用最小二乘法的原理可求出在数理统计中,用最小二乘法的原理可求出a a、b b的计算公式。求解的计算公式。求解a a和和b b实际上就是怎样实际上就是怎样”找到一条直线使所有数据点与它的平均距找到一条直线使所有数据点与它的平均距离离“最近最近”。这就是我们求得的二者关系的回归方程这就是我们求得的二者关系的回归方程从公式可求得:根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。
16、SPSS程序nANALYZE-REGRESSIONLINEAR回归直线的描绘回归直线的描绘 n 根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。n回归直线一定经过(0,a),()。n这两点可以用来核对图线绘制是否正确。=2.15+0.061X是否一定能说明雌三醇与产儿体重之是否一定能说明雌三醇与产儿体重之间存在回归关系?间存在回归关系?三、回归系数的假设检验n与直线相关一样,直线回归方程也是从样与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差本资料计算
17、而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数问题。所以,需要对样本的回归系数b进行进行假设检验,以判断假设检验,以判断b是否从回归系数为零的是否从回归系数为零的总体中抽得。总体中抽得。n总体的回归系数一般用总体的回归系数一般用表示。表示。回归系数的检验方法有两种:回归系数的检验方法有两种:(1)方差分析方差分析(2)t检验检验两种方法是等价的。两种方法是等价的。(1)方差分析方差分析因变量Y的变异的分解Y的分解:的分解:移项:移项:考虑全部样本:考虑全部样本:上式用符号表示:上式用符号表示:SS总总称为称为Y的总离均差平方和的总离均差平方和SS回回称为回归平方和称为回归平方和SS
18、残残称为残差平方和或剩余平方和称为残差平方和或剩余平方和 不考虑回归时,不考虑回归时,Y的总变异的总变异SS总总全部视为随全部视为随机误差;而回归以后,回归的贡献使得随机机误差;而回归以后,回归的贡献使得随机误差减小为误差减小为SS剩剩。如果两变量间总体回归关。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,差;大到何种程度时可以认为具有统计意义,可计算如下的可计算如下的F统计量:统计量:自由度分别是:自由度分别是:回回1,残残n-2 MS回回与与MS残残分别称为回归均方和残差均方。分别称为回归均方和残差
19、均方。求得求得F值后查值后查F界值表得到界值表得到P值,最后按所取值,最后按所取 水水准作出总体回归关系是否成立的推断结论。准作出总体回归关系是否成立的推断结论。(2)t检验:nH0:=0nH1:0n =0.05统计量t的计算公式为:自由度自由度=n-2例1:nH0:=0nH1:0n =0.05自由度自由度=31-2=29,查,查t界值表,界值表,t0.05(29)=2.045,P0.05,按按=0.05检验水准,拒绝检验水准,拒绝H0,接受,接受 H1,认,认为待产妇为待产妇24小时尿中雌三醇含量与产儿体重之间存小时尿中雌三醇含量与产儿体重之间存在直线回归关系。在直线回归关系。n对于一元线性
20、回归来说,方差分析与对于一元线性回归来说,方差分析与t检检验是完全等价的,且有关系式:验是完全等价的,且有关系式:利用SPSS实现直线回归:nSPSS操作步骤:操作步骤:Analyze-Regression-Linear dependent:因变量因变量 independent:自变量自变量 method:可选择可选择 enter forward backward stepwise点击点击statistics:出现若干统计选项可供选择出现若干统计选项可供选择ContinueOK四、直线回归的应用1.描述两变量之间的依存关系描述两变量之间的依存关系 通过回归系数的假设检验通过回归系数的假设检验,
21、若认为两变量之若认为两变量之间存在直线回归关系间存在直线回归关系,则可用直线回归来描则可用直线回归来描述。述。2.利用回归方程进行预测利用回归方程进行预测 把自变量代入回归方程,对因变量进行估把自变量代入回归方程,对因变量进行估计,并可求出因变量的波动范围。计,并可求出因变量的波动范围。3.利用回归方程进行统计控制利用回归方程进行统计控制 利用回归方程进行逆估计,即要求因变量利用回归方程进行逆估计,即要求因变量y的容许取值范围,逆向估计的容许取值范围,逆向估计X的取值范围。的取值范围。五、应用直线相关与回归的注意事项五、应用直线相关与回归的注意事项(一)注意事项1.考虑实际意义考虑实际意义 进
22、行相关回归分析要有实际意义,不可把进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来做相关回毫无关系的两个事物或现象用来做相关回归分析。归分析。2.相关关系相关关系 相关关系不一定是因果关系,也可能是伴相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。随关系,并不能证明事物间有内在联系。3.利用散点图利用散点图 对于性质不明确的两组数据,可先做散点对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行程度、是正相关还是负相关,然后再进行相关回归分析。相关回归分析。4.变
23、量范围变量范围 相关分析和回归方程仅适用于样本的原始相关分析和回归方程仅适用于样本的原始数据范围之内,超出了这个范围,我们不数据范围之内,超出了这个范围,我们不能得出两变量的相关关系和回归关系。能得出两变量的相关关系和回归关系。(二)相关与回归的区别1.意义意义n相关反映两变量的相互关系,即在两个变相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。变化,是一种双向变化的关系。n回归是反映两个变量的依存关系,一个变回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一量的改变会引起另一个变量的
24、变化,是一种单向的关系。种单向的关系。2.应用应用 研究两个变量的相互关系用相关分析。研研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。究两个变量的依存关系用回归分析。3.性质性质 相关是对两个变量之间的关系进行描述,相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 进阶 多重 线性 回归 相关 课件
限制150内