欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    医学统计学进阶1多重线性回归与相关课件.pptx

    • 资源ID:73178347       资源大小:1.79MB        全文页数:127页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    医学统计学进阶1多重线性回归与相关课件.pptx

    主要内容主要内容第一节第一节 偏相关偏相关第二节第二节 多元线性回归多元线性回归n医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。n在这些有关系的现象中,它们之间联系的程度和性质也各不相同。n关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。相关就是用于研究和解释两个变量之间相关就是用于研究和解释两个变量之间相互相互关系的。关系的。复习:复习:直线相关直线相关Linear Correlation一、相关的类型一、相关的类型二、相关系数二、相关系数三、相关系数的假设检验三、相关系数的假设检验n为了研究父亲与成年儿子为了研究父亲与成年儿子身高之间的关系,卡尔身高之间的关系,卡尔.皮尔逊测量了皮尔逊测量了1078对父子对父子的身高。把的身高。把1078对数字表对数字表示在坐标上,如图。示在坐标上,如图。n它的形状象一块橄榄状的它的形状象一块橄榄状的云,中间的点密集,边沿云,中间的点密集,边沿的点稀少,其主要部分是的点稀少,其主要部分是一个椭圆。一个椭圆。一、相关的类型一、相关的类型正相关 负相关 完全正相关 完全负相关 零相关 二、相关系数二、相关系数 样本的相关系数用r(correlation coefficient)相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。n一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中雌三醇含量雌三醇含量与产儿的与产儿的体重体重有关。有关。n于是设想,通过测量待产妇尿中雌三醇含量,可于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。以预测产儿体重,以便对低出生体重进行预防。因此收集了因此收集了31例待产妇例待产妇24小时的尿,测量其中的小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。雌三醇含量,同时记录产儿的体重。n问尿中雌三醇含量与产儿体重之间问尿中雌三醇含量与产儿体重之间相关系数相关系数是多是多少?是正相关还是负相关?少?是正相关还是负相关?n分析问题:总体分析问题:总体-样本、样本、目的、变量、关系目的、变量、关系 编号(1)尿雌三醇mg/24h(2产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2 待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系 SPSS计算程序1.做散点图:GRAPHS-SCATTERT-SIMPLE-DEFINE2.相关分析:ANALYZE-CORRELATION BIVARIATE-VARIABLES从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间呈正相关,相关系数是0.61。根据资料类型选择不同的方法计算根据资料类型选择不同的方法计算r Pearson:连续变量,双变量正态分布资料连续变量,双变量正态分布资料Kendall:资料不服从双变量正态分布或资料不服从双变量正态分布或 总体分布未知,等级资料。总体分布未知,等级资料。Spearman:等级资料:等级资料问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?三、相关系数的假设检验三、相关系数的假设检验 n上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体总体中的一个样本一个样本,由此得到的相关系数会存在抽样误差。n因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。n这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:=n-2 H0:=0 H1:0 =0.05 r=0.61,n=31,代入公式t=n-2=31-2=29 t=4.14查t值表,t0.05(29)=2.045,查t值表,t0.05(29)=2.045,上述计算t=4.142.045,由t所推断的P值小于0.05按=0.05水准拒绝?,接受?认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。另外的例子:n识字数,鞋大小n游泳票与冰激凌销售量 需要排除其它变量的干扰!例例题题:已已知知某某地地29名名13岁岁男男童童身身高高X1(cm)、体体重重X2(kg)和和肺肺活活量量Y(ml),请请计计算算身身高高与肺活量,体重与肺活量的相关关系。与肺活量,体重与肺活量的相关关系。1、身高与肺活量的简单相关系数、身高与肺活量的简单相关系数2、体重与肺活量的简单相关系数、体重与肺活量的简单相关系数3、身高与体重的简单相关系数、身高与体重的简单相关系数第一节第一节 偏相关偏相关一、概念一、概念 当有多个变量存在时,为了研究任何两当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。多个变量的影响下,计算两个变量的相关性。二、偏相关系数二、偏相关系数 偏相关系数是用来衡量任何两个变量之间偏相关系数是用来衡量任何两个变量之间的关系的大小。的关系的大小。当控制一个变量时,偏相关系数的计算公式:当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。Analyze-Correlation-Partial把分析变量选入把分析变量选入 Variable 框框把控制变量选入把控制变量选入 Controlling for 框框点击点击 Options点击点击 Statistics:选择:选择 Mean and standard deviation Zero-order correlation Continue OK三、三、SPSS操作步骤操作步骤结结 果:果:身高与肺活量的偏相关系数身高与肺活量的偏相关系数(体重为控(体重为控制变量)制变量)P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.X2(体重)(体重)Y(肺活量)(肺活量)X1(身高)(身高)Y(肺活量)(肺活量)1.0000 .098 (0)(26)P=.P=.619X1(身高)(身高).098 1.0000 (26)(0)P=.619 P=.P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.X1(身高)(身高)Y(肺活量)(肺活量)X2(体重)(体重)Y 1.0000 .569 (0)(26)P=.P=.002X2 .569 1.0000 (26)(0)P=.002 P=.肺活量与体重的偏相关系数肺活量与体重的偏相关系数(身高作(身高作为控制变量)为控制变量)n在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。n那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?或产儿的体重可能在什么范围内呢?n这要用直线回归的方法来解决。一、回归方程一、回归方程二、回归系数二、回归系数三、回归系数的假设检验三、回归系数的假设检验四、直线回归的应用四、直线回归的应用复习:复习:直线回归直线回归Linear Regressionn知知道道了了两两个个变变量量之之间间有有直直线线相相关关关关系系,并并且且一一个个变变量量的的变变化化会会引引起起另另一一个个变变量量的的变变化化,这这时时,如如果果它它们们之之间间存存在在准准确确、严严格格的的关关系系,它它们们的的变变化化可可用用函函数数方方程程来来表表示示,叫叫它它们们是是函函数数关关系系,它它们们之之间间的的关关系系式式叫叫函数方程函数方程。n但但在在实实际际生生活活当当中中,由由于于其其它它因因素素的的干干扰扰,许许多多双双变变量量之之间间的的关关系系并并不不是是严严格格的的函函数数关关系系,不不能能用用函函数数方方程程反反映映,为为了了区区别别于于两两变变量量间间的的函函数数方方程程,我我们们称称这这种种关关系系式式为为直线回归方程直线回归方程,这种关系为直线回归,这种关系为直线回归.直线回归就是用来描述一个变量如何依赖依赖于另一个变量。其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回直线回归方程归方程。一、回归方程n简单直线回归简单直线回归(linear regression)是用来描述一个是用来描述一个变量依赖于另一个变量的线性关系。变量依赖于另一个变量的线性关系。这里两变量的地位是不同的,其中这里两变量的地位是不同的,其中X为自为自变量,可随机变动亦可人为取值;而变量,可随机变动亦可人为取值;而Y被被视为依赖于视为依赖于X而变化的因变量。而变化的因变量。a称为截距称为截距(intercept),表示,表示X取值为取值为0时时Y的的平均水平。平均水平。b称为回归系数称为回归系数(regression coefficient)或直或直线的斜率线的斜率(slope),表示,表示X每变化一个单位时,每变化一个单位时,Y平均改变平均改变b个单位。个单位。nb0时,随时,随X的增大而增大;的增大而增大;nb0时,随时,随X的增大而减小;的增大而减小;nb=0时,直线与时,直线与X轴平行,轴平行,Y与与X无直线关系无直线关系 二、回归系数n在数理统计中,用最小二乘法的原理可求出在数理统计中,用最小二乘法的原理可求出a a、b b的计算公式。求解的计算公式。求解a a和和b b实际上就是怎样实际上就是怎样”找到一条直线使所有数据点与它的平均距找到一条直线使所有数据点与它的平均距离离“最近最近”。这就是我们求得的二者关系的回归方程这就是我们求得的二者关系的回归方程从公式可求得:根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的回归方程。SPSS程序nANALYZE-REGRESSIONLINEAR回归直线的描绘回归直线的描绘 n 根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。n回归直线一定经过(0,a),()。n这两点可以用来核对图线绘制是否正确。=2.15+0.061X是否一定能说明雌三醇与产儿体重之是否一定能说明雌三醇与产儿体重之间存在回归关系?间存在回归关系?三、回归系数的假设检验n与直线相关一样,直线回归方程也是从样与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差本资料计算而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数问题。所以,需要对样本的回归系数b进行进行假设检验,以判断假设检验,以判断b是否从回归系数为零的是否从回归系数为零的总体中抽得。总体中抽得。n总体的回归系数一般用总体的回归系数一般用表示。表示。回归系数的检验方法有两种:回归系数的检验方法有两种:(1)方差分析方差分析(2)t检验检验两种方法是等价的。两种方法是等价的。(1)方差分析方差分析因变量Y的变异的分解Y的分解:的分解:移项:移项:考虑全部样本:考虑全部样本:上式用符号表示:上式用符号表示:SS总总称为称为Y的总离均差平方和的总离均差平方和SS回回称为回归平方和称为回归平方和SS残残称为残差平方和或剩余平方和称为残差平方和或剩余平方和 不考虑回归时,不考虑回归时,Y的总变异的总变异SS总总全部视为随全部视为随机误差;而回归以后,回归的贡献使得随机机误差;而回归以后,回归的贡献使得随机误差减小为误差减小为SS剩剩。如果两变量间总体回归关。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,差;大到何种程度时可以认为具有统计意义,可计算如下的可计算如下的F统计量:统计量:自由度分别是:自由度分别是:回回1,残残n-2 MS回回与与MS残残分别称为回归均方和残差均方。分别称为回归均方和残差均方。求得求得F值后查值后查F界值表得到界值表得到P值,最后按所取值,最后按所取 水水准作出总体回归关系是否成立的推断结论。准作出总体回归关系是否成立的推断结论。(2)t检验:nH0:=0nH1:0n =0.05统计量t的计算公式为:自由度自由度=n-2例1:nH0:=0nH1:0n =0.05自由度自由度=31-2=29,查,查t界值表,界值表,t0.05(29)=2.045,P0.05,按按=0.05检验水准,拒绝检验水准,拒绝H0,接受,接受 H1,认,认为待产妇为待产妇24小时尿中雌三醇含量与产儿体重之间存小时尿中雌三醇含量与产儿体重之间存在直线回归关系。在直线回归关系。n对于一元线性回归来说,方差分析与对于一元线性回归来说,方差分析与t检检验是完全等价的,且有关系式:验是完全等价的,且有关系式:利用SPSS实现直线回归:nSPSS操作步骤:操作步骤:Analyze-Regression-Linear dependent:因变量因变量 independent:自变量自变量 method:可选择可选择 enter forward backward stepwise点击点击statistics:出现若干统计选项可供选择出现若干统计选项可供选择ContinueOK四、直线回归的应用1.描述两变量之间的依存关系描述两变量之间的依存关系 通过回归系数的假设检验通过回归系数的假设检验,若认为两变量之若认为两变量之间存在直线回归关系间存在直线回归关系,则可用直线回归来描则可用直线回归来描述。述。2.利用回归方程进行预测利用回归方程进行预测 把自变量代入回归方程,对因变量进行估把自变量代入回归方程,对因变量进行估计,并可求出因变量的波动范围。计,并可求出因变量的波动范围。3.利用回归方程进行统计控制利用回归方程进行统计控制 利用回归方程进行逆估计,即要求因变量利用回归方程进行逆估计,即要求因变量y的容许取值范围,逆向估计的容许取值范围,逆向估计X的取值范围。的取值范围。五、应用直线相关与回归的注意事项五、应用直线相关与回归的注意事项(一)注意事项1.考虑实际意义考虑实际意义 进行相关回归分析要有实际意义,不可把进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来做相关回毫无关系的两个事物或现象用来做相关回归分析。归分析。2.相关关系相关关系 相关关系不一定是因果关系,也可能是伴相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。随关系,并不能证明事物间有内在联系。3.利用散点图利用散点图 对于性质不明确的两组数据,可先做散点对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行程度、是正相关还是负相关,然后再进行相关回归分析。相关回归分析。4.变量范围变量范围 相关分析和回归方程仅适用于样本的原始相关分析和回归方程仅适用于样本的原始数据范围之内,超出了这个范围,我们不数据范围之内,超出了这个范围,我们不能得出两变量的相关关系和回归关系。能得出两变量的相关关系和回归关系。(二)相关与回归的区别1.意义意义n相关反映两变量的相互关系,即在两个变相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。变化,是一种双向变化的关系。n回归是反映两个变量的依存关系,一个变回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一量的改变会引起另一个变量的变化,是一种单向的关系。种单向的关系。2.应用应用 研究两个变量的相互关系用相关分析。研研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。究两个变量的依存关系用回归分析。3.性质性质 相关是对两个变量之间的关系进行描述,相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。测出另一个变量值,可以得到定量结果。4.相关系数相关系数r与回归系数与回归系数b r与与b的绝对值反映的意义不同。的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关条直线,表明两变量的关系越密切,相关程度越高。程度越高。b的绝对值越大,回归直线越陡,说明当的绝对值越大,回归直线越陡,说明当X变化一个单位时,变化一个单位时,Y的平均变化就越大。反的平均变化就越大。反之也是一样。之也是一样。(三)相关与回归的联系1.关系关系 能进行回归分析的变量之间存在相关关系。能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)可先所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出有相关关系的变量再进行回归分析,求出回归方程。回归方程。2.相关系数相关系数r与回归系数与回归系数b r与与b的符号一致。的符号一致。r为正时,为正时,b也为正,表也为正,表示两变量是正相关,是同向变化。示两变量是正相关,是同向变化。r为负时,为负时,b也为负,表示两变量是负相关,是反向变也为负,表示两变量是负相关,是反向变化。化。nr与与b的假设检验结果一致。对同一资料,的假设检验结果一致。对同一资料,可以证明可以证明r与与b假设检验的统计量假设检验的统计量t值的大小值的大小相等,因而结果总是相同的。相等,因而结果总是相同的。n由于对由于对r进行假设检验的统计量进行假设检验的统计量t值计算公式值计算公式比较简便,而且还可以直接查表。所以,比较简便,而且还可以直接查表。所以,可用可用r的显著检验代替的显著检验代替b的显著性检验。的显著性检验。第二节 多重(多元)线性回归 在在医医学学研研究究中中,影影响响某某个个结结局局指指标标的的因因素素常常常常有有很很多多个个,特特别别对对于于慢慢性性非非传传染染性性疾疾病更是如此,例如心血管疾病、肿瘤等。病更是如此,例如心血管疾病、肿瘤等。多多重重线线性性回回归归分分析析可可以以用用来来发发现现影影响响某某个个结结局局变变量量的的多多个个因因素素,并并有有可可能能建建立立有有效效的预测模型。的预测模型。一、多重线性回归模型 多重线性回归模型可视为简单直线模型多重线性回归模型可视为简单直线模型的直接推广。简单的说,只有一个自变量的直接推广。简单的说,只有一个自变量的线性模型为简单直线回归模型,具有两的线性模型为简单直线回归模型,具有两个以上自变量的线性模型即为多重线性回个以上自变量的线性模型即为多重线性回归模型。归模型。这里提及的回归模型中,都只有一个因这里提及的回归模型中,都只有一个因变量。变量。总体回归模型:总体回归模型:0 0为常数项,为常数项,1 1,m m 称为称为总体偏回归系数。总体偏回归系数。样本回归模型:样本回归模型:偏回归系数偏回归系数:b0为常数项,为常数项,b1,b2,bm为样本偏回归系数。为样本偏回归系数。偏回归系数表示在其它所有自变量固定不变的情况下,偏回归系数表示在其它所有自变量固定不变的情况下,某一个自变量变化一个单位时引起因变量某一个自变量变化一个单位时引起因变量y变化的平均大变化的平均大小。小。残差残差e:y 的变化中不能为自变量所解释的部分。的变化中不能为自变量所解释的部分。线性回归的适用条件:线性回归的适用条件:1.L:线性:线性自变量自变量x与应变量与应变量y之间存在线性之间存在线性关系;关系;2.I:独立性:独立性y值相互独立,在模型中则要求值相互独立,在模型中则要求残差相互独立,不存在自相关;残差相互独立,不存在自相关;3.N:正态性:正态性随机误差(即残差)随机误差(即残差)e服从均服从均值为零,方差为值为零,方差为 的正态分布;的正态分布;4.E:等方差:等方差 对于所有的自变量对于所有的自变量x,残差,残差e的方差齐。的方差齐。数据类型要求 因变量必须是数值型变量(连续变量)。因变量必须是数值型变量(连续变量)。自自变变量量既既可可以以是是数数值值型型变变量量,也也可可以以是是分分类类型型变变量量。但但如如果果是是多多分分类类变变量量,则则不不能能直直接接进进入入回回归方程,而要先进行哑变量设置(略)。归方程,而要先进行哑变量设置(略)。例例2.某某研研究究者者测测量量了了29名名儿儿童童血血液液中中血血红红蛋蛋白白(g)、钙钙(g)、镁镁(g)、铁铁(g)、锰锰(g)、铜铜(g)的的含含量量。试试以以血血红红蛋蛋白白为为因因变量,其它为自变量,建立回归模型。变量,其它为自变量,建立回归模型。做回归分析的第一步通常是做散点图,做回归分析的第一步通常是做散点图,以发现因变量与自变量之间是否大致存在以发现因变量与自变量之间是否大致存在直线关系。如有明显的曲线关系,则不能直线关系。如有明显的曲线关系,则不能直接做线性回归模型。直接做线性回归模型。另外,散点图还有助于发现异常点。另外,散点图还有助于发现异常点。采用最小二乘法(采用最小二乘法(LSLS)估计回归系数)估计回归系数b b即要求残差平方和:即要求残差平方和:达到最小值。达到最小值。求解过程需要进行矩阵运算,并要借助计算机完成。求解过程需要进行矩阵运算,并要借助计算机完成。二、回归系数的估计或写成:或写成:Y=XB+E如矩阵如矩阵XX的逆存在,则回归系数矩阵的逆存在,则回归系数矩阵B=(XX)-1XY所有样本点数据代入模型后可写成如下矩阵形式:所有样本点数据代入模型后可写成如下矩阵形式:SPSS回归分析输出结果1.对整个方程的检验:对整个方程的检验:H0:1 2 m 02.对单个回归系数或常数项的检验:对单个回归系数或常数项的检验:H0:i 0 三、方程的显著性检验:三、方程的显著性检验:对整个方程的检验:H0:回归系数全为零回归系数全为零 1=2=m=0 H1:回归系数不全为零回归系数不全为零 0.05FMSreg/MSE26.306自由度自由度 dfreg5,dfe23,Pt20.023 df2=23 p=0.982t38.079 df3=23 p0.001t50.672 df5=23 p=0.508只有铁的偏回归系数有意义。四、筛选有影响的自变量四、筛选有影响的自变量选择标准:对各自变量的偏回归平方和进行选择标准:对各自变量的偏回归平方和进行检验,检验,F值大于预先设定的值大于预先设定的F,则将此变,则将此变量选入或保留在方程内。量选入或保留在方程内。偏回归平方和:将某个变量引入方程后所引偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某起的回归平方和增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减个变量剔除方程后所引起的回归平方和减少的部分。少的部分。例如:将本例中钙剔除后,回归平方和从例如:将本例中钙剔除后,回归平方和从113.26 变为变为109.94,则钙的偏回归平方,则钙的偏回归平方和为和为113.26-109.943.32自变量的选择方法自变量的选择方法1.强行进入法(强行进入法(Enter):为默认选择项,定):为默认选择项,定义的全部自变量均引入方程。义的全部自变量均引入方程。2.后退法(后退法(Backward):先建立一个包含全):先建立一个包含全部自变量的回归方程,然后每次剔除一个部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。量,直到不能剔除为止。3.前进法(前进法(Forward):回归方程由一个自变量开):回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。学意义的自变量被引入为止。4.逐步法(逐步法(Stepwise):它是前进法和后退法的):它是前进法和后退法的结合。结合。5.消去法(消去法(Remove):建立回归方程时,根据设):建立回归方程时,根据设定的条件剔除部分自变量。定的条件剔除部分自变量。选用后退法选用后退法钙保留下来的钙保留下来的原因:后退法原因:后退法的默认剔除标的默认剔除标准是准是0.1最终回归模型:以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多元线性回归分析,变量筛选方法为后退法(backward),剔除标准为p0.1()。最后结果只有钙和铁保留在方程中。其中x1代表钙,x3代表铁(方程和偏回归系数的检验略)两个自变量与因变量的拟合面示意图注意:自变量的选择不是一个单独的数学问注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察。必须结合专业知识,综合考察。1.对因变量确实有影响的,应当选入。对因变量确实有影响的,应当选入。2.不同筛选方法结果不一致时要谨慎,重点不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。考虑共线性的问题。3.所做出的模型不能视为所做出的模型不能视为“最佳最佳”模型,而模型,而应视为应视为“局部最优局部最优”模型,因为所纳入分模型,因为所纳入分析的自变量中常常不能包括全部的影响因析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。素,甚至是很重要的因素。五、标准化偏回归系数五、标准化偏回归系数 由于各自变量量纲(测量单位)不同,各偏由于各自变量量纲(测量单位)不同,各偏由于各自变量量纲(测量单位)不同,各偏由于各自变量量纲(测量单位)不同,各偏回归系数之间不能直接比较。回归系数之间不能直接比较。回归系数之间不能直接比较。回归系数之间不能直接比较。标准化偏回归系数消除了量纲的影响,可以标准化偏回归系数消除了量纲的影响,可以标准化偏回归系数消除了量纲的影响,可以标准化偏回归系数消除了量纲的影响,可以用来直接比较各自变量对因变量作用的大小。用来直接比较各自变量对因变量作用的大小。用来直接比较各自变量对因变量作用的大小。用来直接比较各自变量对因变量作用的大小。标准化偏回归系数的标准化偏回归系数的标准化偏回归系数的标准化偏回归系数的计算方法:计算方法:计算方法:计算方法:其中,其中,其中,其中,s sy y代表因变量的代表因变量的代表因变量的代表因变量的标准差,标准差,标准差,标准差,s si i代表不同自变代表不同自变代表不同自变代表不同自变量的标准差。量的标准差。量的标准差。量的标准差。从本例来看,钙和铁的偏回归系数的从本例来看,钙和铁的偏回归系数的绝对值差不多,但铁的标准化偏回归系数绝对值差不多,但铁的标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比确要大得多,表示铁对血红蛋白的作用比钙要大。钙要大。六、回归模型的优良性评价(拟和六、回归模型的优良性评价(拟和效果)效果)1.决定系数决定系数R2:0R21 决定系数反映决定系数反映Y的全部变异中能够被回的全部变异中能够被回归方程中的全部自变量所解释的比例。归方程中的全部自变量所解释的比例。R21,越接近于越接近于1,说明模型拟和得越好。,说明模型拟和得越好。2.复相关系数复相关系数R:0R1 复相关系数描述了因变量复相关系数描述了因变量y与方程中与方程中m个个自变量的总体相关系数。自变量的总体相关系数。R越接近于越接近于1,说明,说明因变量与自变量的关系越密切,模型拟和得因变量与自变量的关系越密切,模型拟和得越好。越好。3.校正决定系数校正决定系数R2adj:R和和R2有有一一个个缺缺陷陷,随随着着自自变变量量个个数数的的增增加加,R2总总是是增增加加,造造成成变变量量数数目目越越多多,则则拟拟和和效效果果越越优优良良的的错错觉觉。为为解解决决这这一一问问题题,可可采采用用校校正正决决定定系系数。数。3.校正决定系数校正决定系数R2adj:MS代表均方,用离均差平方和代表均方,用离均差平方和SS除以自由度得到除以自由度得到(详见方差分析):(详见方差分析):MS残残SS残残/(n-m-1)MS总总SS总总/(n-1)校正决定系数校正决定系数消除了自变量的个数以及样本量的大消除了自变量的个数以及样本量的大小对决定系数的影响小对决定系数的影响。本例显示,自变量个数最多的模型本例显示,自变量个数最多的模型1的的复相关系数和决定系数最大,而最后一个模复相关系数和决定系数最大,而最后一个模型(最优模型)的校正决定系数最大。型(最优模型)的校正决定系数最大。七、残差分析七、残差分析 残差分析常用于检验回归模型是否符合残差分析常用于检验回归模型是否符合适用条件(如独立性、正态性、方差齐性)适用条件(如独立性、正态性、方差齐性),发现异常点(强影响点)。,发现异常点(强影响点)。一般所说的残差(一般所说的残差(residual)是指拟和)是指拟和残差,指因变量的实测值与回归方程预测残差,指因变量的实测值与回归方程预测值之差:值之差:由于残差有单位,不适合相互比较,可由于残差有单位,不适合相互比较,可用标准化残差(用标准化残差(Standardized residual)和学生氏残差(和学生氏残差(Studentized residual)。)。这两个残差都经过了标准化变换,去除了这两个残差都经过了标准化变换,去除了单位。单位。1.独立性检查 独立性是指不同观察对象之间的独立性是指不同观察对象之间的y值相互值相互独立,没有联系。在模型中,则是要求残差独立,没有联系。在模型中,则是要求残差间相互独立,不存在自相关。间相互独立,不存在自相关。分析方法:分析方法:Durbin-Watson(D)残差序)残差序列相关性检验。列相关性检验。0D4D2时,残差与自变量相互独立时,残差与自变量相互独立符合独立性的推荐取值范围:符合独立性的推荐取值范围:1D32.正态性检查 残差的正态性是回归模型的假设条件,残差的正态性是回归模型的假设条件,在样本量比较大时可以适当放宽。在样本量比较大时可以适当放宽。检查方法:标准化或学生氏残差的直方检查方法:标准化或学生氏残差的直方图和残差的累积概率图(图和残差的累积概率图(P-P图)。图)。3.残差的等方差性 回归模型中的等方差性,比正态性要重要。回归模型中的等方差性,比正态性要重要。绘制残差图检查等方差性:绘制残差图检查等方差性:以以y的预测值为横坐标,学生氏的预测值为横坐标,学生氏/标准化标准化残差为纵坐标做散点图,如果残差在零水残差为纵坐标做散点图,如果残差在零水平上下均匀分布,没有某种趋势存在,可平上下均匀分布,没有某种趋势存在,可认为残差方差齐。认为残差方差齐。1 2 3 4 y残差210-102残差210-102 1 2 3 4 y残差210-102 1 2 3 4 y方差齐方差齐方差不齐方差不齐自变量与因自变量与因变量可能不变量可能不是直线关系是直线关系4.发现强影响点 远离多数数据的点可能成为强影响点。远离多数数据的点可能成为强影响点。强影响点包括强影响点包括y方向远离的异常点和方向远离的异常点和x方向方向远离的高杠杆点。远离的高杠杆点。发现方法:发现方法:1.y与与x的散点图的散点图2.残差诊断(略)残差诊断(略)八、共线性诊断八、共线性诊断 共线性(共线性(collinearity)是指回归模型中的)是指回归模型中的自变量之间存在着比较明显的线性相关关系。自变量之间存在着比较明显的线性相关关系。共线性对回归模型有很大的危害性:共线性对回归模型有很大的危害性:1.回归模型不可靠,不同的变量选择方法得出的回归模型不可靠,不同的变量选择方法得出的结果不一致。结果不一致。2.偏回归系数的估计值远离经验值,甚至符号相偏回归系数的估计值远离经验值,甚至符号相反。反。3.专业上明确有影响的因素不能纳入方程。专业上明确有影响的因素不能纳入方程。共线性诊断的方法:共线性诊断的方法:第一类方法:基于复相关系数:第一类方法:基于复相关系数:1.容忍度:容忍度:以其中一个以其中一个xi为因变量,其它为因变量,其它x为自变量做回为自变量做回归,获得复相关系数归,获得复相关系数Ri,容忍度容忍度 TOL1-R2i容忍度小则说明共线性强。容忍度小则说明共线性强。TOL0.2 或或5 或或 10 说明存在严重的共线性。说明存在严重的共线性。第二类:基于特征根的方法第二类:基于特征根的方法 计算自变量的相关系数阵的特征根,如果有计算自变量的相关系数阵的特征根,如果有接近于零的特征根,则说明有共线性。接近于零的特征根,则说明有共线性。3.条件指数:条件指数:条件指数(最大特征根条件指数(最大特征根/最小特征根)最小特征根)1/2 条件指数的值越大说明自变量间共线性的可条件指数的值越大说明自变量间共线性的可能性越大。能性越大。0条件指数数条件指数数10 认为没有共线性;认为没有共线性;10条件指数数条件指数数30 认为有严重共线性。认为有严重共线性。共线性问题的解决1.可尝试增大样本量;可尝试增大样本量;2.根据专业知识,去除专业上认为不重要,根据专业知识,去除专业上认为不重要,但带来较强共线性的变量;但带来较强共线性的变量;3.进行主成分进行主成分/因子分析,将多个共线性强的因子分析,将多个共线性强的自变量综合成少量新的因子(新变量);自变量综合成少量新的因子(新变量);4.进行岭回归分析,或通径分析。进行岭回归分析,或通径分析。谢谢 谢谢 Thanks

    注意事项

    本文(医学统计学进阶1多重线性回归与相关课件.pptx)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开