第九章-回归与相关-医学统计学课件.ppt
1基本概念基本概念n n单变量分析单变量分析(univariate analysis):t检验、检验、u检验、检验、2检验检验、秩和检验、方差分析、秩和检验、方差分析n n两变量分析两变量分析(multivariate analysis):血糖血糖与胰岛素水平,体温与脉搏次数,年龄与与胰岛素水平,体温与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺活量血压,药剂量与疗效,体表面积与肺活量双变量双变量回归与相关回归与相关Bivariate Regression and Correlation3467简单线性回归的简单线性回归的概念概念 n n分分析析某某变变量量随随另另一一变变量量变变化化而而变变化化依依存存关关系的方法称为简单线性回归。系的方法称为简单线性回归。n n通通过过拟拟合合线线性性方方程程来来描描述述两两个个变变量量的的回回归归关系。关系。8n n历历历历史史史史上上上上“回回回回归归归归”一一一一词词词词第第第第一一一一个个个个被被被被英英英英国国国国科科科科学学学学家家家家高高高高尔尔尔尔顿顿顿顿(Francis Francis Galton)Galton)爵士用于研究身高的遗传问题。爵士用于研究身高的遗传问题。爵士用于研究身高的遗传问题。爵士用于研究身高的遗传问题。n n高高高高尔尔尔尔顿顿顿顿研研研研究究究究发发发发现现现现,父父父父母母母母和和和和孩孩孩孩子子子子的的的的身身身身高高高高有有有有这这这这样样样样的的的的一一一一个个个个趋趋趋趋势势势势:父父父父母母母母高高高高,儿儿儿儿女女女女就就就就高高高高;父父父父母母母母矮矮矮矮,儿儿儿儿女女女女也也也也矮矮矮矮。但但但但是是是是高高高高个个个个父父父父母母母母的儿女们在同龄人中并不像父辈那样在的儿女们在同龄人中并不像父辈那样在的儿女们在同龄人中并不像父辈那样在的儿女们在同龄人中并不像父辈那样在同龄人中显得那样高,儿女辈的平均身同龄人中显得那样高,儿女辈的平均身同龄人中显得那样高,儿女辈的平均身同龄人中显得那样高,儿女辈的平均身高将高将高将高将“退化退化退化退化”到或者说到或者说到或者说到或者说“回归回归回归回归”到全体到全体到全体到全体人口的平均身高。人口的平均身高。人口的平均身高。人口的平均身高。10 散点图散点图图图9-1 15岁男童身高与体重散点图与回归线岁男童身高与体重散点图与回归线散点有线性趋势,散点有线性趋势,但并非所有散点在但并非所有散点在一条直线上。一条直线上。11第一节第一节简单线性回归简单线性回归n n函数关系:函数关系:函数关系:函数关系:确定关系,例如园周长与半径:确定关系,例如园周长与半径:确定关系,例如园周长与半径:确定关系,例如园周长与半径:y=2r y=2r。n n回归关系:回归关系:回归关系:回归关系:非确定关系非确定关系非确定关系非确定关系(incomplete relationincomplete relation)n n目的:目的:目的:目的:研究变量之间的数量依存关系,找出一条最能代表研究变量之间的数量依存关系,找出一条最能代表研究变量之间的数量依存关系,找出一条最能代表研究变量之间的数量依存关系,找出一条最能代表这种数据关系的直线。这种数据关系的直线。这种数据关系的直线。这种数据关系的直线。13b:样本回归系数:样本回归系数样本线性回归方程:样本线性回归方程:X取某定值时相应取某定值时相应Y总体均数总体均数 的点估计值。的点估计值。三个基本性质:三个基本性质:回归直线必然通过中心点回归直线必然通过中心点 。其中其中称为称为残差残差(residual)。15统计学意义:统计学意义:X每改变一个单位,每改变一个单位,Y平均改变平均改变b个单位。个单位。几何意义:几何意义:b 0,Y随随X的的增大增大而而增大增大(减少减少而而减少减少)斜上;斜上;b 0,Y随随X的的增大增大而而减小减小(减少减少而而增加增加)斜下;斜下;b=0,Y与与X无直线关系无直线关系水平。水平。b 越大,表示越大,表示Y随随X变化越快,直线越陡峭。变化越快,直线越陡峭。b:样本回归系数:样本回归系数16回归系数b的几何意义XY18最小二乘原理YX 19散点图散点图20回归参数计算的实例回归参数计算的实例编号编号身高身高X X体重体重Y YX X2 2Y Y2 2XYXY1 1145 42 21025176460902 2147 50 21609250073503 3152 45 23104202568404 4150 50 22500250075005 5155 52 2402527048060 161616858 2822433649744171717061 289003721103701818168 67 282244489112561919173 64 299294096110722020175 70 30625490012250合计合计3192 1120 510804 63654179726 S SX XS SY YS SX X2 2S SY Y2 2S SXYXY21回归直线回归直线(175,67.03)(145,45.56)(159.6,56.00)截距截距a22n回归系数也有抽样误差!总体总体0总体总体 0样本样本b0两变量有直线关系两变量无直线关系?三、回归系数的假设检验三、回归系数的假设检验24X X25方差分析:方差分析:Y的变异的变异(离均差平方和离均差平方和)的分解的分解26几个平方和的意义几个平方和的意义28方差分析方差分析变异来源变异来源SS MSF回 归回归=1MS回归=SS回归/1MS回归/MS残差残 差残差=n-2MS残差=SS残差/(n-2)总变异总=n-1方差分析表29例例9-1 检验求得身高与体重的直线关系是否成立?检验求得身高与体重的直线关系是否成立?解:解:1.建立假设并确定检验水准。建立假设并确定检验水准。H0:总体回归方程不成立总体回归方程不成立 H1:总体回归方程成立总体回归方程成立2.计计算算检验统计检验统计量量F变变异来源异来源SSDFMSFP值值回回 归归697.14601697.146052.98000.01剩剩 余余236.854018 13.1590总变总变异异934.0000190.053.确定确定P值值下下结论结论本例本例P0.01,按,按 0.05水准,拒水准,拒绝绝H0,接受,接受H1。可。可认为认为体重与身高之体重与身高之间间的回的回归归关系存在。关系存在。31解:解:1.建立假设并确定检验水准。建立假设并确定检验水准。H0:0,即身高与体重之间无直线关系,即身高与体重之间无直线关系 H1:0,即身高与体重之间又直线关系即身高与体重之间又直线关系2.计计算算检验统计检验统计量量t3.确定确定P值值下下结论结论查查t界值表,界值表,P0.001,按,按 0.05水准,拒水准,拒绝绝H0,接受,接受H1。注意:两种注意:两种检验检验是完全等价的,即是完全等价的,即32决定系数与拟合优度检验决定系数与拟合优度检验 本例9-1,R2=SS回/SS总=697.15/934=0.7464。R2=0.7464,说明15岁男童体重有74.64%的变异与身高有关。通过拟合优度检验(等价于对总体回归方程的检验)-方差分析(见表9-2),发现该决定系数有统计学意义(P0.01)。33总体回归系数总体回归系数 的可信区间的可信区间总体样本根据 t 分布原理估计可信区间:总体总体样本样本b34n 本例9-1中已计算得b=0.7158,sb=0.0983,v=18,查t界值表得t0.05/2,18=2.101 (0.7158-2.101 0.0983,0.7158+2.101 0.0983)=(0.5093,0.9223)n含义 用(0.5093,0.9223)来估计15岁健康男孩身高与体重间的回归系数,可信度为95。35n线性(linear)n独立(independent)n给定X时,Y正态分布(normal)n等方差(equal variance)四、回归分析的前提条件四、回归分析的前提条件(LINE)变量Y36直线回归应用条件直线回归应用条件LINELINE示意图示意图37给定给定X时,时,Y是正态分布、不等方差示意图是正态分布、不等方差示意图38五、简单直线回归分析应用五、简单直线回归分析应用(一)利用回归方程进行估计和预测一)利用回归方程进行估计和预测(二)利用回归方程进行统计控制(二)利用回归方程进行统计控制39个体个体的容许区间估计的容许区间估计40 的区间估计的区间估计41可信区间与预测区间示意图回归直线回归直线可信区间下限可信区间下限预测区间预测区间下限下限42六、应用简单直线回归分析注意问题六、应用简单直线回归分析注意问题1.作回归分析要有实际意义。作回归分析要有实际意义。2.进行回归分析前,应绘制散点图;进行回归分析前,应绘制散点图;作用:作用:看散点是否呈直线趋势;看散点是否呈直线趋势;有无异常点;有无异常点;3.回归方程的适用范围要以求回归方程时回归方程的适用范围要以求回归方程时X的实测值范围的实测值范围为限;若无充分理由证明超过该范围还是直线,应避免外为限;若无充分理由证明超过该范围还是直线,应避免外延。延。4.回归分析对资料的要求。回归分析对资料的要求。自变量自变量X是可以精确测量和严格控制的非随机变量是可以精确测量和严格控制的非随机变量,如年龄,药物浓度或剂量等;也可以是随机变量,如血清如年龄,药物浓度或剂量等;也可以是随机变量,如血清胆固醇的含量,血红蛋白的含量,等。胆固醇的含量,血红蛋白的含量,等。因变量因变量Y要求是呈要求是呈正态分布的随机变量正态分布的随机变量。收集资料时,收集资料时,X与与Y是成对的,一般来自同一个研究是成对的,一般来自同一个研究对象。一对数据缺少对象。一对数据缺少X或或Y都不能应用,因此收集数据时都不能应用,因此收集数据时要特别注意。要特别注意。43第二节第二节直线相关直线相关回归回归-变量间的依存关系变量间的依存关系 相关相关 -变量间的互依关系变量间的互依关系 直直 线线 相相 关关(linear correlation):简简 单单 相相 关关(simple correlation),用于,用于双变量双变量正态分布资料。正态分布资料。4445n相关分析的任务:相关分析的任务:两变量间有无相关关系?两变量间有无相关关系?两变量间如有相关关系,相关的方向?两变量间如有相关关系,相关的方向?相关的程度?相关的程度?n相关分析时,两变量不区分自变量和相关分析时,两变量不区分自变量和应变量。应变量。46 相关系数示意图相关系数示意图 散点呈椭圆形分布,散点呈椭圆形分布,X X、Y Y 同时增减同时增减-正正相关相关(positive correlation)positive correlation);X X、Y Y 此增彼减此增彼减-负负相关相关(negative correlation)(negative correlation)。散点在一条直线上,散点在一条直线上,X X、Y Y 变化趋势变化趋势相同相同-完全正相关完全正相关;反向反向变化变化-完全负相关。完全负相关。4748 相关系数示意图相关系数示意图 X X、Y Y 变化互不影响变化互不影响-零零相关相关(zero correlation)(zero correlation)49一、一、相关系数概念相关系数概念 相相关关系系数数(correlation coefficient),又又称称积积差差相相 关关 系系 数数(coefficient of product moment correlation),或或 Pearson Pearson 相相关关系系数数(软软件件中中常常用此名称)用此名称)说明相关的说明相关的密切程度密切程度和和方向方向的指标。的指标。r 样本相关系数样本相关系数50r无单位,无单位,-1 r 1。r 值为正值为正 正相关正相关,为负为负 负相关;负相关;(与回归系数(与回归系数b b的符号相同)的符号相同)|r|=1-完全相关,完全相关,|r|=0-零相关。零相关。二、相关系数的意义二、相关系数的意义5152三、三、相关系数的计算相关系数的计算53图图9-5 凝血时间与凝血酶浓度散点图凝血时间与凝血酶浓度散点图54四、四、相关系数的假设检验相关系数的假设检验 r0原因:原因:由于抽样误差引起,由于抽样误差引起,=0 存在相关关系,存在相关关系,0公式公式,n-2Sr-相关系数的标准误相关系数的标准误 方法方法1t检验检验方法方法2查表法:查表法:按自由度按自由度(n2)查查r界值表得界值表得P值。值。55注意:对于同一资料,注意:对于同一资料,tbtr,检验完全等价,检验完全等价56五、总体相关系数五、总体相关系数 的区间估计的区间估计5758一项研究显示出,欧洲某个城市的人口大量增加,同时鹳一项研究显示出,欧洲某个城市的人口大量增加,同时鹳鸟窝也大量增加。这是否就支持了鹳鸟送来婴儿这一信念鸟窝也大量增加。这是否就支持了鹳鸟送来婴儿这一信念?(欧洲有一种说法,称婴儿是鹳鸟送来的,常用鹳鸟来?(欧洲有一种说法,称婴儿是鹳鸟送来的,常用鹳鸟来临表示婴儿降生)。临表示婴儿降生)。59解释:不!它反映的事实是这个城市内的房屋增多,鹳鸟解释:不!它反映的事实是这个城市内的房屋增多,鹳鸟就有更多地盘来筑窝了。就有更多地盘来筑窝了。6061626364区别:区别:直线回归与相关的区别与联系直线回归与相关的区别与联系 1.资料:资料:X、Y服从双变量正态分布服从双变量正态分布 Y正态随机变量,正态随机变量,X为选定变量为选定变量 回归回归2.应用应用:回归回归 由一个变量值推算另一个变量值由一个变量值推算另一个变量值 相关相关 只反映两变量间互依关系只反映两变量间互依关系 相关相关3.回归系数有单位回归系数有单位,相关系数无单位相关系数无单位目的、计算、取值范围型回归型回归型回归型回归65联系:联系:66直线回归与相关的直线回归与相关的应用注意事项应用注意事项(1)要有实际意义要有实际意义 (2)绘制绘制散点图散点图(3)正确识别与处理异常点正确识别与处理异常点(4 4)不能任意不能任意“外延外延”671.有一个调查研究说脚大的孩子拼音比脚小的孩子好。这是有一个调查研究说脚大的孩子拼音比脚小的孩子好。这是否是说一个人脚的大小是他拼音能力的度量?否是说一个人脚的大小是他拼音能力的度量?解释:不是的。这个研究对象是一群年龄不等的孩子。它的解释:不是的。这个研究对象是一群年龄不等的孩子。它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年幼结果实际上是因为年龄较大的孩子脚大些,他们当然比年幼的男子拼得好些。的男子拼得好些。2.有一项研究表明其一个国家的人民,喝牛奶和死于癌症的有一项研究表明其一个国家的人民,喝牛奶和死于癌症的比例都很高。这是否说明是牛奶引起癌症呢?比例都很高。这是否说明是牛奶引起癌症呢?解释:不!这个国家老年人的比例也很高。由于癌症通常是解释:不!这个国家老年人的比例也很高。由于癌症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。的比例。68直线回归与相关的直线回归与相关的应用注意事项应用注意事项(1)要有实际意义要有实际意义 (2)绘制绘制散点图散点图(3)正确识别与处理异常点正确识别与处理异常点(4 4)不能任意不能任意“外延外延”69(5)两变量为两变量为非线性关系非线性关系时的曲线回归时的曲线回归(6)残差分析与残差分析与残差图残差图(7)分层分层资料资料合并合并后做回归或相关分析要慎重后做回归或相关分析要慎重(8)要正确理解要正确理解相关相关分析的意义和作用。分析的意义和作用。7071(5)两变量为两变量为非线性关系非线性关系时的曲线回归时的曲线回归(6)残差分析与残差分析与残差图残差图(7)分层分层资料资料合并合并后做回归或相关分析要慎重后做回归或相关分析要慎重(8)要正确理解要正确理解相关相关分析的意义和作用。分析的意义和作用。7273(5)两变量为两变量为非线性关系非线性关系时的曲线回归时的曲线回归(6)残差分析与残差分析与残差图残差图(7)分层分层资料资料合并合并后做回归或相关分析要慎重后做回归或相关分析要慎重(8)要正确理解要正确理解相关相关分析的意义和作用。分析的意义和作用。741.统计数字还表明,在亚利桑那州死于肺结核的人比其他州统计数字还表明,在亚利桑那州死于肺结核的人比其他州的人多。这是否就意味着亚利桑那州的气候容易生肺病?的人多。这是否就意味着亚利桑那州的气候容易生肺病?解释:正好相反。亚利桑那的气候对害肺病的人有好处,所解释:正好相反。亚利桑那的气候对害肺病的人有好处,所以肺病患者纷纷前来,自然这就使这个州死于肺结核的平均以肺病患者纷纷前来,自然这就使这个州死于肺结核的平均数升高了。数升高了。2.有一项研究表明其一个国家的人民,喝牛奶和死于癌症的有一项研究表明其一个国家的人民,喝牛奶和死于癌症的比例都很高。这是否说明是牛奶引起癌症呢?比例都很高。这是否说明是牛奶引起癌症呢?解释:不!这个国家老年人的比例也很高。由于癌症通常是解释:不!这个国家老年人的比例也很高。由于癌症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。的比例。75第三节第三节 等级相关等级相关(rank correlation)适用资料:适用资料:不服从双变量正态分布不服从双变量正态分布 总体分布类型未知总体分布类型未知 原始数据用等级表示原始数据用等级表示 等等级级相相关关系系数数 rs(即即Spearman Correlation Coefficient)反映两变量间相关的密切程度与方向反映两变量间相关的密切程度与方向。76SpearmanSpearman等级相关系数的计算方法等级相关系数的计算方法 分别将分别将X X与与Y Y从小到大编秩,若遇相同值取平均秩次;从小到大编秩,若遇相同值取平均秩次;然后按前面介绍的然后按前面介绍的PearsonPearson相关系数的计算方法求相关系数的计算方法求解,解,见P133 当相同秩次较多时,计算反而更简单,且结果与校当相同秩次较多时,计算反而更简单,且结果与校正结果相同。正结果相同。77 rs为样本等级相关系数,是总体等级相关系数s的估计值,其取值范围是:-1rs1。rs的意义同r。求出rs后还要检验rs是否来自s=0的总体,才能确定两变量间是否存在直线相关关系。781、进行回归与相关分析前,应绘制进行回归与相关分析前,应绘制散点图散点图;2、作回归分析时,要求作回归分析时,要求因变量因变量Y是呈是呈正态分布正态分布的随的随机变量。机变量。3、作相关分析时,要求两个变量作相关分析时,要求两个变量X、Y是是双变量双变量正态正态分布的随机变量分布的随机变量4、-1r1,|r|0.4为为低度低度线性相关;线性相关;0.4|r|0.7为为中中度度线性相关;线性相关;0.7|r|1为为高度高度线性相关;线性相关;|r|=1,称,称为为完全完全正(或负)相关。正(或负)相关。5、作相关分析时,当资料不满足双变量正态分布或作相关分析时,当资料不满足双变量正态分布或为等级资料,采用为等级资料,采用Spearman秩相关分析。秩相关分析。小小结结79手表定理手表定理指一个人有一只表时,可以知道现在是几点钟,而当他同时拥指一个人有一只表时,可以知道现在是几点钟,而当他同时拥有两只表时却无法确定。两只表并不能告诉一个人更准确的时间,有两只表时却无法确定。两只表并不能告诉一个人更准确的时间,反而会让看表的人失去对准确时间的信心。你要做的就是选择其中反而会让看表的人失去对准确时间的信心。你要做的就是选择其中较信赖的一只,尽力校准它,并以此作为你的标准,听从它的指引较信赖的一只,尽力校准它,并以此作为你的标准,听从它的指引行事。记住尼采的话:行事。记住尼采的话:“兄弟,如果你是幸运的,你只需有一种道兄弟,如果你是幸运的,你只需有一种道德而不要贪多,这样,你过桥更容易些。德而不要贪多,这样,你过桥更容易些。”80如果每个人都如果每个人都“选择你所爱,爱你所选择选择你所爱,爱你所选择”,无论成败都,无论成败都可以心安理得。然而,困扰很多人的是:他们被可以心安理得。然而,困扰很多人的是:他们被“两只表两只表”弄弄得无所,心身交瘁,不知自己该信仰哪一个,还有人在环境、得无所,心身交瘁,不知自己该信仰哪一个,还有人在环境、他人的压力下,违心选择了自己并不喜欢的道路,为此而郁郁他人的压力下,违心选择了自己并不喜欢的道路,为此而郁郁终生,即使取得了受人瞩目的成就,也体会不到成功的快乐。终生,即使取得了受人瞩目的成就,也体会不到成功的快乐。