第九章-回归与相关-医学统计学课件.ppt
《第九章-回归与相关-医学统计学课件.ppt》由会员分享,可在线阅读,更多相关《第九章-回归与相关-医学统计学课件.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1基本概念基本概念n n单变量分析单变量分析(univariate analysis):t检验、检验、u检验、检验、2检验检验、秩和检验、方差分析、秩和检验、方差分析n n两变量分析两变量分析(multivariate analysis):血糖血糖与胰岛素水平,体温与脉搏次数,年龄与与胰岛素水平,体温与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺活量血压,药剂量与疗效,体表面积与肺活量双变量双变量回归与相关回归与相关Bivariate Regression and Correlation3467简单线性回归的简单线性回归的概念概念 n n分分析析某某变变量量随随另另一一变变量量变变化化而而
2、变变化化依依存存关关系的方法称为简单线性回归。系的方法称为简单线性回归。n n通通过过拟拟合合线线性性方方程程来来描描述述两两个个变变量量的的回回归归关系。关系。8n n历历历历史史史史上上上上“回回回回归归归归”一一一一词词词词第第第第一一一一个个个个被被被被英英英英国国国国科科科科学学学学家家家家高高高高尔尔尔尔顿顿顿顿(Francis Francis Galton)Galton)爵士用于研究身高的遗传问题。爵士用于研究身高的遗传问题。爵士用于研究身高的遗传问题。爵士用于研究身高的遗传问题。n n高高高高尔尔尔尔顿顿顿顿研研研研究究究究发发发发现现现现,父父父父母母母母和和和和孩孩孩孩子子
3、子子的的的的身身身身高高高高有有有有这这这这样样样样的的的的一一一一个个个个趋趋趋趋势势势势:父父父父母母母母高高高高,儿儿儿儿女女女女就就就就高高高高;父父父父母母母母矮矮矮矮,儿儿儿儿女女女女也也也也矮矮矮矮。但但但但是是是是高高高高个个个个父父父父母母母母的儿女们在同龄人中并不像父辈那样在的儿女们在同龄人中并不像父辈那样在的儿女们在同龄人中并不像父辈那样在的儿女们在同龄人中并不像父辈那样在同龄人中显得那样高,儿女辈的平均身同龄人中显得那样高,儿女辈的平均身同龄人中显得那样高,儿女辈的平均身同龄人中显得那样高,儿女辈的平均身高将高将高将高将“退化退化退化退化”到或者说到或者说到或者说到或者
4、说“回归回归回归回归”到全体到全体到全体到全体人口的平均身高。人口的平均身高。人口的平均身高。人口的平均身高。10 散点图散点图图图9-1 15岁男童身高与体重散点图与回归线岁男童身高与体重散点图与回归线散点有线性趋势,散点有线性趋势,但并非所有散点在但并非所有散点在一条直线上。一条直线上。11第一节第一节简单线性回归简单线性回归n n函数关系:函数关系:函数关系:函数关系:确定关系,例如园周长与半径:确定关系,例如园周长与半径:确定关系,例如园周长与半径:确定关系,例如园周长与半径:y=2r y=2r。n n回归关系:回归关系:回归关系:回归关系:非确定关系非确定关系非确定关系非确定关系(i
5、ncomplete relationincomplete relation)n n目的:目的:目的:目的:研究变量之间的数量依存关系,找出一条最能代表研究变量之间的数量依存关系,找出一条最能代表研究变量之间的数量依存关系,找出一条最能代表研究变量之间的数量依存关系,找出一条最能代表这种数据关系的直线。这种数据关系的直线。这种数据关系的直线。这种数据关系的直线。13b:样本回归系数:样本回归系数样本线性回归方程:样本线性回归方程:X取某定值时相应取某定值时相应Y总体均数总体均数 的点估计值。的点估计值。三个基本性质:三个基本性质:回归直线必然通过中心点回归直线必然通过中心点 。其中其中称为称为残
6、差残差(residual)。15统计学意义:统计学意义:X每改变一个单位,每改变一个单位,Y平均改变平均改变b个单位。个单位。几何意义:几何意义:b 0,Y随随X的的增大增大而而增大增大(减少减少而而减少减少)斜上;斜上;b 0,Y随随X的的增大增大而而减小减小(减少减少而而增加增加)斜下;斜下;b=0,Y与与X无直线关系无直线关系水平。水平。b 越大,表示越大,表示Y随随X变化越快,直线越陡峭。变化越快,直线越陡峭。b:样本回归系数:样本回归系数16回归系数b的几何意义XY18最小二乘原理YX 19散点图散点图20回归参数计算的实例回归参数计算的实例编号编号身高身高X X体重体重Y YX X
7、2 2Y Y2 2XYXY1 1145 42 21025176460902 2147 50 21609250073503 3152 45 23104202568404 4150 50 22500250075005 5155 52 2402527048060 161616858 2822433649744171717061 289003721103701818168 67 282244489112561919173 64 299294096110722020175 70 30625490012250合计合计3192 1120 510804 63654179726 S SX XS SY YS SX
8、 X2 2S SY Y2 2S SXYXY21回归直线回归直线(175,67.03)(145,45.56)(159.6,56.00)截距截距a22n回归系数也有抽样误差!总体总体0总体总体 0样本样本b0两变量有直线关系两变量无直线关系?三、回归系数的假设检验三、回归系数的假设检验24X X25方差分析:方差分析:Y的变异的变异(离均差平方和离均差平方和)的分解的分解26几个平方和的意义几个平方和的意义28方差分析方差分析变异来源变异来源SS MSF回 归回归=1MS回归=SS回归/1MS回归/MS残差残 差残差=n-2MS残差=SS残差/(n-2)总变异总=n-1方差分析表29例例9-1 检
9、验求得身高与体重的直线关系是否成立?检验求得身高与体重的直线关系是否成立?解:解:1.建立假设并确定检验水准。建立假设并确定检验水准。H0:总体回归方程不成立总体回归方程不成立 H1:总体回归方程成立总体回归方程成立2.计计算算检验统计检验统计量量F变变异来源异来源SSDFMSFP值值回回 归归697.14601697.146052.98000.01剩剩 余余236.854018 13.1590总变总变异异934.0000190.053.确定确定P值值下下结论结论本例本例P0.01,按,按 0.05水准,拒水准,拒绝绝H0,接受,接受H1。可。可认为认为体重与身高之体重与身高之间间的回的回归归
10、关系存在。关系存在。31解:解:1.建立假设并确定检验水准。建立假设并确定检验水准。H0:0,即身高与体重之间无直线关系,即身高与体重之间无直线关系 H1:0,即身高与体重之间又直线关系即身高与体重之间又直线关系2.计计算算检验统计检验统计量量t3.确定确定P值值下下结论结论查查t界值表,界值表,P0.001,按,按 0.05水准,拒水准,拒绝绝H0,接受,接受H1。注意:两种注意:两种检验检验是完全等价的,即是完全等价的,即32决定系数与拟合优度检验决定系数与拟合优度检验 本例9-1,R2=SS回/SS总=697.15/934=0.7464。R2=0.7464,说明15岁男童体重有74.64
11、%的变异与身高有关。通过拟合优度检验(等价于对总体回归方程的检验)-方差分析(见表9-2),发现该决定系数有统计学意义(P0.01)。33总体回归系数总体回归系数 的可信区间的可信区间总体样本根据 t 分布原理估计可信区间:总体总体样本样本b34n 本例9-1中已计算得b=0.7158,sb=0.0983,v=18,查t界值表得t0.05/2,18=2.101 (0.7158-2.101 0.0983,0.7158+2.101 0.0983)=(0.5093,0.9223)n含义 用(0.5093,0.9223)来估计15岁健康男孩身高与体重间的回归系数,可信度为95。35n线性(linear
12、)n独立(independent)n给定X时,Y正态分布(normal)n等方差(equal variance)四、回归分析的前提条件四、回归分析的前提条件(LINE)变量Y36直线回归应用条件直线回归应用条件LINELINE示意图示意图37给定给定X时,时,Y是正态分布、不等方差示意图是正态分布、不等方差示意图38五、简单直线回归分析应用五、简单直线回归分析应用(一)利用回归方程进行估计和预测一)利用回归方程进行估计和预测(二)利用回归方程进行统计控制(二)利用回归方程进行统计控制39个体个体的容许区间估计的容许区间估计40 的区间估计的区间估计41可信区间与预测区间示意图回归直线回归直线可
13、信区间下限可信区间下限预测区间预测区间下限下限42六、应用简单直线回归分析注意问题六、应用简单直线回归分析注意问题1.作回归分析要有实际意义。作回归分析要有实际意义。2.进行回归分析前,应绘制散点图;进行回归分析前,应绘制散点图;作用:作用:看散点是否呈直线趋势;看散点是否呈直线趋势;有无异常点;有无异常点;3.回归方程的适用范围要以求回归方程时回归方程的适用范围要以求回归方程时X的实测值范围的实测值范围为限;若无充分理由证明超过该范围还是直线,应避免外为限;若无充分理由证明超过该范围还是直线,应避免外延。延。4.回归分析对资料的要求。回归分析对资料的要求。自变量自变量X是可以精确测量和严格控
14、制的非随机变量是可以精确测量和严格控制的非随机变量,如年龄,药物浓度或剂量等;也可以是随机变量,如血清如年龄,药物浓度或剂量等;也可以是随机变量,如血清胆固醇的含量,血红蛋白的含量,等。胆固醇的含量,血红蛋白的含量,等。因变量因变量Y要求是呈要求是呈正态分布的随机变量正态分布的随机变量。收集资料时,收集资料时,X与与Y是成对的,一般来自同一个研究是成对的,一般来自同一个研究对象。一对数据缺少对象。一对数据缺少X或或Y都不能应用,因此收集数据时都不能应用,因此收集数据时要特别注意。要特别注意。43第二节第二节直线相关直线相关回归回归-变量间的依存关系变量间的依存关系 相关相关 -变量间的互依关系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 回归 相关 医学 统计学 课件
限制150内