医学简单回归分析卫生统计学.pptx
引言:身高与体重存在相关(相关关系)可否通过身高预测体重的平均水平?新生儿的体重与体表面积存在相关可否通过体重预测体表面积?(依存关系)第1页/共64页线性回归(linear regression),又称简单回归(simple regression),非线性回归(nonlinear regression)第2页/共64页第一节第一节 线性回归线性回归1、线性回归的概念及其统计描述第3页/共64页 在上一章中,对在上一章中,对14名名4060岁的健康妇女的体重(岁的健康妇女的体重(X)与基础代谢()与基础代谢(Y)数据)数据计算了相关系数计算了相关系数 ,定量地描述了变量,定量地描述了变量X与与Y间的线性关联性。现在试用间的线性关联性。现在试用回归分析的方法,从预测的角度来描述基础代谢(回归分析的方法,从预测的角度来描述基础代谢(Y)如何依存体重()如何依存体重(X)的变化)的变化而变化的规律性。而变化的规律性。引例:引例:第4页/共64页线性回归模型(线性回归模型(linear regression model):):截距(intercept):斜率(slope),又称回归系数 (regression coefficient)第5页/共64页样本线性回归方程样本线性回归方程(regression equation):第6页/共64页图12-1 14例中老年健康妇女的基础代谢与体重的回归直线 II型回归第7页/共64页I型回归第8页/共64页 图12-2 IgG浓度与沉淀环直径数据的散点图 第9页/共64页二、线性回归模型的适用条件二、线性回归模型的适用条件(1)线性(Linear)(2)独立性(Independent)(3)正态性(Normal distribution)(4)方差齐性(Equal variance)LINE第10页/共64页图12-3 线性回归模型的适用条件示意图第11页/共64页三、回归参数的估计三、回归参数的估计(一)回归参数估计的最小二乘原则 第12页/共64页第13页/共64页图12-4 基础代谢与体重的回归直线的最小二乘原则的直观表达第14页/共64页由于考虑到所有点的()有正有负,通常变成考察所有点的()平方和最小,这就是最小二乘原则(最小二乘原则(least squares method)。)。第15页/共64页(二二)回归参数的估计方法回归参数的估计方法 第16页/共64页 例例12-1 计算例计算例11-1的基础代谢(的基础代谢(Y)关于)关于体重(体重(X)的线性回归方程。)的线性回归方程。第17页/共64页 为了直观分析或实际需要,可按求出的回归方程作回归直线图。在X的实测全距范围内,任取相距较远且易读数的两个X值,代入方程得到两个 值,以直线连接两点即得回归直线。本例可取X1=37.1,得 ;取X2=67.3,得 。连接点即得本资料的回归直线。第18页/共64页注意:注意:回归直线的适用范围一般以自变量的取值范围为限,若无充分理由证明超过自变量的取值范围还是直线,应该避免外延(即不要超过不要超过自变量取值范围计算 值)。第19页/共64页四、总体回归系数四、总体回归系数的统计推断的统计推断 H0:=0 即基础代谢与体重之间无线性回归关系H1:0 即基础代谢与体重之间有线性回归关系=0.05 第20页/共64页(一一)方差分析方差分析第21页/共64页图12-5 回归前后因变量Y残差的示意图第22页/共64页第23页/共64页H0:=0,H1:0第24页/共64页例例12-212-2 试对例试对例11-111-1资料的样本回归方程作资料的样本回归方程作假设检验(用方差分析)假设检验(用方差分析)H0:=0 即基础代谢与体重之间无线性回归关系H1:0 即基础代谢与体重之间有线性回归关系 =0.05 第25页/共64页已知1=回=1,2=残=n2=12,查F界值表(附表3.1)得 =4.75,今求得F=158.3614.75,则P0.05,按=0.05水准拒绝H0,差异有统计学意义。可认为体重与基础代谢之间有线性回归关系。第26页/共64页第27页/共64页(二二)t 检验检验第28页/共64页例例12-312-3 试对例试对例11-111-1资料的样本回归方程作假资料的样本回归方程作假设检验(用设检验(用t t 检验)。检验)。第29页/共64页注意:注意:对同一资料作总体回归系数是否为零的假设检验,方差分析和t t检验是等价的,并且有 的关系。第30页/共64页 上一章对总体相关系数 的假设检验计算出的 等于这里的 ,这并不是巧合。当 Y与X两者都是随机变量时,我们既可以计算Y与X的相关系数,又可以做Y关于X的回归(II型回归);对同一资料作总体相关系数 的假设检验和作总体回归系数的假设检验分别得到 和 ,可以证明,二者相等。第31页/共64页(三三)总体回归系数总体回归系数的置信区间的置信区间第32页/共64页(四四)决定系数决定系数取值在0到1之间,且无单位。它反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的比例。第33页/共64页 在实际应用中,通过用决定系数来反映回归的实际效果。如例12-1,=0.930,说明4060岁健康妇女的体重信息大约可以解释自身基础代谢信息量的93%,还有剩余的7%的信息则通过体重以外的其它因素来解释。说明用体重来预测基础代谢量的实际效果较佳。第34页/共64页第二节第二节 线性回归的应用线性回归的应用统计预测;统计控制。第35页/共64页统计预测:统计预测:均数的置信区间:当X为某定值和在给定置信度的情况下,欲知Y的总体均数的分布如何?我们可以估计总体中当X为某定值 时,Y的总体均数 的 置信区间。第36页/共64页 的(1-)置信区间为(12-15)(12-16)第37页/共64页49.9991 当X1=50.7时,Y 的总体均数的95%置信区间为 4220.7842.17949.9991(4111.84,4329.73)第38页/共64页图12-6 基础代谢依体重的回归直线的95%置信带与Y个体值的95%预测带第39页/共64页统计预测(续)统计预测(续):个体的容许区间:预测是回归分析的重要应用之一,医学上常用在给定X值(预报因子)时,计算个体Y值的容许区间。所谓个体Y值的容许区间是指总体中X为某定值时,个体Y值的波动范围。第40页/共64页(12-17)(12-18)第41页/共64页 仍然以第一观测点数据(X1=50.7)为例,利用上例计算结果,该点预测Y值的标准差为 172.5346 代入(12-18)式,得第一数据点Y值的95%的预测区间为:4220.7842.179172.5346(3844.83,4596.737)第42页/共64页统计控制统计控制例例12-5 在硝酸钠的溶解试验中,测得在不同温度()X下,溶解于100份水中的硝酸钠份数Y的数据见表12-3。若要求溶解于100份水中的硝酸钠份数在80份以上,温度应如何控制?设置信度为95%。第43页/共64页 由原始数据计算可知 ,,=0.05,查t界值表得单侧 。本例要求溶解于100份水中的硝酸钠份数Y在80份以上,对应于个体Y值的95%预测区间单侧下限值:当 时,通过上式解得Xp=16.56(),即把温度控制在16.56以上,就有95%的可能使溶解于100份水中的硝酸钠份数在80份以上。第44页/共64页第三节第三节 残差分析残差分析 残差分析(residual analysis)旨在通过残差分布深入了解实际资料是否符合回归模型假设(如正态性、等方差),尤其在识别离群点(outlier)方面,有着重要作用。第45页/共64页标准化残差(standardized residual)。残差分析常通过标准化残差图(standardized residual plot)来进行。若以因变量取值Y为横坐标,以标准化残差为纵坐标,构成的散点图即是标准化残差图,见图12-7。类似地,也可以自变量取值X为横坐标,以标准化残差为纵坐标作标准化残差图。第46页/共64页图12-7 基础代谢依体重数据回归的标准化残差图第47页/共64页 当标准化残差图中散点的分布,绝大部分在2倍标准差之间,在以0参考线的上下随机且均匀地散布时,可以认为模型与数据拟合得较好。一般认为在3标准差以外区域出现的点所对应的原始数据为离群点,在2标准差以外、3标准差以内区域出现的点所对应的原始数据可能为离群点。第48页/共64页abcd不满足方差齐性非线性关系可能漏掉了另外的自变量第49页/共64页图12-8 不同类型的残差图 ef模型恰当第50页/共64页第四节第四节 非线性回归非线性回归图12-9 1995年中国022岁居民身高均数随年龄的变化情况第51页/共64页 在医学科研实践中,两个连续型变量间并非都呈现线性关系。例如:考虑人出生后的整个生命期,身高(Y)与年龄(X)之间是明显的非线性关系,在生命的早期,生长很快,而成年期却几乎恒定(见图12-9)。第52页/共64页 因此,要想建立非线性关系的回归模型,需要借助非线性回归(non-linear regression)或称曲线拟合(curve fitting)来实现。本节主要讨论非线性回归分析的基本策略和介绍简单的处理方法。第53页/共64页一、非线性回归分析的基本策略一、非线性回归分析的基本策略 首先绘制两个变量的散点图,观察点的分布趋势,根据分布趋势的形状,可选择如下不同的分析过程:1.曲线直线化(linearization)当散点分布的形状接近某些常见的函数曲线时,我们可以尝试采取变量变换的方法,使变换后的两个变量之间呈直线关系(通过散点图判断)。求出直线回归方程后,再将方程中的变量还原,便得到曲线回归方程。2.非线性回归 当不能通过变量变换的方法使曲线直线化或直接进行曲线拟合时,需利用非线性最小二乘估计的原则,采用迭代计算方法获得非线性回归方程。第54页/共64页幂函数Y=aXb 对数函数Y=abln(X)指数函数Y=aebX Logistic函数 第55页/共64页二、曲线直线化二、曲线直线化 1.绘制原始数据Y与X的散点图,观察散点分布形态类似于何种常用函数类型;2.按照所选定的函数进行适宜的变量变换,得到X与Y;3.绘制变换后数据Y与 X的散点图,观察散点分布形态是否呈直线趋势,从而确定曲线类型,否则重复1、2步直至满足散点分布呈直线趋势;4.作Y关于X的线性回归方程并进行假设检验;5.根据第2步的变量变换式进行反变换,得到原始数据Y与X的曲线方程。第56页/共64页 当原始数据X与Y的散点分布形态较难判断是直线趋势还是曲线趋势时,一般拟合多个相近的模型,然后通过对各个模型的拟合优度(常用决定系数)评价挑选较为合适的模型。第57页/共64页例12-7 某研究者测得某女童19月的身高数据,如表12-4所示。试用合适的回归模型描述该月龄段女童的身高随时间变化的规律。(1)以身高为Y,时间为X,绘制散点图,如图12-10所示,呈现非线性趋势,形似对数函数曲线。(2)利用对数函数曲线变换式(),令X=ln X,计算X 数值。计算结果见表12-5。(3)以Y和X 绘制散点图,如图12-11所示,二者呈直线趋势。第58页/共64页图12-10 某女童19月的身高与时间的散点图 图12-11 身高与取对数的时间的散点图 第59页/共64页(4)作Y 关于X 的线性回归方程,得方程 方差分析结果(F=632.15,P0.001)表明回归方程具有统计学意义,决定系数R2=0.989。(5)将X=ln X代入上式,得Y 关于X 的曲线回归方程第60页/共64页 本例只涉及对自变量X进行变换,然后以变换后的数据用标准最小二乘法求解模型的参数估计。当涉及到对因变量Y实施非线性变换 如Z=ln(Y)时,因为最小二乘原则只保证变换后的Z 即ln(Y)的残差平方和最小,并不能保证原变量Y的残差平方和也最小,所以在此情况下,建议用统计软件来完成非线性拟合。第61页/共64页 非线性回归由于迭代计算量较大,需要借助电脑及相关的软件。SAS和SPSS均提供了非线性回归分析的功能,具体请参见相关的参考书。第62页/共64页THE ENDThanks第63页/共64页谢谢您的观看!第64页/共64页