第十章 线性相关与回归.ppt
相关回归相关回归 前面所研究的都是某个随机变量,对其进行统计描述前面所研究的都是某个随机变量,对其进行统计描述和统计推断(单变量研究)。但在医学科研中,常要分析和统计推断(单变量研究)。但在医学科研中,常要分析变量间的关系,如年龄和血压、身高和体重、体重和体表变量间的关系,如年龄和血压、身高和体重、体重和体表面积等。面积等。变量间的关系:变量间的关系:1、确定性关系、确定性关系 (1)因果关系)因果关系 (函数关系)(函数关系) (2)伴随关系)伴随关系2、非确定性关系(、非确定性关系(1)因果关系)因果关系 (2)伴随关系)伴随关系编 号 1 2 3 4 5 6 7 8 9 10 11 12 13 X(kg) 25.5 19.5 24.0 20.5 25.0 22.0 21.5 23.5 26.5 23.5 22.0 20.0 28.0 Y(cm) 9.2 7.8 9.4 8.6 9.0 8.8 9.0 9.4 9.7 8.8 8.5 8.2 9.9 第一节第一节 直线回归直线回归直线回归方程:表示两变量不确定的函数关系,对观察值直线回归方程:表示两变量不确定的函数关系,对观察值最具代表性、但各观察点并不完全在一直线上,具有某种最具代表性、但各观察点并不完全在一直线上,具有某种不确定性关系的方程称为直线回归方程。不确定性关系的方程称为直线回归方程。一、概念一、概念bXaY(一)一)x和和y的地位不同:的地位不同:x是自变量,是自变量,y应变量应变量1、如果两变量存在因果关系,原因变量为自变量,结、如果两变量存在因果关系,原因变量为自变量,结果变量为应变量;果变量为应变量;2、如不存在因果关系或不明确是否存在因果关系,较、如不存在因果关系或不明确是否存在因果关系,较稳定易测量的为自变量,不易测量的为应变量。稳定易测量的为自变量,不易测量的为应变量。(二)线性回归模型及其应用条件二)线性回归模型及其应用条件iiiXY线性回归模型的前提条件是:线性(线性回归模型的前提条件是:线性(linear)linear)、独立独立( (independent)independent),正态正态( (normal)normal),等方等方差差( (equal variance)equal variance)1 1、线性是指应变量、线性是指应变量Y Y的总体平均值与自变量的总体平均值与自变量X X呈呈线性关系。线性关系。2、独立独立是指任意两个观察单位之间相互独立。否则会是指任意两个观察单位之间相互独立。否则会使参数估计值不够准确和精确。使参数估计值不够准确和精确。3 3、正态性正态性是指对任意给定的是指对任意给定的x x值,值,y y均服从正态分布,均服从正态分布,该正态分布的均数就是回归直线上与该正态分布的均数就是回归直线上与x x值相对应的那个值相对应的那个点的纵坐标。点的纵坐标。 4 4、等方差等方差是指在自变量的取值范围内,是指在自变量的取值范围内,X不论取什么不论取什么值,值,Y都具有相同的方差。若这一条件不满足,回归都具有相同的方差。若这一条件不满足,回归系数的估计有偏性,其置信区间及假设检验均不可靠系数的估计有偏性,其置信区间及假设检验均不可靠。 二、具体方法和步骤二、具体方法和步骤(一)直线回归方程表达式(一)直线回归方程表达式a为截距,回归直线与纵轴交点到原点的距离为截距,回归直线与纵轴交点到原点的距离a0: 交点在横轴上方交点在横轴上方a0 b0 b=0 统计学意义:统计学意义:x每改变一个单位,每改变一个单位,y平均改变平均改变b各单位。各单位。应用最小二乘法原理求应用最小二乘法原理求a,b(最小二乘法原理可保证各实最小二乘法原理可保证各实测点至回归直线的纵向距离的平方和最小。)测点至回归直线的纵向距离的平方和最小。)XXXYllXXYYXXb2)()(XbYa最小二乘法最小二乘法即要求残差平方和达到最小。达到最小。 2121iiniiniBXAYYYQQ值达到最小,值达到最小,a a和和b b应是下面方程组的解。应是下面方程组的解。 00BQAQ解以上方程组得:解以上方程组得:XbYallXXYYXXbXXXYiniiini211(二)具体步骤(二)具体步骤例:某医生研究儿童体重与心脏横径的关系,测得例:某医生研究儿童体重与心脏横径的关系,测得13名名8岁正常男童的体重与心脏横径,数据见下表试作回岁正常男童的体重与心脏横径,数据见下表试作回归分析。归分析。 编号体重(kg,X)心脏横径(cm,Y)125.59.2219.57.8324.09.4420.58.6525.09.0622.08.8721.59.0823.59.4926.59.71023.58.81122.08.51220.08.21328.09.913名8岁健康男童体重与心脏横径的关系 1、以体重作为自变量,心脏横径作为因变量,作散点、以体重作为自变量,心脏横径作为因变量,作散点图,发现呈直线趋势,可拟合直线回归方程。图,发现呈直线趋势,可拟合直线回归方程。图10.1 13名8岁健康男童体重与心脏横径的关系7.588.599.51018202224262830体重(kg,X)心脏横径(cm,Y)本例 13n , 5 .301x, 75.70722x, 3 .116y , 63.10442y, 65.2713xy 19.23x , 95. 8y 2692.80135 .30175.7072222nxxlxx 1923. 4133 .11663.1044222nyylyy 3846.16133 .1165 .30165.2713nyxxylxy 故 2041. 02692.803846.16xxxyllb, 2121. 419.232041. 095. 8xbya 2、求、求a,b3、列出回归方程、列出回归方程xy2041. 02121. 44、在自变量的实测范围内取相距较远且易读数的两个、在自变量的实测范围内取相距较远且易读数的两个值,绘出回归直线。值,绘出回归直线。5、回归方程的检验回归方程的检验 (1)方差分析法)方差分析法其基本思想是将应变量其基本思想是将应变量Y的总变异的总变异SS总总分解为分解为SS回归回归和和SS剩余剩余,然后利用,然后利用F检验来判断回归方程是否成立。检验来判断回归方程是否成立。SS总即2)(YY,为 Y 的离均差平方和(total sum of squares) ,反映未考虑 X 与 Y的回归关系时 Y 的变异,其意义可通过图 12.2 加以说明。 P(X,Y) Y )(YY )(YY )(YY Y X X 图 12.2 应变量 Y 的平方和划分示意图 任一点任一点P的纵坐标被回归直线与均数的纵坐标被回归直线与均数 截成三段:截成三段:第一段第一段 ,表示实测点,表示实测点P与回归直线的纵向距离,与回归直线的纵向距离,即实际值即实际值Y与估计值与估计值 之差,称为剩余或残差。之差,称为剩余或残差。第二段第二段 ,即,即Y估计值估计值 与均数与均数 之差,它与之差,它与回归系数的大小有关。回归系数的大小有关。|b|值越大,值越大, 也越大,反之也越大,反之亦然。当亦然。当b=0时,时, 亦为零,则亦为零,则 = ,也就是回归直线不能使残差也就是回归直线不能使残差 减小。减小。)(YY YY)(YY Y)(YY )(YY )(YY )(YY )(YY 第三段第三段 ,是应变量,是应变量Y的均数。的均数。上述三段的代数和为:上述三段的代数和为:Y= + + 移项:移项:Y- = + P点是散点图中任取的一点,将所有点都按上法处理,并点是散点图中任取的一点,将所有点都按上法处理,并将等式两端平方后再求和,将等式两端平方后再求和,则有:则有: 上式用符号表示为:上式用符号表示为: SS总总=SS回回+SS剩剩 YY)(YY )(YY Y)(YY )(YY 222)()()(YYYYYYH0:总体回归系数总体回归系数 =0,即,即8岁男童心脏横径与体重之间岁男童心脏横径与体重之间不存在直线关系不存在直线关系H1:总体回归系数总体回归系数 0,即,即8岁男童心脏横径与体重之间岁男童心脏横径与体重之间存在直线关系存在直线关系 =0.051923. 4yylSS总, 121n总 3444. 32691.803846.1622xxxyxyllblSS回归, 1回归 8479. 03444. 31923. 4回归总剩余SSSSSS, 112n剩余 39.43118479. 013444. 3剩余剩余回归回归剩余回归SSSSMSMSF 查方差分析用的查方差分析用的F界值表,得界值表,得P0.01,按按 =0.05水准拒绝水准拒绝H0,接受接受H1,认为认为8岁健康男童心脏横径与体重之间存在岁健康男童心脏横径与体重之间存在直线关系。直线关系。变异来源 SS MS F P 总 4.1923 12 回归 3.3444 1 3.3444 43.39 0.01 剩余 0.8479 11 0.0771 资料的方差分析表资料的方差分析表(2)t检验:检验:H0:总体回归系数总体回归系数 =0,即,即8岁男童心脏横径与体重之岁男童心脏横径与体重之间不存在直线关系间不存在直线关系H1:总体回归系数总体回归系数 0,即,即8岁男童心脏横径与体重之岁男童心脏横径与体重之间存在直线关系间存在直线关系 =0.052776. 00771. 0剩余MSSxy, 03098. 02692.802776. 0 xxxyblss 59. 603098. 02041. 0bsbt 按按 =11查查t界值表,得界值表,得P0.01,按按 =0.05水准拒绝水准拒绝H0,接接受受H1,认为认为8岁健康男童心脏横径与体重之间存在直线关岁健康男童心脏横径与体重之间存在直线关系。系。6、总体回归系数、总体回归系数的区间估计的区间估计根据参数估计原理,回归系数根据参数估计原理,回归系数b是总体回归系数是总体回归系数的的点估计,正像样本均数不一定恰好等于总体均数一点估计,正像样本均数不一定恰好等于总体均数一样,需要通过下面公式对总体回归系数样,需要通过下面公式对总体回归系数进行区间估进行区间估计。计。),() 2() 2(bnbnStbStb (二)Y的区间估计 Y 是指总体中自变量 X 为某一定值 X0时,Y的总体均数。 对Y的估计可计算可信区间: ),()2()2(YnYnStYStY (12.16) 式中YS即Y的标准误,可按下式计算: 220.)()(1XXXXnSSXYY (12.17) 式中 SY.X为剩余标准差。当XX0时,nSSXYY/.,此时,可信区间的范围最窄,预测精度相对较高。 三、区间估计三、区间估计 (一(一)总体回归系数的区间估计总体回归系数的区间估计(三)个体Y值的容许区间 总体中,X为一定值时,个体Y值的波动范围,可按下式求出: ),() 2() 2(YnYnStYStY (12.18) 式中SY为X取一定值时,个体Y值的标准差,其计算公式为 220.)()(11XXXXnSSXYY (12.19) 以上是给定某一个以上是给定某一个 时所对应的时所对应的 的置信区间和的置信区间和个体个体Y值的容许区间。若考虑值的容许区间。若考虑X的所有可能的取值,总体的所有可能的取值,总体均数的点估计就是根据样本测量数据求得的回归直均数的点估计就是根据样本测量数据求得的回归直线线 ,其,其 置信区间的上下限连起来置信区间的上下限连起来形成一个弧形区带,称为回归直线的置信带形成一个弧形区带,称为回归直线的置信带(confidence band););而个体而个体Y值的值的100(1- )%容许容许区间的上下限连接起来形成的区带称为区间的上下限连接起来形成的区带称为Y值的预测带值的预测带(prediction band)。)。例例8.1中中8岁健康男童心脏横径依岁健康男童心脏横径依体重变化的回归直线及其体重变化的回归直线及其95%置信带和置信带和95%预测带见图预测带见图8-3。0 xX y bXaY)%1 (100图8-3 8岁健康男童心脏横径与体重的回归直线及其95%置信带和个体Y值95%预测带示意图77.588.599.51010.51118202224262830体重(X,kg)心脏横径(Y,cm)四、回归方程的应用四、回归方程的应用(一一)定量描述两变量之间的依存关系定量描述两变量之间的依存关系对回归系数对回归系数b进行假设检验时,若有统计学意义进行假设检验时,若有统计学意义, 可认为可认为两变量间存在直线回归关系,则直线回归方程即为两个两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。变量间依存关系的定量表达式。(二二)利用回归方程进行预测利用回归方程进行预测 1、点估计、点估计 2、 的置信区间的置信区间3 3、把预报因子(即自变量、把预报因子(即自变量x)代入回归方程对预报量代入回归方程对预报量(即因变量(即因变量Y)进行估计,即可得到个体进行估计,即可得到个体Y值的容许区间。值的容许区间。例例10.4的结果即体重为的结果即体重为25.0kg的的8岁健康男童,估计其心岁健康男童,估计其心脏横径有脏横径有95%的可能性在的可能性在(8.6692,9.9610)cm的范围内。的范围内。 y (三三)利用回归方程进行统计控制利用回归方程进行统计控制 规定规定Y值的变化,通过控制值的变化,通过控制X的范围来实现统计控制的的范围来实现统计控制的目标目标,所以统计控制是利用回归方程进行的逆估计。所以统计控制是利用回归方程进行的逆估计。五、应用直线回归的注意事项五、应用直线回归的注意事项1、作回归分析要有实际意义作回归分析要有实际意义 。2 2、直线回归分析的资料,一般要求应变量、直线回归分析的资料,一般要求应变量Y是来自正是来自正态总体的随机变量,自变量态总体的随机变量,自变量X可以是正态随机变量,也可以是正态随机变量,也可以是精确测量和严密控制的值。可以是精确测量和严密控制的值。 3、进行回归分析时,应先绘制散点图进行回归分析时,应先绘制散点图(scatter plot)。判断有无直线趋势判断有无直线趋势发现异常点发现异常点4 4、回归直线可以内插,不要外延。、回归直线可以内插,不要外延。 回归残差图,以回归残差图,以y为横坐标,以标准化残差为纵坐标。为横坐标,以标准化残差为纵坐标。Y18171615141312标准化残差2.01.51.0.50.0-.5-1.0-1.5-2.0第二节第二节 直线相关直线相关一、目的一、目的直线相关分析是描述两变量间是否有直线关系以及直线直线相关分析是描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法。关系的方向和密切程度的分析方法。 二、应用条件二、应用条件用于双变量正态分布用于双变量正态分布(bi-variable normal distribution)资资料料,一般说来,两个变量都是随机变动的,不分主次,处一般说来,两个变量都是随机变动的,不分主次,处于同等地位。于同等地位。 三、相关的性质:三、相关的性质:直线相关的性质可由散点图直观地说明直线相关的性质可由散点图直观地说明 正相关、负相关、完全正相关、完全负相关、零相关正相关、负相关、完全正相关、完全负相关、零相关 (a)0r1 (b)-1r50时,进行时,进行u检验,统计量检验,统计量u值的计算公式为:值的计算公式为: 1nrus例例10.7 在肝癌病因研究中,某地调查了在肝癌病因研究中,某地调查了10个乡的肝癌个乡的肝癌死亡率(死亡率(1/10万)与种食物中黄曲霉毒素相对含量(最万)与种食物中黄曲霉毒素相对含量(最高含量为高含量为10),见表),见表12.1。试作等级相关分析。试作等级相关分析。黄曲霉毒素相对含量 肝癌死亡率(1/10 万) 乡编号 (1) X (2) 秩次 (3) Y (4) 秩次 (5) d (6)=(3)-(5) d2 (7) 1 0.7 1 21.5 3 2 4 2 1.0 2 18.9 2 0 0 3 1.7 3 14.4 1 2 4 4 3.7 4 46.5 7 -3 9 5 4.0 5 27.3 4 1 1 6 5.1 6 64.6 9 -3 9 7 5.5 7 46.3 6 1 1 8 5.7 8 34.2 5 3 9 9 5.9 9 77.6 10 1 1 10 10.0 10 55.1 8 2 4 合计 42 肝癌死亡率与黄曲霉毒素相对含量肝癌死亡率与黄曲霉毒素相对含量YXYXsTnnTnndTTnnr26/26/6/3323第五节第五节 曲线拟合曲线拟合实际工作中,变量间未必都有线性关系,如服药后血药实际工作中,变量间未必都有线性关系,如服药后血药浓度与时间的关系;疾病疗效与疗程长短的关系;毒物浓度与时间的关系;疾病疗效与疗程长短的关系;毒物剂量与致死率的关系等常呈曲线关系。曲线拟合(剂量与致死率的关系等常呈曲线关系。曲线拟合(curve fitting)是指选择适当的曲线类型来拟合观测数据,并用是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。曲线拟合的方法拟合的曲线方程分析两变量间的关系。曲线拟合的方法很多(包括曲线直线化和直接拟和曲线方程),本节只很多(包括曲线直线化和直接拟和曲线方程),本节只介绍曲线直线化。介绍曲线直线化。一、曲线直线化的意义一、曲线直线化的意义曲线直线化是曲线拟合的重要手段之一。对于某些非线曲线直线化是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,这样就性的资料可以通过简单的变量变换使之直线化,这样就可以按最小二乘法原理求出变换后变量的直线方程,在可以按最小二乘法原理求出变换后变量的直线方程,在实际工作中常利用此直线方程绘制资料的标准工作曲线,实际工作中常利用此直线方程绘制资料的标准工作曲线,同时根据需要可将此直线方程还原为曲线方程,实现对同时根据需要可将此直线方程还原为曲线方程,实现对资料的曲线拟合。资料的曲线拟合。二、常用的非线性函数二、常用的非线性函数1.指数函数指数函数(exponential function) Y=aebX (12.29)对式(对式(12.29)两边取对数,得)两边取对数,得lnY=lna+bX (12.30)b0时,时,Y随随X增大而增大;增大而增大;b0,X0) (12.34) 式中b0时,Y随X增大而增大;b0,a0 k=1时的直线化方程时的直线化方程xbaYY1ln5、多项式函数(多项式函数(polynomial functionpolynomial function):):ppxbxbxbaY221221xbxbaY该曲线形如抛物线该曲线形如抛物线 三、利用线性回归拟合曲线的一般步骤三、利用线性回归拟合曲线的一般步骤 (一)绘制散点图,选择合适的曲线类型(一)绘制散点图,选择合适的曲线类型一般根据资料性质结合专业知识便可确定资料的曲线类型,一般根据资料性质结合专业知识便可确定资料的曲线类型,不能确定时,可在方格坐标纸上绘制散点图,根据散点的不能确定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适的曲线类型。分布,选择接近的、合适的曲线类型。(二)进行变量变换(二)进行变量变换Y Y=f(Y),X=f(Y),X=g(X)=g(X)使变换后的两个变量呈直线关系。使变换后的两个变量呈直线关系。(三)按最小二乘法原理求线性方程并进行假设检验(三)按最小二乘法原理求线性方程并进行假设检验(四)将直线化方程转换为关于原变量(四)将直线化方程转换为关于原变量X X、Y Y的函数表达式的函数表达式例例 10.8 某研究室以已知浓度 X 的免疫球蛋白 A(IgA, g)作火箭电泳,测得火箭高度 Y(mm)如表 12.2 资料(1) 、 (2)列。试求 Y 关于 X 的非线性回归方程。 表10.2 火箭电泳实验资料 IgA(g) X (1) 火箭高度(mm) Y (2) XXln (3) Y (4) 0.2 7.6 -1.60944 7.22842 0.4 12.3 -0.91629 12.61907 0.6 15.7 -0.51083 15.77239 0.8 18.2 -0.22314 18.00972 1.0 18.7 0 19.74512 1.2 21.4 0.18232 21.16304 1.4 22.6 0.33647 22.36188 1.6 23.8 0.47000 23.40036 1.以资料 (1) 、 (2) 列数据在方格纸上作散点图, 见图12.5,图形与图12.4(c)相近,故可尝试对数变换。 图12.5 火箭电泳实验资料散点图X1.81.61.41.21.0.8.6.4.20.0Y3020100 2.X=lnX, 以Y和X作散点图(图12.6),可见散点呈直线趋势。 图12.6 火箭电泳实验资料的直线化lnX.50.0-.5-1.0-1.5-2.0Y3020100 四、四、曲线直线化的注意事项曲线直线化的注意事项 1、对同一组资料可能存在几种不同的模型,统计学检验对同一组资料可能存在几种不同的模型,统计学检验都有意义,这时应从中选择最优模型都有意义,这时应从中选择最优模型 。2、对拟合得最好的曲线方程进行残差分析,考察所拟合对拟合得最好的曲线方程进行残差分析,考察所拟合的曲线回归方程在专业上是否成立,是否值得应用。的曲线回归方程在专业上是否成立,是否值得应用。