《统计学--线性回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《统计学--线性回归分析ppt课件.ppt(97页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第12章双变量回归与相关 Content 1. Linear regression 2. Linear correlation 3. Rank correlation 4. Curve fitting 双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关
2、英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景: 儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 。 也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。33.730.516YX 目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并
3、且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。第一节 直线回归一、直线回归的概念 目的:目的:研究应变量研究应变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。 X值和值和Y的均数的关系,的均数的关系, 不同于一般数学上的不同于一般数学上的X 和和Y的函数的函数 关系。关系。 为了直观地说明两相关变量的线性依存关系,用表12-1第(2)、(3)列中大白鼠的进食量和体重增加量的数据在坐标纸上描点,得图12-1所示的散点图(scatter plot)。 例例12-1 用某饲料喂养12只大白鼠
4、,得出大白鼠的进食量与体重增加量如表12-1,试绘制其散点图。 表表12-1 12只大白鼠的进食量(只大白鼠的进食量(g)与体重增加量)与体重增加量(g)测量结果测量结果 序号 进食量(g)X 体重增加量(g) Y 2X 2Y XY (1) (2) (3) (4) (5) (6) 1 305.7 23.6 93452.49 556.96 7214.52 2 188.6 14.7 35569.96 216.09 2772.42 3 277.2 19.2 76839.84 368.64 5322.24 4 364.8 27.7 133079.04 767.29 10104.96 5 285.3 1
5、8.9 81396.09 357.21 5392.17 6 244.7 16.1 59878.09 259.21 3939.67 7 255.9 17.2 65484.81 295.84 4401.48 8 149.8 12.9 22440.04 166.41 1932.42 9 268.9 18.3 72307.21 334.89 4920.87 10 247.6 17.7 61305.76 313.29 4382.52 11 168.8 13.7 28493.44 187.69 2312.56 12 200.6 15.6 40240.36 243.36 3129.36 合计 2957.9
6、(X) 215.6 (Y) 770487.13 )(2X 4066.9 )(2Y 55825.2 (XY) 图 12-1 12只大白鼠进食量与体重增重量散点图图 12-1 12只大白鼠进食量与体重增重量散点图51015202530130180230280330380进食量(g),X体重增加量(g),Y 在定量描述大白鼠进食量与体重增加量数量上的依存关系时,习惯上将进食量作为自变量(independent variable),用X表示;体重增加量作为应变量(dependent variable),用Y表示。 由图12-1可见,体重增加量有随进食量增加而增大的趋势,且散点呈直线趋势,但并非12个点
7、都在直线上 ,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫其方程叫直线回归方程直线回归方程,以区别严格意义的直,以区别严格意义的直线方程。线方程。 回归是回归分析中最基本、最简单的一种,回归是回归分析中最基本、最简单的一种,故又称简单回归。故又称简单回归。 (12 1)YabX直线回归方程直线回归方程Y 为各X处Y的总体均数的估计。一般表达式为一般表达式为1a 为回归直线在为回归直线在 Y 轴上的截距。轴上的截距。 a 0,表示直线,表示直线与纵轴的交点在与纵轴的交点在原点的上方;原点的上方; a 0,则交点在,则交点在原点的下方;原点的下方
8、; a = 0,则回归直,则回归直线通过原点。线通过原点。0a = 0a 0XY b0,直线从左下方走向,直线从左下方走向右上方,右上方,Y 随随 X 增大而增增大而增大;大; b0b0b=0二、直线回归方程的求法 残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。YYY原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小(X,Y)式式 中中X Yl为为X 与与Y 的的 离离 均均 差差 乘乘 积积 和和 : ()()()() (12
9、6)XYlX X Y YXYXYn2()()()XYXXXXYYlblXX (12-2) aYbX(12-3) 例12-2 (续例12-1)根据表12-1数据,对大白鼠的体重增加量进行回归分析。 解题步骤ba2.000.0648YX 此直线必然通过点此直线必然通过点( , )( , )且与纵坐且与纵坐标轴相交于截距标轴相交于截距 a a 。如果散点图没有从。如果散点图没有从坐标系原点开始,可在自变量实测范围内坐标系原点开始,可在自变量实测范围内远端取易于读数的远端取易于读数的 X X 值代入回归方程得值代入回归方程得到一个点的坐标,连接此点与点到一个点的坐标,连接此点与点( , )( , )也
10、可绘出回归直线。也可绘出回归直线。 XYXY二二 直线回归中的统计推断直线回归中的统计推断1 回归系数的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?0 1.1回归系数的方差分析 数理统计可证明:222)()()(YYYYYY()()0YYYY上式用符号表示为 式中 YSS残即2)(YY, 为 残 差 平 方 和 。 它 反 应 除了X对Y的 线 性 影 响 之 外 的 一 切 因 素 对Y的 变异 的 作 用 , 也 就 是 在 总 平 方 和 中 无 法 用X解 释的 部 分 ,表 示 考
11、 虑 回 归 之 后Y真 正 的 随 机 误 差 。在 散 点 图 中 ,各 实 测 点 离 回 归 直 线 越 近 ,SS残也就 越 小 , 说 明 直 线 回 归 的 估 计 误 差 越 小 , 回 归的 作 用 越 明 显 。 上述三个平方和,各有其相应的自由度 ,并有如下的关系: 以上分解可见,不考虑回归时,随机误差是 Y 的总变异总SS;而考虑回归以后,由于回归的贡献使原来的随机误差减小为SS残。 如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:MS回为回归均方 MS残为残差均方。 F服从自由度为 回残、的F分布。 式
12、中2. t 检验例例12-3 (续例(续例12-1)根据表)根据表12-1数据进行回归数据进行回归系数的方差分析。系数的方差分析。解:先列出下列计算结果解:先列出下列计算结果3 .193总SS7 .1734 .413896 .268122XXXYXYllblSS回6 .197 .1733 .193回总剩SSSSSS6 .8810/6 .191/7 .173/剩回剩剩回回MSMSSSSSF(3)确定)确定P值。查值。查F界值表,界值表,P0.001。(4)下结论。按)下结论。按 水准,拒绝水准,拒绝H0,接受,接受H1,故可以认为体重的增加量与进食量之间有直,故可以认为体重的增加量与进食量之间有
13、直线关系。线关系。05. 0t 检验方法检验方法40. 12126 .19YXS00688. 04 .4138940. 1bs42. 900688. 00648. 0t1021212n6 .19剩SS4 .41389XXl0648. 0b前已算得前已算得 :注意: (二)回归方程可信区间与预测 一、总体回归系数的区间估计0648. 0b/2,/2,(,)bbbtS btS2n例例12-5 (续例12-1)试估计总体回归系数的95%的可信区间。00688. 0bS228. 210, 2/05. 0t(0.06482.228 0.00688,0.06482.228 0.00688)(0.0495,
14、0.0801)二、二、 的区间估计是指总体中当X为一定值时的均数。把 代入回归方程所求得的估计值,为样本条件均数(condition mean)。对总体 的估计可计算其可信区间,其标准误可按公式计算。YY0 xY022002()()11()YXYXYXXxXxXSSSnXXnl02,2/0YnStY 对一已知的自变量值对一已知的自变量值 按回归方程求出预测值按回归方程求出预测值 ,再,再按下式求出此条件下按下式求出此条件下100(1- )%的可信区间。的可信区间。Y0 xXY0648. 000. 240. 1YXS2500 x2 .182500648. 000. 2Y405. 04 .4138
15、9)49.246250(12140. 120YS例例12-6 (续例(续例12-1) 根据例根据例12-2所求直线回归方程,试计所求直线回归方程,试计算当算当 时,时, 95%的可信区间。的可信区间。2500 xY)10.19,30.17()405. 0228. 22 .18(10n10212228. 210, 2/05. 0t2500 xY本例本例当当 时时, 95%的可信区间的可信区间:个体个体Y值的容许区间值的容许区间020220()11()()11YYXYXXXxXSSnXXxXSnl 容许区间就是总体中容许区间就是总体中X为某定值时,个体为某定值时,个体Y值的波动值的波动范围,其标准
16、差范围,其标准差 按下式计算。按下式计算。 0YS个体个体Y值的值的 容许区间按下式计算。容许区间按下式计算。 1)(02, 2/0YnStY 例例12-7 用例用例12-6的数据,进一步计算当的数据,进一步计算当 时,个时,个体体Y值值95%的容许区间。的容许区间。2500 x计算出个体计算出个体Y值的值的95%容许区间为容许区间为457. 14 .41389)49.246250(121140. 120YS)44.21,95.14()457.1228.22 .18,457.1228.22 .18(回归方程的应用回归方程的应用 一、线性回归的主要用途一、线性回归的主要用途 1研究因素间的依存关
17、系 自变量和应变量之间是否存在线性关系,或者应变量依赖自变量变化而变化的规律。 2估计与预测 可用易测定的一组给定的自变量的观测值来推算较难测定的Y值 。 3统计控制 是利用回归方程进行逆估计,即应变量Y给出一个确定的值或在一定范围内波动时,通过控制自变量的取值来实现 。 二、线性回归应用的注意事项二、线性回归应用的注意事项 1在进行直线回归分析之前,应绘制散点图。 2作回归分析时,要注意两变量间是否存在实际意义。 3两变量间存在直线关系时,不一定表明彼此之间就存在因果关系。 4 4建立回归方程后,须对回归系数进行建立回归方程后,须对回归系数进行假设检验。假设检验。 5. 5. 使用回归方程进
18、行估计与预测时,一般使用回归方程进行估计与预测时,一般只适用于原来的观测范围,即自变量的取值范只适用于原来的观测范围,即自变量的取值范围,不能随意将范围扩大。围,不能随意将范围扩大。 6. 6. 在线性回归分析时,要注意远离群体的在线性回归分析时,要注意远离群体的极端值对回归效果的影响。极端值对回归效果的影响。第二节 直线相关 直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由散点图直观的说明。 目的:研究 两个变量X,Y数量上的依存(或相关) 关
19、系。 特点:统计关系一、直线相关的概念二、相关系数的意义与计算 1. 意义:相关系数意义:相关系数(correlation coefficient)又称)又称Pearson积差相关系数积差相关系数,用来说明具有直线关系的,用来说明具有直线关系的两变量间相关的密切程度与相关方向。两变量间相关的密切程度与相关方向。以符号r表示样本相关系数, 符号表示其总体相关系数。 相关系数没有单位,其值为相关系数没有单位,其值为-1 -1 r r 1 1。r r 值为正表示值为正表示正相关,正相关,r r 值为负表示负相关,值为负表示负相关,r r 的绝对值等于的绝对值等于1 1为为完全相关,完全相关,r r=
20、0=0为零相关。为零相关。 2. 计算:样本相关系数的计算公式为22()()()()XYXX YYXX YYlrllXXYY(12-18) 表12-5 8名正常儿童的年龄 (岁)与尿肌酐含量 (mmol/24h) XY编 号 1 2 3 4 5 6 7 8 年龄 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 例例 12-5 某地方病研究所调查了某地方病研究所调查了8名正常儿童的尿肌酐含名正常儿童的尿肌酐含量(量(mmol/24h)如下表:)如下表:由例算得,42XXl,1.046YYl,5.845XYl
21、 5.8450.881842 1.046r 例9-5 对例12-5数据(,计算8名儿童的尿肌酐含量与其年龄的相关系数。三、相关系数的统计推断(一)相关系数的假设检验20, 212rrrtnSrn(12-19) 例 对前例所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?检验步骤0H: 0,1H: 0,=0.05 本例n=8,r=0.8818,按公式(9-19)20.88184.57910.881882t 按6,查 t 界值表,得0.0020.005P。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有正的直线相关关系。 若直接查 r 界值表(附表 13, P538),结论相同
22、。 (二)总体相关系数的可信区间 由于相关系数的抽样分布在不等于零时呈偏态分布(大样本情况下亦如此) , 所以的可信区间需要先将其进行某种变量变换, 使之服从正态分布, 然后再估计其可信区间。 具体步骤如下1首先对 r 作如下 z 变换 1tanhzr 或 1(1)ln2(1)rzr (9-20) 式中 tanh 为双曲正切函数,tanh-1为反双曲正切函数 2按下式根据正态近似原理计算 z 的1可信区间 /2/2(3,3zunzun),缩写为 /23zun (9-21) 3对上一步计算出的 z 的上下限作如下变换,得到 r 的1 可信区间 tanh( )rz 或 1122zzeer (9-2
23、2) 按公式(9-20)1tanh0.88181.3838z 按公式(9-21)z 的 95%可信区间为 (1.3838-1.96/83,1.3838+1.96/83) =(0.5073,3.2749) 例9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。 再按公式(9-22)将z作反变换,得到年龄与尿肌酐含量的总体相关系数95%可信区间为(0.4678,0.9971)。 四、决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计算公式为:222XYXXXYYYXX YYSSlllRSSlll回总(12-23) 取 值在0到1之间且
24、无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 2R(12-23)五、直线回归与相关应用的注意事项 1根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。2进行相关、回归分析前应绘制散点图第一步(1) 散点图可考察两变量是否有直线趋势;
25、(2) 可发现离群点(outlier)。 散点图对离群点的识别与处理需要从专业知识和现有数据散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。才
26、可以谨慎地剔除或采用其它估计方法。3资料的要求 直线相关分析要求 X与Y 服从双变量正态分布; 直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。 反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。 P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值
27、范围。4结果解释及正确应用 第三节 秩相关(非参数统计方法) 适用条件: 双变量计量资料:双变量计量资料: 资料不服从双变量态分布; 总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。原始数据(一个或两个变量值)用等级表示的资料。一、Spearman秩相关 1. 意义:等级相关系数 rs 用来说明两个变 量间直线相关关系的密切程度与相关方向。3. 计算公式 ) 1(6122nndrs(9-25) 1nrus (9-26) 例 9-8 某省调查了 1995 年到 1999 年当地居民 18 类死因的构成以及每种死因导致的潜在工作损失年
28、数 WYPLL 的构成, 结果见表 9-3。以死因构成为 X,WYPLL 构成为 Y,作等级相关分析。 表9-3 某省1995年到1999年居民死因构成与WYPLL构成检验步骤0H: 0s,即死因构成和 WYPLL 构成之间无直线相关关系 1H: 0s,即死因构成和 WYPLL 构成之间有直线相关关系 0.05 36(92)10.9051818sr 本例18n =,查附表 14 的 rs界值表(P539) , 得 P0.01。按0.05水准拒绝0H,接受1H, 可认为当地居民死因的构成和各种死因导 致的潜在工作损失年数 WYPLL 的构成存 在正相关关系。 二、相同秩较多时 rs 的校正对X与
29、Y分别排秩时, 若相同秩较多, 宜用公式(9-27)计算校正sr 3233() 6()() 62() 62XYsXYnnTTdrnnTnnT公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。 (9-27) 第三节 曲线拟合 (curve fitting) 医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型的是服药后血药浓度时间曲线或毒理学动物实验中动物死亡率与给药剂量的关系就非直线形式。 当发现散点图中应变量 Y 和自变量 X 间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关
30、系。 一、曲线拟合的一般步骤1依据分析目的确定自变量 X 和应变量 Y 之后,根据两变量散点图呈现的趋势,结合专业知识及既往经验选择合适的曲线形式。 2选用适当的估计方法求得回归方程。例如在半对数坐标系中,散点呈较为明显的直线趋势,即可选用形如a bXYe的指数曲线或形如lgYabX的对数曲线。 3实际工作中有时可结合散点图试配几种不同形式的曲线方程并计算其 R2,一般来说 R2较大时拟合效果较好。 此处决定系数R2定义为 222()11()YYSSRSSYY 残总(9-51) 例9-13 以不同剂量的标准促肾上腺皮质激素释放因子CRF(nmol/L)刺激离体培养的大鼠垂体前叶细胞,监测其垂体
31、合成分泌肾上腺皮质激素ACTH的量(pmol/L)。根据表9-10中测得的5对数据建立CRF-ACTH工作曲线。对数曲线?对数曲线:由 散 点 图 可 看 出 , 两 变 量 可 尝 试 拟合 对 数 曲 线 形 如lgYabX, 故 而 对 自变 量 X 作 常 用 对 数 变 换 , 得 到 :lgXX。观 察 Y 与X的 散 点 图 ( 图 9-12) , 二 者呈 直 线 趋 势 , 可 以 考 虑 用 最 小 二 乘 法 拟合 Y 与X的 直 线 回 归 方 程 。 经表 9-10 中所示的计算,得 97.014Y ,0.36X , 11801.559YYl,8.8648X Xl,320.6553X Yl 按公式(9-3)和(9-4),得 320.655336.178.8648b 97.01436.170.36110.11a 于是有:110.11 36.17110.11 36.17lgYXX 此时得到的回归模型其决定系数R2=0.98,拟合效果较好。 在上述过程中, 我们并没有对 Y 作变换。因而此回归方程保证了残差平方和2()YY最小, 即最小二乘原则下的最优答案。 指数曲线?指数曲线:三、常见的几种曲线拟合对数曲线 指数曲线 抛物线 S型曲线
限制150内