第11章 多重线性回归分析2010.pdf
多重线性回归分析多重线性回归分析郝元涛2010.11.23郝元涛2010.11.23第十一章第十一章11.1 概述 例例11-1 为研究大气污染物一氧化氮(NO)的浓度 是否受到汽车流量、气候状况等因素的影响,选 择24个工业水平相近的城市的一个交通点,统计 单位时间过往的汽车数(千辆)、同时在低空的 相同高度测定了该时间段平均气温()、空气 湿度(平均气温()、空气 湿度(%)、风速()、风速(m/s)以及空气中一氧化氮(一氧化氮(NO)的浓度()的浓度(ppm),),数据如表10-1所示。表 10-1 24 个城市交通点空气中 NO 浓度监测数据 一氧化氮 车流量 气温气湿风速一氧化氮车流量气温气湿风速(Y)(1X)(2X)(3X)(4X)(Y)(1X)(2X)(3X)(4X)0.066 1.300 20.080 0.450.005 0.94822.569 2.000.076 1.444 23.057 0.500.011 1.44021.579 2.400.001 0.786 26.564 1.500.003 1.08428.559 3.000.170 1.652 23.084 0.400.140 1.84426.073 1.000.156 1.756 29.572 0.900.039 1.11635.092 2.800.120 1.754 30.076 0.800.059 1.65620.083 1.450.040 1.200 22.569 1.800.087 1.53623.057 1.500.120 1.500 21.877 0.600.039 0.96024.867 1.500.100 1.200 27.058 1.700.222 1.78423.383 0.900.129 1.476 27.065 0.650.145 1.49627.065 0.650.135 1.820 22.083 0.400.029 1.06026.058 1.830.099 1.436 28.068 2.000.099 1.43628.068 2.00资料来源:数据选自卫生统计学第 5 版(方积乾主编)人民卫生出版社 目的:目的:要更好地预测空气中一氧化氮的浓度,在线性回 归方程中应该包含气温气温、空气湿度空气湿度、风速风速等多 个自变量。把包含一个自变量的简单线性回归方程扩展为包 含多个自变量的多重线性回归方程多重线性回归方程。基本概念:多重线性回归多重线性回归(multiple linear regression)是一种 重要的、经典的多因素分析方法,是简单线性回 归方法的拓展,它采用回归方程的方式定量地描 述一个因变量一个因变量Y和多个自变量多个自变量之间的线性依存关系。11.2 多重线性回归模型2.001.751.501.251.000.75车流量(千辆)车流量(千辆)0.2500.2000.1500.1000.0500.000一氧化氮浓度(一氧化氮浓度(ppm)35.0032.5030.0027.5025.0022.5020.00气温(摄氏度)气温(摄氏度)0.2500.2000.1500.1000.0500.000一氧化氮浓度(一氧化氮浓度(ppm)90.0080.0070.0060.00气湿()气湿()0.2500.2000.1500.1000.0500.000一氧化氮浓度(一氧化氮浓度(ppm)3.002.502.001.501.000.500.00风速(风速(m/s)0.2500.2000.1500.1000.0500.000一氧化氮浓度(一氧化氮浓度(ppm)问题:1.单位时间内过往的汽车数(千辆)、气温()、空气 湿度(%)、风速(m/s)这四个因素是否都对空气中 一氧化氮(NO)的浓度(ppm)有影响?2.如何定量地描述这些因素对一氧化氮浓度的影响?3.哪个因素对一氧化氮浓度的影响最大?哪个因素的影响 最小?4.如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何?回归模型:截距(截距(intercept)偏回归系数(偏回归系数(partial regression coefficient)pppxxxYXXX 22110,.,2,1|偏回归系数的含义:i 为变量Xi 的总体偏回归系数(partial regression coefficient),表示当方程中其他自 变量保持常量时,自变量Xi每增加(或减少)一个计量单位,反应变量Y平均变化 个单位。i样本的回归方程:ppXbXbXbbY.2211044110XbXbbY回归系数的估计:1.最小二乘估计(最小二乘估计(least square estimation,LSE)寻找一套适宜的偏回归系数()建立多重线性回归方程,使得反应变量的观测值 与回归方程的估计值 之间的残差平方和残差平方和最小。满足这个条件的偏回归系数就是根据最小二乘法 得到的偏回归系数的估计值。pbbbb,210iYiY43621035.01055.6004.0116.0142.0XXXXY问题:1.这个回归方程是否有意义?即在所有自变量 中,是否至少存在一个自变量与Y的总体均数 呈线性关系?2.回归方程的效果如何?也即是这四个自变量能 够解释反应变量的变异的百分比是多少?3.四个自变量是否都对反应变量有影响?4.哪个因素对Y的影响最大?回归方程的假设检验:0:43210H表 11-2 检验回归方程整体意义的方差分析表 变异来源 自由度 SS MS F P 回归 4 0.064 0.016 17.59.001 残差 19 0.017 0.001 总 23 0.081 确定系数(coefficient of determination):总回归SSSSR 279.02R校正的确定系数:adjusted coefficient of determination11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差743.02adR复相关系数(multiple correlation coefficient)总回归SSSSR),(YYcorrR 回归系数的假设检验:0:0iH0:1iHiibibSbt表 11-3 偏回归系数的t检验与标准化偏回归系数 变量 自由度 回归系数 标准误 t P 标准化偏 回归系数 车流量1X 1 0.116 0.027 4.23 0.0005 0.592 气温2X 1 0.004 0.002 2.36 0.0289 0.273 气湿3X 1-6.5510-6 0.001-0.01 0.9925-0.001 风速4X 1-0.035 0.011-3.21 0.005-0.448 iiiiSXXX标准化偏回归系数(标准化偏回归系数(standardized partial regression coefficient)自变量筛选的统计学标准:1.残差平方和()缩小或确定系数()增大;2.残差的均方()缩小或调整确定系数()增大;残差SS2R残差MS2adR1pnSSMS残差残差3.统计量缩小 原则:一方面入选自变量不能太多,以使方程易于理 解和解释并降低工作量及研究费用;另一方面自变量 也不能太少,以保证一定的估计和预测精度。pCnpMSSSCp)1(2.p,全残差残差自变量筛选的常用方法:多数统计软件以“偏回归平方和偏回归平方和”(partial sum of squares for regression)的大小作为每一步剔选变量时的依据,它 表示在原有回归方程基础上引入或剔除某一自变量之后 所增加或减少的那部分回归平方和,对应该自变量的回 归系数的统计检验的P值是否小于等于或P值大于就可 以决定引入或剔除该变量。1.前进法 forward 2.后退法 backward 3.逐步法 stepwise 4.最优子集法 optimum subsets 421035.0004.0116.0142.0XXXY43621035.01055.6004.0116.0142.0XXXXY表 11-4 两个回归模型的参数估计与统计量 模型参数估计 2R 2adR pC 残差MS Intercept 1X 2X 3X 4X 0.787 0.755 3.00.0008-0.142 0.116 0.004-0.035 0.787 0.743 5.00.0009-0.142 0.116 0.004-6.6E-6-0.035 11.3 多重线性回归的应用1.定量地建立一个反应变量与多个解释变量之间 的线性关系;2.筛选危险因素;3.通过较易测量的变量估计不易测量的变量;4.通过解释变量预测反应变量;5.通过反应变量控制解释变量。11.4 其他专题:前提条件与残差分析;多重共线性;哑变量的设置;交互效应。11.4.1 前提条件和残差分析:1.线性线性(linear)2.独立性独立性(independence)3.正态性正态性(normal)4.等方差性等方差性(equal variance)残差分析:残差分析残差分析(analysis of residuals):通常使用残差图(residual plot)作为一种直观有 效的非正式检查方法。例如,绘制残差的直方 图直方 图或正态概率图正态概率图判断分布的正态性;绘制残差 与反应变量的预测值的散点图散点图考察模型是否满 足线性和方差齐性。YY关于独立性关于独立性:关于独立性的核查,除了绘制依时间点变化的残 差图外,还可以通过计算Durbin-Watson统计量 来判断。该统计量的取值一般在04之间,如果 残差间相互独立,则取值在2左右,如果取值接 近0或4,则提示不满足独立性。当不满足前提条件时常用的处理方法:1.考虑修改模型,或者采用曲线拟合;2.如果正态性、方差齐性等假定不成立,一般考 虑对数据进行变量变换;3.如果方差齐性的假定不成立,可以采用其它的 方法估计偏回归系数,例如,可以采用加权最 小二乘法估计偏回归系数。11.4.2 多重共线性多重共线性 当自变量均为随机变量时,若它们之间高度相 关,则称自变量间存在多重共线性多重共线性(multi-collinearity)。共线性会给回归估计及推断带来很大麻烦。例11-2:例11-2 例11-2 陈峰(1991)报告了一个实例。有22例胎 儿受精龄(Y,周)与胎儿外形测量指标:身长(),头围(),体重()的数据。求得 由,推算 的回归方程为:cmX,1cmX,2gX,31X2X3XY321007.0159.2693.1012.11XXXY原因:通过计算发现头围与身长的相关系数等于 0.997,头围与体重的相关系数等于0.947,身长 与体重的相关系数等于0.944,经检验均有统计 学意义。多重共线性。例例:对对8名学生的身高名学生的身高(X1)、体重、体重(X2)与肺活量与肺活量(Y)进行了检测,并由 该数据生成新的变量进行了检测,并由 该数据生成新的变量X3=X2/X1。数据如表。数据如表13-8所示。所示。计算得各变量间的相关系数如下表所示。计算得各变量间的相关系数如下表所示。32134970.203126.000895.027195.0XXXYF=27.77,P=0.0039,显示此回归方程具有统计学意义。显示此回归方程具有统计学意义。9542.02R矛盾出现了:对整体模型而言,获得 与整体矛盾出现了:对整体模型而言,获得 与整体F检 验检 验P=0.0039的结果;但是,对于每一个偏回归系数而言,却没有 一个自变量的效应具有统计学意义。问题出在哪里?问题就出在 的结果;但是,对于每一个偏回归系数而言,却没有 一个自变量的效应具有统计学意义。问题出在哪里?问题就出在 X1,X2和和X3与与Y共线性共线性,以致偏回归系数极不稳定,因其标准误 过大而没有统计学意义。,以致偏回归系数极不稳定,因其标准误 过大而没有统计学意义。9542.02R多重共线性的判断:1.一种简单的方法是计算所有自变量的相关系数 矩阵自变量的相关系数 矩阵。如果两个自变量之间的相关系数超过0.9,则会 带来共线性的问题;如果相关系数在0.8以下,一般不大会出现问题。2.方差膨胀因子方差膨胀因子(variance inflation factor,VIF)研究结果提示,当方差膨胀因子大于4时,则 可能存在共线性问题,如果方差膨胀因子大 于10,则共线性问题严重。211jjRVIF3.容忍度(容忍度(tolerance)容忍度是方差膨胀因子的倒数,因此如果容忍 度小于0.25,则可能存在共线性问题,如果容 忍度小于0.10,则提示共线性问题严重。多重共线性的处理:最简单的办法是删除变量删除变量:在相关性较强的变量 中删除测量误差大的、缺失数据多的、从专业上 看意义不是很重要的或者在其它方面不太满意的 变量。其次,也可采用采用主成分回归方法主成分回归方法。11.4.3 哑变量的设置 多重线性回归分析中的自变量:多重线性回归分析中的自变量:1.连续型的变量(如年龄、血压等)2.二分类的变量(如性别)3.有序变量(如肿瘤的分期、疗效的分级等)4.无序多分类变量(如血型等)将有序变量或无序多分类变量转换成为多个二分 类变量的过程常被称为“哑元化(哑元化(dummying)”,得到的多个二分类变量称为“哑变量(哑变量(dummy variable)”。例例11-3 血型是一个无序多分类变量,它的取“值”是A、B、AB、O 四种,可以用3个二分类变量来 描述。令型非AAX101型非BBX102型非ABBAX103表 11-5 用二分类哑变量描述血型 变量 血型 1X 2X 3X A 1 0 0 B 0 1 0 AB 0 0 1 O 0 0 0 一般地,二分类变量的个数等于有序变量或无序分类变量的类别数减一般地,二分类变量的个数等于有序变量或无序分类变量的类别数减1,因此血型的哑变量的个数是,因此血型的哑变量的个数是3。11.4.4 交互效应*如果某个自变量某个自变量与因变量因变量的线性关系随着另外 一个自变量另外 一个自变量的取值的改变而改变,我们就说这两 个自变量之间存在交互作用交互作用或交互效应 交互效应(interaction)。交互效应又称为效应修正(effect modification)。在多重线性回归中,估计两个自变量的交互作用 的最直接的方法就是引入一个新的自变量,这个 新的自变量等于可能存在交互作用的两个自变量 的乘积。一级交互作用(first-order interaction)二级交互作用(second-order interaction)例例11-4 某项研究调查了3334名有心脏疾患的妇女,了解 血清高密度脂蛋白胆固醇(HDL cholesterol,mg/dl)与 体质指数(body mass index,BMI,kg/m2)的关系,考虑 到是否患糖尿病(DIABETES)也是影响HDL水平的因 素,因此建立了一个以体质指数、是否患糖尿病为自变 量,HDL为反应变量的线性回归方程,结果如表11-6所 示。表 11-6 以体质指数、是否患糖尿病为自变量的线性回归方程 Variable COEFFICIENT SE t P 95%CI BMI-0.391 0.017-22.531 0.000-0.426-0.357 DIABETES-4.783 0.092-52.207 0.000-4.962-4.603 CONSTANT 67.551 0.363 185.847 0.000 66.839 68.264 F=2441.323,P=0.000;R2=0.594,adjR2=0.594,Root MSE=2.02 60504030201070605040糖尿病组非糖尿病组糖尿病组非糖尿病组BMI(kgm-2)HDL(mgdl-1)表 11-7 以体质指数、是否患糖尿病为自变量,包含交互作用项的线性回归结果 Variable COEFFICIENT SE t P 95%CI DIABETES-11.340 0.965-11.755 0.000-13.231-9.448 BMI-0.735 0.053-13.822 0.000-0.839-0.631 DMBMI 0.278 0.041 6.828 0.000 0.198 0.358 CONSTANT 75.544 1.225 61.672 0.000 73.142 77.945 F=1665.379,P=0.000;R2=0.600,adjR2=0.600,Root MSE=2.01 DMBMIbBMIbDIABETESbbY3210非糖尿病糖尿病01DIABETESBMIbbY20BMIbbbbY3210确认交互作用项的偏回归系数3b刻画了糖尿病组和非糖尿病组的妇女HDL与BMI回归关系的差异。主效应的解释:BMI的回归系数描述了非糖尿病妇女的HDL平均水平随 BMI的变化趋势,即BMI每增加一个单位,HDL平均减 少0.735个单位。对于患糖尿病的妇女,BMI每增加一个单位,HDL平均 改变的单位数等于非糖尿病人改变的单位数与交互作用 项的偏回归系数之和,即-0.7350.278-0.457mg/dl,如何考虑是否引入交互作用项?一个重要的依据是专业背景知识 另外依据来自对资料是否符合模型的前提条件的 分析结果。例如,通过残差分析发现不满足正态 性、线性等条件,这时可以考虑加入交互作用项。11.5 结果报告1.采用多重线性回归分析的目的2.确定分析用的自变量和反应变量3.多重线性回归的前提条件4.拟合线性模型的方法、筛选自变量的方法5.自变量之间是否存在共线性6.分析中是否考虑自变量之间的交互作用7.资料中是否存在异常值8.最终确定的模型、反映模型拟合效果的统计 量如确定系数、校正的确定系数、残差均方 等等9.最后常常采用一个表格将分析的结果进行总结 归纳。表格中包括如下主要的统计量:偏回归 系数的估计值偏回归 系数的估计值、偏回归系数的标准误偏回归系数的标准误、标准偏 回归系数标准偏 回归系数、t值值、P值值,有时还包括偏回归系数 的95置信区间。拟合优度和方差分析结果一 般可作为备注列在表的下方。表11-8 回归模型的参数估计结果 Unstandardized CoefficientsVariable B Std.Error StandardizedCoefficientst P Intercept-0.142 0.058 -2.452 0.024 汽车数(1X)0.116 0.025 0.808 4.699 0.000 气温(2X)0.004 0.002 0.273 2.430 0.025 风速(4X)-0.035 0.010-0.448-3.316 0.003*687.24F,001.0P 787.02R THE END谢谢!谢谢!