第11章 多重线性回归分析2010.pdf
《第11章 多重线性回归分析2010.pdf》由会员分享,可在线阅读,更多相关《第11章 多重线性回归分析2010.pdf(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多重线性回归分析多重线性回归分析郝元涛2010.11.23郝元涛2010.11.23第十一章第十一章11.1 概述 例例11-1 为研究大气污染物一氧化氮(NO)的浓度 是否受到汽车流量、气候状况等因素的影响,选 择24个工业水平相近的城市的一个交通点,统计 单位时间过往的汽车数(千辆)、同时在低空的 相同高度测定了该时间段平均气温()、空气 湿度(平均气温()、空气 湿度(%)、风速()、风速(m/s)以及空气中一氧化氮(一氧化氮(NO)的浓度()的浓度(ppm),),数据如表10-1所示。表 10-1 24 个城市交通点空气中 NO 浓度监测数据 一氧化氮 车流量 气温气湿风速一氧化氮车流
2、量气温气湿风速(Y)(1X)(2X)(3X)(4X)(Y)(1X)(2X)(3X)(4X)0.066 1.300 20.080 0.450.005 0.94822.569 2.000.076 1.444 23.057 0.500.011 1.44021.579 2.400.001 0.786 26.564 1.500.003 1.08428.559 3.000.170 1.652 23.084 0.400.140 1.84426.073 1.000.156 1.756 29.572 0.900.039 1.11635.092 2.800.120 1.754 30.076 0.800.059 1
3、.65620.083 1.450.040 1.200 22.569 1.800.087 1.53623.057 1.500.120 1.500 21.877 0.600.039 0.96024.867 1.500.100 1.200 27.058 1.700.222 1.78423.383 0.900.129 1.476 27.065 0.650.145 1.49627.065 0.650.135 1.820 22.083 0.400.029 1.06026.058 1.830.099 1.436 28.068 2.000.099 1.43628.068 2.00资料来源:数据选自卫生统计学第
4、 5 版(方积乾主编)人民卫生出版社 目的:目的:要更好地预测空气中一氧化氮的浓度,在线性回 归方程中应该包含气温气温、空气湿度空气湿度、风速风速等多 个自变量。把包含一个自变量的简单线性回归方程扩展为包 含多个自变量的多重线性回归方程多重线性回归方程。基本概念:多重线性回归多重线性回归(multiple linear regression)是一种 重要的、经典的多因素分析方法,是简单线性回 归方法的拓展,它采用回归方程的方式定量地描 述一个因变量一个因变量Y和多个自变量多个自变量之间的线性依存关系。11.2 多重线性回归模型2.001.751.501.251.000.75车流量(千辆)车流量
5、(千辆)0.2500.2000.1500.1000.0500.000一氧化氮浓度(一氧化氮浓度(ppm)35.0032.5030.0027.5025.0022.5020.00气温(摄氏度)气温(摄氏度)0.2500.2000.1500.1000.0500.000一氧化氮浓度(一氧化氮浓度(ppm)90.0080.0070.0060.00气湿()气湿()0.2500.2000.1500.1000.0500.000一氧化氮浓度(一氧化氮浓度(ppm)3.002.502.001.501.000.500.00风速(风速(m/s)0.2500.2000.1500.1000.0500.000一氧化氮浓度(
6、一氧化氮浓度(ppm)问题:1.单位时间内过往的汽车数(千辆)、气温()、空气 湿度(%)、风速(m/s)这四个因素是否都对空气中 一氧化氮(NO)的浓度(ppm)有影响?2.如何定量地描述这些因素对一氧化氮浓度的影响?3.哪个因素对一氧化氮浓度的影响最大?哪个因素的影响 最小?4.如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何?回归模型:截距(截距(intercept)偏回归系数(偏回归系数(partial regression coefficient)pppxxxYXXX 22110,.,2,1|偏回归系数的含义:i 为变量Xi 的总体偏回归系数(partial reg
7、ression coefficient),表示当方程中其他自 变量保持常量时,自变量Xi每增加(或减少)一个计量单位,反应变量Y平均变化 个单位。i样本的回归方程:ppXbXbXbbY.2211044110XbXbbY回归系数的估计:1.最小二乘估计(最小二乘估计(least square estimation,LSE)寻找一套适宜的偏回归系数()建立多重线性回归方程,使得反应变量的观测值 与回归方程的估计值 之间的残差平方和残差平方和最小。满足这个条件的偏回归系数就是根据最小二乘法 得到的偏回归系数的估计值。pbbbb,210iYiY43621035.01055.6004.0116.0142
8、.0XXXXY问题:1.这个回归方程是否有意义?即在所有自变量 中,是否至少存在一个自变量与Y的总体均数 呈线性关系?2.回归方程的效果如何?也即是这四个自变量能 够解释反应变量的变异的百分比是多少?3.四个自变量是否都对反应变量有影响?4.哪个因素对Y的影响最大?回归方程的假设检验:0:43210H表 11-2 检验回归方程整体意义的方差分析表 变异来源 自由度 SS MS F P 回归 4 0.064 0.016 17.59.001 残差 19 0.017 0.001 总 23 0.081 确定系数(coefficient of determination):总回归SSSSR 279.02
9、R校正的确定系数:adjusted coefficient of determination11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差743.02adR复相关系数(multiple correlation coefficient)总回归SSSSR),(YYcorrR 回归系数的假设检验:0:0iH0:1iHiibibSbt表 11-3 偏回归系数的t检验与标准化偏回归系数 变量 自由度 回归系数 标准误 t P 标准化偏 回归系数 车流量1X 1 0.116 0.027 4.23 0.0005 0.592 气温2X 1 0.004 0.002 2.36 0.028
10、9 0.273 气湿3X 1-6.5510-6 0.001-0.01 0.9925-0.001 风速4X 1-0.035 0.011-3.21 0.005-0.448 iiiiSXXX标准化偏回归系数(标准化偏回归系数(standardized partial regression coefficient)自变量筛选的统计学标准:1.残差平方和()缩小或确定系数()增大;2.残差的均方()缩小或调整确定系数()增大;残差SS2R残差MS2adR1pnSSMS残差残差3.统计量缩小 原则:一方面入选自变量不能太多,以使方程易于理 解和解释并降低工作量及研究费用;另一方面自变量 也不能太少,以保证
11、一定的估计和预测精度。pCnpMSSSCp)1(2.p,全残差残差自变量筛选的常用方法:多数统计软件以“偏回归平方和偏回归平方和”(partial sum of squares for regression)的大小作为每一步剔选变量时的依据,它 表示在原有回归方程基础上引入或剔除某一自变量之后 所增加或减少的那部分回归平方和,对应该自变量的回 归系数的统计检验的P值是否小于等于或P值大于就可 以决定引入或剔除该变量。1.前进法 forward 2.后退法 backward 3.逐步法 stepwise 4.最优子集法 optimum subsets 421035.0004.0116.0142.
12、0XXXY43621035.01055.6004.0116.0142.0XXXXY表 11-4 两个回归模型的参数估计与统计量 模型参数估计 2R 2adR pC 残差MS Intercept 1X 2X 3X 4X 0.787 0.755 3.00.0008-0.142 0.116 0.004-0.035 0.787 0.743 5.00.0009-0.142 0.116 0.004-6.6E-6-0.035 11.3 多重线性回归的应用1.定量地建立一个反应变量与多个解释变量之间 的线性关系;2.筛选危险因素;3.通过较易测量的变量估计不易测量的变量;4.通过解释变量预测反应变量;5.通过
13、反应变量控制解释变量。11.4 其他专题:前提条件与残差分析;多重共线性;哑变量的设置;交互效应。11.4.1 前提条件和残差分析:1.线性线性(linear)2.独立性独立性(independence)3.正态性正态性(normal)4.等方差性等方差性(equal variance)残差分析:残差分析残差分析(analysis of residuals):通常使用残差图(residual plot)作为一种直观有 效的非正式检查方法。例如,绘制残差的直方 图直方 图或正态概率图正态概率图判断分布的正态性;绘制残差 与反应变量的预测值的散点图散点图考察模型是否满 足线性和方差齐性。YY关于独
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第11章 多重线性回归分析2010 11 多重 线性 回归 分析 2010
限制150内