第六讲-常用多因素回归分析方法简介.pdf
《第六讲-常用多因素回归分析方法简介.pdf》由会员分享,可在线阅读,更多相关《第六讲-常用多因素回归分析方法简介.pdf(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2013/9/4 1 常用多因素回归分析方法简介常用多因素回归分析方法简介 陈 雯 中山大学公共卫生学院 医学统计与流行病学系 常用多因素回归分析常用多因素回归分析方法方法 前情提要前情提要 简单线性回归(简单线性回归(10)变量数:2(X&Y)变量间的关系:依存关系 X:自变量(independent variable)Y:因变量(dependent variable)2013/9/4 2 常用多因素回归分析常用多因素回归分析方法方法 前情提要前情提要 Y随X的变化的程度:(b)X对Y影响的大小:2013/9/4 3 2R常用多因素回归分析常用多因素回归分析方法方法 2013/9/4 4 多
2、个多个X对对1个个Y的影响的影响?血压值受年龄、性别、饮食习惯、吸烟状况、家族史等的影响 Y为分类变量为分类变量?医院抢救急性心肌梗塞患者能否成功(是/否)Y:结局是否发生:结局是否发生+发生的快慢发生的快慢?两组肝癌患者治疗后复发时间(月)常用多因素回归分析方法常用多因素回归分析方法 2013/9/4 5 多重线性回归多重线性回归 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 基本概念基本概念 多重线性回归多重线性回归(multiple linear regression)是简单线性回归方法的拓展,它采用回归 方程的方式定量地描述一个因变量Y 和多 个自变量X之间的
3、线性依存关系。2013/9/4 6 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 例例11-1 某研究预分析大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温()、空气湿度(%)、风速(m/s)等因素的关系。研究者选择了24个工业水平相近的城市,每个城市选择一个交通点,测量了上述资料。数据如表11-1所示。常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 7 表表11-1 24个城市交通点空气中个城市交通点空气中NO浓度监测数据浓度监测数据 一氧化氮(Y)车流量(1X)气温(2X)气湿(3X)风速(4X)一氧化氮
4、(Y)车流量(1X)气温(2X)气湿(3X)风速(4X)0.066 1.300 20.0 80 0.45 0.005 0.948 22.5 69 2.00 0.076 1.444 23.0 57 0.50 0.011 1.440 21.5 79 2.40 0.001 0.786 26.5 64 1.50 0.003 1.084 28.5 59 3.00 0.170 1.652 23.0 84 0.40 0.140 1.844 26.0 73 1.00 0.156 1.756 29.5 72 0.90 0.039 1.116 35.0 92 2.80 0.120 1.754 30.0 76 0.
5、80 0.059 1.656 20.0 83 1.45 0.040 1.200 22.5 69 1.80 0.087 1.536 23.0 57 1.50 0.120 1.500 21.8 77 0.60 0.039 0.960 24.8 67 1.50 0.100 1.200 27.0 58 1.70 0.222 1.784 23.3 83 0.90 0.129 1.476 27.0 65 0.65 0.145 1.496 27.0 65 0.65 0.135 1.820 22.0 83 0.40 0.029 1.060 26.0 58 1.83 0.099 1.436 28.0 68 2.
6、00 0.099 1.436 28.0 68 2.00 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 8 问题问题 单位时间内过往的汽车数(千辆)、气温()、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?如何定量地描述这些因素对一氧化氮浓度的影响?哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 9 1.1回归模型回归模型 pppxxxYXXX 22110,.,2,1|截距:所有自变量为截距:所有自变量为0时反
7、应变量时反应变量Y的的 总体平均值总体平均值。常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 偏回归系数(偏回归系数(partial regression coefficient),当方程中),当方程中其他自变量保持常量时,自变量其他自变量保持常量时,自变量Xi每增加(或减少)一个单每增加(或减少)一个单位,位,Y平均变化平均变化 个单位。个单位。i2013/9/4 10 1.2样本回归方程样本回归方程 量纲不同的两个自变量的偏回归系数可否直接比较?不能!需计算标准化偏回归系数bi(standardized partial regression coefficient)
8、自变量标准化变换(P195,公式11-3)ppXbXbXbbY.22110常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 2013/9/4 11 1.3回归系数的估计回归系数的估计 最小二乘估计(最小二乘估计(least square estimation,LSE)寻找一套适宜的偏回归系数(b0,b1,b2bp)建立多重线性回归方程,使得反应变量的观测值与回归方程的估计值之间的残差平方和最小残差平方和最小。(同“简单线性回归”)43621035.01055.6004.0116.0142.0XXXXY常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归
9、2013/9/4 12 新问题新问题 回归方程是否有意义?即在所有自变量中,是否至少存在一个自变量与Y的总体均数呈线性关系?回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少?四个自变量是否都对反应变量有影响?2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 13 1.4回归方程的假设检验回归方程的假设检验 0123411234=00=0.05HH:,不全为 假设检验方法:方差分析假设检验方法:方差分析 变异来源 自由度 SS MS F P 回归 4 0.064 0.016 17.59.001 残差 19 0.017 0.001
10、总 23 0.081 表表11-2 检验回归方程整体意义的方差分析表检验回归方程整体意义的方差分析表 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 14 1.5确定系数确定系数 确定系数(确定系数(coefficient of determination)缺点:缺点:回归方程增加自变量时,不管自变量对因变量的贡献大小,确定系数只增不减。总回归SSSSR2反映回归方程的效果反映回归方程的效果 R2=0.79 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 15 调整的确定系数(调整的确定系数(adjusted
11、coefficient of determination)优点:优点:方程中增加对因变量贡献很小或没贡献的自变量时,调整的确定系数不会增大,还可能变小。R2=0.79 Rad2=0.74 11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差1.6调整的确定系数调整的确定系数 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 16 1.7复相关系数复相关系数 复相关系数(复相关系数(multiple correlation coefficient)随机变量Y与一组随机变量(X1、X2、X3、Xp)之间线性相关的程度。总回归SSSSR 2
12、013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 17 1.8回归系数的假设检验回归系数的假设检验 假设检验方法:假设检验方法:t 检验检验 01:0:00.05iiHH表表11-3 偏回归系数的偏回归系数的t t检验与标准化偏回归系数检验与标准化偏回归系数 变量 自由度 回归系数 标准误 t P 标准化偏 回归系数 车流量1X 1 0.116 0.027 4.23 0.0005 0.592 气温2X 1 0.004 0.002 2.36 0.0289 0.273 气湿3X 1-6.5510-6 0.001-0.01 0.9925-0.001 风速4X 1
13、-0.035 0.011-3.21 0.0050-0.448 2013/9/4 18 结论结论 车流量、气温、风速对一氧化氮浓度的影响有统计学意义,气湿的影响没有统计学意义。上述三个自变量可以解释一氧化氮浓度的约80%的变异。从标准化偏回归系数的大小发现,车流量的影响最大,其次为风速,气温。2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 19 1.9自变量的筛选自变量的筛选 筛选的统计学标准筛选的统计学标准 残差平方和(SS残差)缩小或确定系数(R2)增大 残差的均方(MS残差)缩小或调整确定系数(Rad2)增大 Cp统计量缩小 赤池信息准则(Akai
14、kes information criterion,AIC)贝叶斯信息量(Bayesian information criterion,BIC)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 20 1.9自变量的筛选自变量的筛选 筛选的常用方法筛选的常用方法 前进法(forward regression)后退法(backward regression)逐步回归法(stepwise regression)最优子集回归法(optimum subsets regression)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线
15、性回归 21 偏回归平方和偏回归平方和 1.9自变量的筛选自变量的筛选 模型参数估计 2R 2adR pC 残差MS Intercept 1X 2X 3X 4X 0.787 0.755 3.00.0008-0.142 0.116 0.004-0.035 0.787 0.743 5.00.0009-0.142 0.116 0.004-6.6E-6-0.035 表表11-4 两个回归模型的参数估计与统计量两个回归模型的参数估计与统计量 只需要车流量、气温和风速三个变量就可以较好地预测 空气中一氧化氮浓度。421035.0004.0116.0142.0XXXY2013/9/4 常用多因素回归分析方法
16、常用多因素回归分析方法-多重线性回归多重线性回归 22 多重线性回归分析中的自变量:多重线性回归分析中的自变量:连续型的变量(如年龄、血压等)二分类的变量(如性别)有序变量(如肿瘤的分期、疗效的分级等)无序多分类变量(如血型等)1.10哑变量的设置哑变量的设置 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 23 概念 将有序变量或无序多分类变量转换成为多个二分类多个二分类变量变量的过程常被称为“哑元化(dummying)”,得到的多个二分类变量称为“哑变量“哑变量(dummy variable)”1.10哑变量的设置哑变量的设置 2013/9/4 常
17、用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 24 例例11-3 血型是一个无序多分类变量,它的取“值”是A、B、AB、O四种,可以用3个二分类变量来描述。见表11-5:1.10哑变量的设置哑变量的设置 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 25 1.10哑变量的设置哑变量的设置 变量 血型 1X 2X 3X A 1 0 0 B 0 1 0 AB 0 0 1 O 0 0 0 表表11-5 用二分类哑变量描述血型用二分类哑变量描述血型 参考变量 二分类变量的个数二分类变量的个数=有序变量或无序分类变量的类别数有序变量或无
18、序分类变量的类别数-1 型非ABBAX103型非AAX101型非BBX1022013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 26 概念概念 如果某个自变量与因变量的线性关系随着另外一个自变量的取值的改变而改变,我们就说这两个自变量之间存在交互作用或交互效应交互作用或交互效应(interaction),又称为效应修正(effect modification)。1.11交互效应交互效应 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 27 例例11-4 某项研究调查了3334名有心脏疾患的妇女,了解血清高密度脂蛋白
19、胆固醇(HDL cholesterol,mg/dl)与体质指数(body mass index,BMI,kg/m2)的关系,考虑到是否患糖尿病(DIABETES)也是影响HDL水平的因素,因此建立了一个以体质指数、是否患糖尿病为自变量,HDL为反应变量的线性回归方程。1.11交互效应交互效应 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 28 1.11交互效应交互效应 糖尿病患者的糖尿病患者的HDL水平随水平随BMI增大而下降增大而下降 的速度比非糖尿病组的缓慢的速度比非糖尿病组的缓慢 BMI&糖尿病:交互效应糖尿病:交互效应 图图11-3 BMI和
20、和HDL的线性回归图的线性回归图 2013/9/4 29 1.11交互效应交互效应 在多重线性回归中,估计两个自变量的交互作用的 最直接的方法就是引入一个新的自变量 新的自变量=可能存在交互作用的两个自变量的乘积 一级交互作用(first-order interaction)二级交互作用(second-order interaction)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 30 1.12多重线性回归的应用多重线性回归的应用 筛选危险因素。定量地建立一个反应变量与多个解释变量之间的线性关系。通过较易测量的变量估计不易测量的变量。通过解释变量预
21、测反应变量。通过反应变量控制解释变量。2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 31 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 前提条件(前提条件(LINE)线性(linear)独立性(independence)正态性(normal)等方差性(equal variance)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 32 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 多重共线性多重共线性(multicollinearity)当自变量均为随机变量时,变量间高度相关。共
22、线性会导致:回归系数估计值极不稳定,重要的自变量不能进入方程 样本回归系数可大可小,可正可负,其专业意义无法解释 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 33 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 例例11-2 陈峰陈峰(1991)报告了一个实例。有报告了一个实例。有22例例胎儿受精龄胎儿受精龄(Y,周周)与胎儿外形测量指标与胎儿外形测量指标:身长身长(X1,cm),头围,头围(X2,cm),体重,体重(X3,g)的数据。的数据。计算得到回归方程:计算得到回归方程:321007.0159.2693.1012.11XXXY
23、2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 34 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 通过计算发现:头围与身长的相关系数等于0.997(P0.05)头围与体重的相关系数等于0.947(P0.05)身长与体重的相关系数等于0.944(P0.9)方差膨胀因子(variance inflation factor,VIF)(10)容忍度(tolerance)(0.25)2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 36 1.13多重线性回归应用的注意事项多重线性回归应用的注意事项 多重共
24、线性的处理多重共线性的处理 删除变量:在相关性较强的变量中删除测量误差大的、缺失数据多的、从专业上看意义不是很重要的或者在其它方面不太满意的变量。采用采用主成分回归方法、通径分析、岭回归。2013/9/4 常用多因素回归分析方法常用多因素回归分析方法-多重线性回归多重线性回归 37 2013/9/4 常用多因素回归分析方法常用多因素回归分析方法 38 logistic回归回归 2013/9/4 38 生物医学研究领域的诸多因变量(结局指标,或称效应指标)通常是分类变量,例如,“生存或死亡”,“发病与不发病”等,并且影响因素(自变量)与其联系,更多的是非线性关系。对于这类问题,应用线性回归显然缺
25、乏合理性。问题的提出问题的提出 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 39 条件条件logistic回归回归 配对(匹配)病例配对(匹配)病例-对照研究对照研究 单自变量、多自变量 非条件非条件logistic回归(回归(logistic回归)回归)成组或非配对的匹配研究成组或非配对的匹配研究 单自变量、多自变量 2.1logistic回归回归的类型 常用多因素回归分析方法常用多因素回归分析方法-logistic回归回归 2013/9/4 40 例例18-1 非甾体抗炎药品上市前的研究中,已知非甾体抗炎药品上市前的研究中,已知可能引起亚临床上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 常用 因素 回归 分析 方法 简介
限制150内