第11章 多重线性回归分析1.pdf
《第11章 多重线性回归分析1.pdf》由会员分享,可在线阅读,更多相关《第11章 多重线性回归分析1.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、11第第11章多重线性回归分析章多重线性回归分析multiple linear regression2医学研究解决什么问题?医学研究解决什么问题?问题提出:问题提出:医学生物现象的形成、发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的共同结果。如医学生物现象的形成、发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的共同结果。如年龄、性别、精神紧张、饮食、劳动强度、吸烟状况、家族史年龄、性别、精神紧张、饮食、劳动强度、吸烟状况、家族史等,在影响疾病众多因素中,哪些是主要因素?各个因素作用有多大?是研究者关心的问题。等,在影响疾病众多因素中,哪些是主要因素?各个因素作用有
2、多大?是研究者关心的问题。4由于涉及到的自变量增多变量间的关系变的复杂由于涉及到的自变量增多变量间的关系变的复杂??利用利用多重线性回归多重线性回归方程对医学现象进行推断和预测。方程对医学现象进行推断和预测。5多重线性回归?多重线性回归?6多重线性回归多重线性回归是研究一个因变量和多个自变量之间线性关系的统计学分析方法。是研究一个因变量和多个自变量之间线性关系的统计学分析方法。目的目的是用一组自变量是用一组自变量(X1,X2,,XP)的数值估计一个反应变量(的数值估计一个反应变量(Y)的依存关系及其变异性的分析。)的依存关系及其变异性的分析。211.1 概念及其统计描述概念及其统计描述一、概述
3、一、概述例例1为了研究有关糖尿病患者体内脂联素水平的影响因素,某医师测定了为了研究有关糖尿病患者体内脂联素水平的影响因素,某医师测定了30名患者的体重指数名患者的体重指数BMI(/)、病程、病程DY(年年)、瘦素、瘦素LEP(ng/ml)、空腹血糖、空腹血糖FPG(mmol/L)及脂联素水平,数据如下表所示:及脂联素水平,数据如下表所示:以上数据表可见,除增加了自变量的列数之外,数据结构与简单回归的数据表完全相同。以上数据表可见,除增加了自变量的列数之外,数据结构与简单回归的数据表完全相同。bXaY+=简单线性回归:简单线性回归:XXYXXY+=|回归系数?回归系数?10上一讲我们讲了直线方上
4、一讲我们讲了直线方可求出估计值;可以在散点图上画出它的直线。又提出该直线方程是否成立?建立假设检验,方法有两种:可求出估计值;可以在散点图上画出它的直线。又提出该直线方程是否成立?建立假设检验,方法有两种:XbXaY若已知;+=Y=2)(/XXSbSbtMSMSFXYb残回方差分析方差分析t检验检验程的求法以及根据方程程的求法以及根据方程回顾回顾:Ft=两个结果一致:多重线性回归分析的基本多重线性回归分析的基本目的目的是是用以上的一组用以上的一组自变量(自变量(X1,X2,,XP)的数值估计一个反应变量()的数值估计一个反应变量(Y)及其变异性的统计分析方法。)及其变异性的统计分析方法。多重线
5、性回归的数学模型为多重线性回归的数学模型为:相应的参数由样本估计相应的参数由样本估计PPXXXY+=22110的平均数(11-1)样本多重线性回归方程为:样本多重线性回归方程为:个单位数。的平均值变化量应变改变一个计量单位,反,变量固定不变的条件下的意义为:在其它自的偏回归系数。对自变量称为)(的估计值,为回归的常数项,是其中,jjjjjbYXbXYPjbb,2,100 =PPXbXbXbbY+=22110(11-2)313问题是:问题是:在许多的情况下需要比较自变量对在许多的情况下需要比较自变量对因变量因变量Y贡献的相对大小?由于各自变量测量单位不等,不能直接比较,贡献的相对大小?由于各自变
6、量测量单位不等,不能直接比较,将原始观测数据进行标准化。将原始观测数据进行标准化。计算的计算的偏回归系数偏回归系数称标准化偏回归系数。称标准化偏回归系数。X1体重指数体重指数X2病程病程X3瘦素瘦素Xp等等等等Y脂联素脂联素P个自变量的个自变量的计量单位计量单位以及不同的变异,不能直接用普通偏回归系数的数值大小来反映方程中各个自变量对反应变量以及不同的变异,不能直接用普通偏回归系数的数值大小来反映方程中各个自变量对反应变量Y的贡献大小。可将原始观测数据进行标准化。的贡献大小。可将原始观测数据进行标准化。经标化的偏回归系数,称为标准化偏回归系数。经标化的偏回归系数,称为标准化偏回归系数。标准化偏
7、回归系数越大,表示自变量对反应变量Y的贡献越大。(11-3)15二、偏回归参数的估计二、偏回归参数的估计它的前提条件完全与简单线性回归相同:它的前提条件完全与简单线性回归相同:线性、独立、正态和等方差线性、独立、正态和等方差,即,即LINE。基本原理:基本原理:采用最小二乘法来估计未知参数采用最小二乘法来估计未知参数,利用收集到因变量和自变量的数据建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的离差平方之和尽可能小。利用收集到因变量和自变量的数据建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的离差平方之和尽可能小。16计算公式和图示计算公式和
8、图示X2X1YModel SSTotal SSResidual SS2n1)(iiiYYSS=残21)(YYSSnii=回2n1)(YYSSii=总17通过计算机统计软件完成通过计算机统计软件完成本例题的回归方程如下:本例题的回归方程如下:问题:我们能不能根据回归方程下结论?问题:我们能不能根据回归方程下结论?4321579.0811.0132.0030.1199.58XXXXY=?11.2.3 统计推断统计推断一、整体回归效应的假设检验一、整体回归效应的假设检验(方差分析方差分析)对例题对例题1,整体方程进行假设检验,方差分析结见下表所示,建立假设检验:,整体方程进行假设检验,方差分析结见下
9、表所示,建立假设检验:0:43210=H419由上表显示:由上表显示:P0.0001,拒绝,拒绝H0。说明从整体上而言,用这四个自变量构成的回归方程解释糖尿病患者体内脂联素的变化是有统计学意义的。说明从整体上而言,用这四个自变量构成的回归方程解释糖尿病患者体内脂联素的变化是有统计学意义的。用以反映线性回归模型能在多大程度上解释反应变量用以反映线性回归模型能在多大程度上解释反应变量Y的变异性的百分比;以反映回归方程效果优劣。的变异性的百分比;以反映回归方程效果优劣。)411(2=总回SSSSR从方差分析表中可计算确定系数,其定义为:从方差分析表中可计算确定系数,其定义为:21对总体对总体R20的
10、假设完全等价于回归方的假设完全等价于回归方程的整体方差分析程的整体方差分析。R2的值接近于的值接近于 1(01),说明回归方程的效果越好。表示样本数据能较好地拟合了选用的线性回归模型。),说明回归方程的效果越好。表示样本数据能较好地拟合了选用的线性回归模型。22对例对例1,由,由方差分析表方差分析表得知:得知:由由R2可知:用包含体重指数、病程、瘦素与空腹血糖四个变量的回归方程解释脂联素水平的变异的可知:用包含体重指数、病程、瘦素与空腹血糖四个变量的回归方程解释脂联素水平的变异的73.12。7312.0301.2425343.17732=总回SSSSR23复相关系数复相关系数R(multipl
11、e correlation coefficient)定义:定义:意义:表示变量意义:表示变量Y与与p个自变量(个自变量(X1,X2,Xp)的密切相关程度。本例:)的密切相关程度。本例:8551.07312.0=R表示四个变量的复相关关系表示四个变量的复相关关系总回SSSSR=24复相关系数有缺点:复相关系数有缺点:当回归方程中包含有很多自变量,即使其中有一些自变量当回归方程中包含有很多自变量,即使其中有一些自变量(如本例中的(如本例中的X2)对解释反应变量变异的贡献极小,随着回归方程的自变量的增加,对解释反应变量变异的贡献极小,随着回归方程的自变量的增加,R2值表现为只增不减。此时要用调整的确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第11章 多重线性回归分析1 11 多重 线性 回归 分析
限制150内