多重线性回归与多元逐步回归-统计学ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《多重线性回归与多元逐步回归-统计学ppt课件.ppt》由会员分享,可在线阅读,更多相关《多重线性回归与多元逐步回归-统计学ppt课件.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多重线性回归流行病与卫生统计学系流行病与卫生统计学系内 容 多重线性回归 回归分析中自变量的选择 多因素线性回归的应用及注意事项复 习 线性回归分析是研究一个变量和另外一些变量间线性关系的统计分析方法。 在回归分析中,最简单的情形是模型中只包含两个有“依存关系”的变量,一个变量(反应变量)随另一个变量(自变量)的变化而变化,且呈直线变化趋势,称之为简单线性回归。 给定给定X X的数值的数值, , Y Y 的数值取在一个平均值的数值取在一个平均值 (y|x)附近 对应于不同的对应于不同的X X值值, , Y Y 的平均值座落在一条直线上平均值座落在一条直线上 - - 回归直线回归直线. . y|
2、x 和和 X X的关系可用一个线性方程描写的关系可用一个线性方程描写. .| y xX简单线性回归方程总体样本“Y hat”表示估计值,给定x时y的总体均数总体均数的估计值。YabXXXY直线回归方程的求解:最小二乘原理YabXYX iiYY 回归系数及其计算回归系数及其计算找一条直线使残差平方和最小找一条直线使残差平方和最小 利用微积分知识利用微积分知识,容易得到容易得到 这条线一定过两个点这条线一定过两个点 和和最小 )(2 yy),0(abXaY线性回归分析的前提条件 线性(L Linear)反应变量Y与自变量X呈线性变化趋势 独立(I Independent)任意两个观察值相互独立,一
3、个个体的取值不受其他个体的影响 给定X时,Y正态分布(N Normal)给定X取值时,Y的取值服从正态分布 等方差(E Equal variance)指对应于不同的X值,Y值的总体变异相同直线回归应用条件LINE示意图回归方程有统计学意义吗 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步进行假设检验。检验回归模型是否成立:方差分析检验总体回归系数是否为零:t检验 例1: 某研究者研究大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温()、空气湿度(%)、风速(m/s)等因素的关系,结果见表1: 单位时间内过往的汽车数(千辆
4、)、气温()、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?如何定量地描述这些因素对一氧化氮浓度的影响?哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何? 第一节 多重线性回归 多重多重线性回归线性回归(multiple linear regression) 因变量因变量: : 一个一个, , Y Y 自变量自变量: : 多个多个, , X X1, 1, X X2, 2, X X3, 3, , , XpXp方程:方程:ppXbXbXbbY.22110概概 念念 多元多元线性回
5、归线性回归(multi- variate linear regression) 简称简称多元多元回归回归(multi- variate regression): 因变量因变量: : 多个多个, , Y Y1 1,Y Y2 , 2 , 自变量自变量: : 多个多个, X1, X2, X3, , X1, X2, X3, 方程:方程:ppXbXbXbbY1221111011.ppXbXbXbbY2222112022.多重线性回归方程 多重线性回归方程是简单线性回归方程的扩展pppxxxYXXX 22110,.,2,1|其中 表示当所有自变量为0时反应变量Y的总体平均值。 为变量Xi 的总体偏回归系数
6、(partial regression coefficient),表示当方程中其他自变量保持常量时,自变量Xi每增加(或减少)一个计量单位,反应变量Y平均变化 个单位。0ii 样本回归方程 ppXbXbXbbY.22110Y反应变量Y的总体平均值12|,.,pY x xx的估计值。 b00的估计。 为常数项,又称为截距,是总体参数bi为自变量Xi 的偏回归系数,是总体参数 的估计值。i 如果要建立由车流量( )和风速( )预测一氧化氮浓度(Y)的线性回归方程,模型可以写成: 1X4X44110XbXbbY4b4b表示在车流量不变的情况下,风速每增加一个单位(1m/s),估计空气中一氧化氮的浓度
7、平均改变个单位(ppm)。表13-1 多重线性回归分析数据格式 前提条件(LINE)多重线性多重线性回归分析步骤回归分析步骤(1)(1) 求回归方程求回归方程 - - 最小二乘原则最小二乘原则(2)(2) 假设检验假设检验 - - 检验回归方程是否具有统计学意义,检验回归方程是否具有统计学意义,模型有意义的前提下,再分别对模型有意义的前提下,再分别对各偏回归系数各偏回归系数进行假进行假设检验设检验。(3)(3)变量选择变量选择 - - 以尽量少的自变量以尽量少的自变量, , 达到较好地解释达到较好地解释Y Y的目的的目的基本原理:寻找一套适宜的偏回归系数( ),建立多重线性回归方程,使得反应变
8、量的观测值 与回归方程的估计值回归系数的估计,求回归方程 采用最小二乘法 (least squared method)来估计偏回归系数 pbbbb,210iYiY之间的残差平方和最小。 SPSS实现方法: Analyze-Regression-Linear- y选入Dependent x1、x2、X3.XP选入Independent Method- Enter Stepwise Backward Forward -ok43621035. 01055. 6004. 0116. 0142. 0XXXXY 当建立样本回归方程后,首先要考察这个回归方程是否有意义?即在, , , , 中,是否至少存在一
9、个自变量与Y的总体均数呈线性关系? 回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少? 四个自变量是否都对反应变量有影响?即各个偏回归系数( )所对应的总体偏回归系数( )是否等于0?考虑:1X2X3X4X4321,bbbb4321, 回归的目的回归的目的: :估计估计H H0 0成立时成立时, , 只能用只能用Y Y的均数的均数 来估计来估计 残差残差: , : , 自由度自由度= =H H1 1成立时成立时, , 给定给定 可以用可以用 来估计来估计 残差残差: : , , 自由度自由度= 残差减少了残差减少了 统计推断 这个回归方程有统计学意义吗这个回归方程有统
10、计学意义吗? ? XYyXY2)(yySSi总1nXYiyix2)(iiyySS残1 pn回残总SSSSSS- - 这是回归模型的贡献这是回归模型的贡献 2)(yySSi回自由度自由度= = p方差分析的基本思想 总变异:把反应变量的观察值的离均差平方和记为 ,它反映了没有利用自变量的信息时的观察值的变异性,即没有考虑车流量、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的大小,其自由度记为 (为样本量)。 2)(yySSi总1 n总 根据回归方程计算得到的预测值 与实际观察值 之间的差异称为残差,记残差的离均差平方和为 ,它反映了的变异中不能由回归解释的部分,其自由度记为 ,P 为自变量个
11、数。 把 与 之差记为回归平方和 ,它反应了回归模型的贡献,即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,其自由度记为 。 iy iy2)(iiyySS残1pnE总SS残差SS回归SSp回SSMSFP 表13-3 检验回归方程整体意义的方差分析表变异来源自由度回归40.0640.01617.59.001残差190.0170.001总230.081P0H表中值小于0.001,按照0.05的检验水准,可以拒绝认为所建立的回归方程是有意义的。用这四个自变量构成的回归方程解释空气中一氧化氮浓度的变化是有意义的。32回归模型好坏的评价回归模型好坏的评价1)1)拟合的回归方程在总体上有统计学意义拟
12、合的回归方程在总体上有统计学意义2) 2) 决定系数决定系数R R2 2 R R2 2 =1-SS=1-SS残残/SS/SS总总= SS= SS模模/SS/SS总,总, 它表示在因变量它表示在因变量y y的总变异中可由回归方的总变异中可由回归方程所解释部分的比例。程所解释部分的比例。0R0R2 21, 1, 越接近于越接近于1, 1, 说明回归方程效果越说明回归方程效果越好。好。33 复相关系数是随方程中的变量个数增加而增加的,为了克服这一缺点,对它进行校正 Adj RAdj R2 2 =1-MS=1-MS残残/MS/MS总,总, 0AdjR0AdjR2 21, 1, 越接近于越接近于1, 1
13、, 说明回归方程效果说明回归方程效果越好。越好。调整的确定系数调整的确定系数(adjusted R2, ) 11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差2adR353)3)剩余标准差或标准估计误差剩余标准差或标准估计误差(standard (standard error of estimate)error of estimate)。 它反映了应变量在扣除自变量的线性影它反映了应变量在扣除自变量的线性影响后的离散程度;响后的离散程度; 剩余标准差越接近于剩余标准差越接近于0, 0, 说明回归方程说明回归方程效果越好。效果越好。212.nyysniiixy36 4)回归
14、系数估计值的正负号与专业上的含义相吻合,根据回归方程计算的Y的预测值在专业上有意义。确定系数确定系数 或称决定系数,以反映回归方程的效果好坏。 总回归SSSSR 22R本例 0.79,说明利用车流量、气温、气湿和风速等四个因素可以解释一氧化氮浓度的约80的变异,可以认为回归的效果较好 。复相关系数复相关系数 (coefficient of multiple correlation)又称多重相关系数又称多重相关系数 决决定定系系数数 R 回归系数的假设检验回归系数的假设检验 由于存在抽样误差,即使总体偏回归系数为零,也可能得到样本偏回归系数不为零的情形,因此需要对偏回归系数进行假设检验,以推断总
15、体偏回归系数是否为零 。0:0iH0:1iH05. 0 检验统计量为biibiSbtbiSi其中, 是第 个偏回归系数的标准误 05. 0P05. 0P车流量、气温、风速对一氧化氮浓度的影响有统计学意义( ),但是气湿的影响没有统计学意义( )。)。 标准偏回归系数标准偏回归系数Standardized partial regression coefficient所有变量标准化后做回归所有变量标准化后做回归, ,所得系数称为标准偏回归所得系数称为标准偏回归系数系数. .注意:注意: 一般回归系数一般回归系数有单位,用来解释各自变量对有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不
16、变时,应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时增加或减少一个单位时Y Y 的平均变化量。的平均变化量。 不能用各不能用各 来比较各来比较各 对对 的影响大小。的影响大小。 标准化回归系数标准化回归系数无单位,用来比较各自变量无单位,用来比较各自变量对应变量的影响大小,对应变量的影响大小, 越大,越大, 对对 的影响越大的影响越大。iXibiXY,ibXiY第二节 回归分析中变量的选择 并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。 在许多研究中,多因素线性回归分析的目的是建立一个预测效果最优的回归模型,需要对自变量进行筛选: 将对反应变量没有影响的自变量从
17、模型中剔除,将对反应变量的作用有意义的自变量纳入模型当中。 残差平方和( )缩小或确定系数( )增大 2)(iiyySS残残差SS2R越小越好!越小越好!总残差总回归SS12SSSSSSR越大越好!越大越好! 然而然而, , 只要增加自变量个数只要增加自变量个数, , 这个量就会减小这个量就会减小!?!?自变量筛选的统计学标准残差的均方( )缩小或调整确定系数( )增大 残差MS2adR1pnSSMS残差残差11111/1/1122pnnRnSSpnSSMSMSRad总残差总残差自变量筛选的统计学标准AIC统计量pSSnAIC2)nln(残差AIC值达到最小,该模型为最佳模型,AIC准则自变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多重 线性 回归 多元 逐步回归 统计学 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内