多重线性回归相关讲稿.ppt
多重线性回归相关第一页,讲稿共二十四页哦多因素分析的优点:多因素分析的优点:(1 1)资料易收集;)资料易收集;(2 2)可同时研究多个因素;)可同时研究多个因素;(3 3)既可考察各因素的独立作用,又可研)既可考察各因素的独立作用,又可研究因素间的交互作用;究因素间的交互作用;第二页,讲稿共二十四页哦第一节 多重线性回归的概念 多重线性回归是研究一个应变量与多个自多重线性回归是研究一个应变量与多个自变量之间线性依存关系的统计方法,是一元直变量之间线性依存关系的统计方法,是一元直线回归分析的推广。线回归分析的推广。式中式中b b0 0是常数项,是常数项,b bi i(i i1 1,2 2,mm)称为偏)称为偏回归系数。回归系数。第三页,讲稿共二十四页哦(1)b0是常数项,是各自变量都等于是常数项,是各自变量都等于0时,时,应变量的估计值。有时,人们称它应变量的估计值。有时,人们称它为本底值。为本底值。(2)b1,b2,bp是偏回归系数是偏回归系数(pertial regression coefficient),其统计学意义是在其它所有自变量,其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。个单位,应变量平均变化的单位数。第四页,讲稿共二十四页哦与与直直线线回回归归一一样样,建建立立多多重重回回归归方方程程常常用用最最小小二二乘乘法法(least(least square square method)method)原原理理求求b bi i(i i1 1,2 2,mm),再再求求b b0 0,即即求求出出使使估估计计值值 与与观观测测值值y y之之间间差差异异的的平平方方和和 达达到到最最小小的的一组解作为一组解作为b bi i的估计值。的估计值。第五页,讲稿共二十四页哦多重线性回归模型的前提条件1.线性(linear)2.独立(independent)3.正态(normal)4.等方差性(equal variance)第六页,讲稿共二十四页哦例例1 1 同样身高的同样身高的2020名健康男子的收缩压(名健康男子的收缩压(kPakPa)、年龄)、年龄(岁)和体重之间的多元线性回归方程。(岁)和体重之间的多元线性回归方程。编号编号 收缩压收缩压 年龄年龄 体重体重 y x1 x2 1 15.60 50 76.0 1 15.60 50 76.0 2 18.80 20 91.5 2 18.80 20 91.5 3 16.53 20 85.5 3 16.53 20 85.5 4 16.80 30 82.5 4 16.80 30 82.5 5 15.60 30 79.0 5 15.60 30 79.0 6 16.67 50 80.5 6 16.67 50 80.5 7 16.40 60 79.0 7 16.40 60 79.0 8 16.67 50 79.0 8 16.67 50 79.0 9 17.60 40 85.0 9 17.60 40 85.0 10 16.40 50 76.5 10 16.40 50 76.5表表表表1 201 20名健康男子的收缩压、年龄和体重测定值名健康男子的收缩压、年龄和体重测定值第七页,讲稿共二十四页哦n n20,X20,X1 1=44.05,X=44.05,X2 2=82.80,Y=17.82=82.80,Y=17.82Y=356.35,XY=356.35,X1 1=881,X=881,X2 2=1656.0,=1656.0,XX1 12 2=41467,X=41467,X2 22 2=137953.5,=137953.5,YY2 2=6408.2049,=6408.2049,XX1 1Y=15788.50Y=15788.50,X X2 2Y=29653.27Y=29653.27,X X1 1X X2 2=72669.5=72669.5第八页,讲稿共二十四页哦第九页,讲稿共二十四页哦第十页,讲稿共二十四页哦 由样本计算得到得偏回归系数由样本计算得到得偏回归系数由样本计算得到得偏回归系数由样本计算得到得偏回归系数b b b bi i i i是总体偏回归系数是总体偏回归系数是总体偏回归系数是总体偏回归系数i i i i的估计值,的估计值,的估计值,的估计值,即使总体偏回归系数等于即使总体偏回归系数等于即使总体偏回归系数等于即使总体偏回归系数等于0 0 0 0,但由于抽样误差,仍可使样本偏回归系,但由于抽样误差,仍可使样本偏回归系,但由于抽样误差,仍可使样本偏回归系,但由于抽样误差,仍可使样本偏回归系数数数数b b b bi i i i不等于不等于不等于不等于0 0 0 0,因此仍要作假设检验,以判断其是否有统计学意义。,因此仍要作假设检验,以判断其是否有统计学意义。,因此仍要作假设检验,以判断其是否有统计学意义。,因此仍要作假设检验,以判断其是否有统计学意义。假设检验包括方程的假设检验和每个偏回归系数的假设检验。假设检验包括方程的假设检验和每个偏回归系数的假设检验。假设检验包括方程的假设检验和每个偏回归系数的假设检验。假设检验包括方程的假设检验和每个偏回归系数的假设检验。(一)多元回归方程的假设检验(一)多元回归方程的假设检验1.建立假设和确定检验水准:建立假设和确定检验水准:H0:1=2=3=m0 H1:1、2、3、m不全为不全为0 =0.05假设检验假设检验 第十一页,讲稿共二十四页哦总 =n-1 回归=m 剩余=n-m-1 SS误差误差=SS总总-SS回归回归第十二页,讲稿共二十四页哦总 =20-119 回归=2 剩余=20-2-117 SS误差误差=SS总总-SS回归回归25.2829n n20,X20,X1 1=44.05,X=44.05,X2 2=82.80,Y=17.82=82.80,Y=17.82Y=356.35,XY=356.35,X1 1=881,X=881,X2 2=1656.0,=1656.0,XX1 12 2=41467,=41467,XX2 22 2=137953.5,=137953.5,YY2 2=6408.2049,=6408.2049,XX1 1Y=15788.50Y=15788.50,X X2 2Y=29653.27Y=29653.27,X X1 1X X2 2=72669.5=72669.5第十三页,讲稿共二十四页哦查查F F界值表得:界值表得:F F0.050.05(2 2,1717)3.593.59,F F F F0.050.05(2 2,1717),P P0.050.05,因此在,因此在=0.05=0.05水平水平上,拒绝上,拒绝H H0 0,可以认为收缩压与年龄和体,可以认为收缩压与年龄和体重之间有回归关系,所建立的回归方程有重之间有回归关系,所建立的回归方程有意义。意义。第十四页,讲稿共二十四页哦(二)回归系数的假设检验(二)回归系数的假设检验1.建立假设和确定检验水准:建立假设和确定检验水准:H0:i=0 H1:i0 =0.052.计算统计量计算统计量t第十五页,讲稿共二十四页哦查查t t界值表得:界值表得:t t0.050.05(1717)2.1102.110,t t1 1 t t0.050.05(1717),P P0.050.05,因此在,因此在=0.05=0.05水平上,水平上,拒绝拒绝H H0 0,可以认为收缩压与年龄之间有线性,可以认为收缩压与年龄之间有线性回归关系。回归关系。查查t t界值表得:界值表得:t t0.050.05(1717)2.1102.110,t t2 2 t t0.050.05(1717),P P0.050.05,因此在,因此在=0.05=0.05水平上,水平上,拒绝拒绝H H0 0,可以认为收缩压与体重之间有线,可以认为收缩压与体重之间有线性回归关系。性回归关系。第十六页,讲稿共二十四页哦因为因为mm个自变量都具有各自的计量单位以及个自变量都具有各自的计量单位以及不同的变异度,所以不能直接用偏回归系数不同的变异度,所以不能直接用偏回归系数的数值大小来反映方程中各个自变量对应变的数值大小来反映方程中各个自变量对应变量量Y Y的贡献大小。为此,可计算的贡献大小。为此,可计算标准化回标准化回归系数归系数。标准化回归系数第十七页,讲稿共二十四页哦第十八页,讲稿共二十四页哦复相关系数R R2 2称为决定系数,可定量评价称为决定系数,可定量评价y y的总变异的总变异能被自变量解释的比重。能被自变量解释的比重。第十九页,讲稿共二十四页哦偏相关系数扣除其他变量的影响后,变量扣除其他变量的影响后,变量y y与与x x的相的相关,称为关,称为y y与与x x的偏相关系数。的偏相关系数。如:如:r r12.312.3第二十页,讲稿共二十四页哦在一个有统计学意义的方程中,可能某些自在一个有统计学意义的方程中,可能某些自变量对应变量影响较大,而另一些影响很弱变量对应变量影响较大,而另一些影响很弱甚至完全没有意义。甚至完全没有意义。为使回归方程中仅包含有意义的自变量,为使回归方程中仅包含有意义的自变量,有必要对偏回归系数作检验和进行有必要对偏回归系数作检验和进行自变量自变量筛选筛选。第二十一页,讲稿共二十四页哦自变量筛选的常用方法自变量筛选的常用方法1.1.所有可能自变量子集选择;所有可能自变量子集选择;2.2.向前选择法;向前选择法;3.3.向后剔除法;向后剔除法;4.4.逐步选择法逐步选择法自变量筛选的原则:残差均方缩小或调整决定自变量筛选的原则:残差均方缩小或调整决定系数(系数(R Ra a2 2)增大。)增大。第二十二页,讲稿共二十四页哦多重线性回归的注意事项:多重线性回归的注意事项:1.1.自变量必须是相互独立的;自变量必须是相互独立的;2.2.自变量的联合作用;自变量的联合作用;3.3.样本含量;样本含量;4.4.正确看待选入和未选入的自变量。正确看待选入和未选入的自变量。第二十三页,讲稿共二十四页哦多重共线性问题及对策:多重共线性问题及对策:多重共线性指的是自变量间存在着近似的线多重共线性指的是自变量间存在着近似的线性关系,即某个自变量可以近似地用其他自性关系,即某个自变量可以近似地用其他自变量的线性函数来描述。变量的线性函数来描述。对策:对策:1.1.增大样本量;增大样本量;2.2.采用多种自变量筛选方法相结合的方式;3.3.因子分析和主成分分析;因子分析和主成分分析;4.4.通径分析;通径分析;5.5.岭回归分析;岭回归分析;6.6.从专业和实际角度,去除次要的、缺失值较多、测量误差较大的共线性因子。第二十四页,讲稿共二十四页哦