《《多重线性回归相关》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多重线性回归相关》PPT课件.ppt(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多重线性回归与相关多因素分析的优点:多因素分析的优点:(1 1)资料易收集;)资料易收集;(2 2)可同时研究多个因素;)可同时研究多个因素;(3 3)既可考察各因素的独立作用,又)既可考察各因素的独立作用,又可研究因素间的交互作用;可研究因素间的交互作用;第一节 多重线性回归的概念 多重线性回归是研究一个应变量与多个多重线性回归是研究一个应变量与多个自变量之间线性依存关系的统计方法,是一自变量之间线性依存关系的统计方法,是一元直线回归分析的推广。元直线回归分析的推广。式中式中b b0 0是常数项,是常数项,b bi i(i i1 1,2 2,mm)称)称为偏回归系数。为偏回归系数。(1)b0
2、是常数项,是各自变量都等于是常数项,是各自变量都等于0时,应变量的估计值。有时,人们时,应变量的估计值。有时,人们称它为本底值。称它为本底值。(2)b1,b2,bp是偏回归系数是偏回归系数(pertial regression coefficient),其统计学意义是在,其统计学意义是在其它所有自变量不变的情况下,某其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量一自变量每变化一个单位,应变量平均变化的单位数。平均变化的单位数。与与直直线线回回归归一一样样,建建立立多多重重回回归归方方程程常常用用最最小小二二乘乘法法(least(least square square method
3、)method)原原理理求求b bi i(i i1 1,2 2,mm),再再求求b b0 0,即即求求出出使使估估计计值值 与与观观测测值值y y之之间间差差异异的的平平方方和和 达到最小的一组解作为达到最小的一组解作为b bi i的估计值。的估计值。多重线性回归模型的前提条件1.线性(linear)2.独立(independent)3.正态(normal)4.等方差性(equal variance)例例1 1 同样身高的同样身高的2020名健康男子的收缩压(名健康男子的收缩压(kPakPa)、)、年龄(岁)和体重之间的多元线性回归方程。年龄(岁)和体重之间的多元线性回归方程。编号编号 收缩压
4、收缩压 年龄年龄 体重体重 y x1 x2表表表表1 201 20名健康男子的收缩压、年龄和体重测定值名健康男子的收缩压、年龄和体重测定值名健康男子的收缩压、年龄和体重测定值名健康男子的收缩压、年龄和体重测定值n n20,X20,X1 1=44.05,X=44.05,X2 2Y=356.35,XY=356.35,X1 1=881,X=881,X2 2=1656.0,=1656.0,XX1 12 2=41467,X=41467,X2 22 2=137953.5,=137953.5,YY2 2=6408.2049,=6408.2049,XX1 1,X X2 2,X X1 1X X2 2 由样本计算
5、得到得偏回归系数由样本计算得到得偏回归系数由样本计算得到得偏回归系数由样本计算得到得偏回归系数b b b bi i i i是总体偏回归系数是总体偏回归系数是总体偏回归系数是总体偏回归系数i i i i的估的估的估的估计值,即使总体偏回归系数等于计值,即使总体偏回归系数等于计值,即使总体偏回归系数等于计值,即使总体偏回归系数等于0 0 0 0,但由于抽样误差,仍可使样,但由于抽样误差,仍可使样,但由于抽样误差,仍可使样,但由于抽样误差,仍可使样本偏回归系数本偏回归系数本偏回归系数本偏回归系数b b b bi i i i不等于不等于不等于不等于0 0 0 0,因此仍要作假设检验,以判断其是否,因此
6、仍要作假设检验,以判断其是否,因此仍要作假设检验,以判断其是否,因此仍要作假设检验,以判断其是否有统计学意义。有统计学意义。有统计学意义。有统计学意义。假设检验包括方程的假设检验和每个偏回归系数的假设检验。假设检验包括方程的假设检验和每个偏回归系数的假设检验。假设检验包括方程的假设检验和每个偏回归系数的假设检验。假设检验包括方程的假设检验和每个偏回归系数的假设检验。(一)多元回归方程的假设检验(一)多元回归方程的假设检验1.建立假设和确定检验水准:建立假设和确定检验水准:H0:1=2=3=m0 H1:1、2、3、m不全为不全为0 假设检验假设检验 总 =n-1 回归=m 剩余=n-m-1 SS
7、误差误差=SS总总-SS回归回归总 =20-119 回归=2 剩余=20-2-117 SS误差误差=SS总总-SS回归回归n n20,X20,X1 1=44.05,X=44.05,X2 2Y=356.35,XY=356.35,X1 1=881,X=881,X2 2=1656.0,=1656.0,XX1 12 2=41467,=41467,XX2 22 2=137953.5,=137953.5,YY2 2=6408.2049,=6408.2049,XX1 1,X X2 2,X X1 1X X2 2查查F F界值表得:界值表得:F F(2 2,1717),F F F F(2 2,1717),P P
8、,因此在水平上,拒绝,因此在水平上,拒绝H H0 0,可以认,可以认为收缩压与年龄和体重之间有回归关系,为收缩压与年龄和体重之间有回归关系,所建立的回归方程有意义。所建立的回归方程有意义。(二)回归系数的假设检验(二)回归系数的假设检验1.建立假设和确定检验水准:建立假设和确定检验水准:H0:i=0 H1:i0 2.计算统计量计算统计量t查查t t界值表得:界值表得:t t(1717),t t1 1 t t(1717),P P,因此在水平上,拒绝因此在水平上,拒绝H H0 0,可以认为收缩,可以认为收缩压与年龄之间有线性回归关系。压与年龄之间有线性回归关系。查查t t界值表得:界值表得:t t
9、(1717),t t2 2 t t(1717),P P,因此在水平上,拒绝因此在水平上,拒绝H H0 0,可以认为收缩,可以认为收缩压与体重之间有线性回归关系。压与体重之间有线性回归关系。因为因为mm个自变量都具有各自的计量单位个自变量都具有各自的计量单位以及不同的变异度,所以不能直接用偏以及不同的变异度,所以不能直接用偏回归系数的数值大小来反映方程中各个回归系数的数值大小来反映方程中各个自变量对应变量自变量对应变量Y Y的贡献大小。为此,的贡献大小。为此,可计算可计算标准化回归系数标准化回归系数。标准化回归系数复相关系数R R2 2称为决定系数,可定量评价称为决定系数,可定量评价y y的总变
10、的总变异能被自变量解释的比重。异能被自变量解释的比重。偏相关系数扣除其他变量的影响后,变量扣除其他变量的影响后,变量y y与与x x的相的相关,称为关,称为y y与与x x的偏相关系数。的偏相关系数。如:如:r r在一个有统计学意义的方程中,可能某在一个有统计学意义的方程中,可能某些自变量对应变量影响较大,而另一些些自变量对应变量影响较大,而另一些影响很弱甚至完全没有意义。影响很弱甚至完全没有意义。为使回归方程中仅包含有意义的自变量,为使回归方程中仅包含有意义的自变量,有必要对偏回归系数作检验和进行有必要对偏回归系数作检验和进行自变自变量筛选量筛选。自变量筛选的常用方法自变量筛选的常用方法1.
11、1.所有可能自变量子集选择;所有可能自变量子集选择;2.2.向前选择法;向前选择法;3.3.向后剔除法;向后剔除法;4.4.逐步选择法逐步选择法自变量筛选的原则:残差均方缩小或调整决自变量筛选的原则:残差均方缩小或调整决定系数(定系数(R Ra a2 2)增大。)增大。多重线性回归的注意事项:多重线性回归的注意事项:1.1.自变量必须是相互独立的;自变量必须是相互独立的;2.2.自变量的联合作用;自变量的联合作用;3.3.样本含量;样本含量;4.4.正确看待选入和未选入的自变量。正确看待选入和未选入的自变量。多重共线性问题及对策:多重共线性问题及对策:多重共线性指的是自变量间存在着近似多重共线性指的是自变量间存在着近似的线性关系,即某个自变量可以近似地的线性关系,即某个自变量可以近似地用其他自变量的线性函数来描述。用其他自变量的线性函数来描述。对策:对策:1.1.增大样本量;增大样本量;2.2.采用多种自变量筛选方法相结合的方式;采用多种自变量筛选方法相结合的方式;3.3.因子分析和主成分分析;因子分析和主成分分析;4.4.通径分析;通径分析;5.5.岭回归分析;岭回归分析;6.6.从专业和实际角度,去除次要的、缺失值较多、从专业和实际角度,去除次要的、缺失值较多、测量误差较大的共线性因子。测量误差较大的共线性因子。
限制150内