最新多元线性回归分析研PPT课件.ppt
多元线性回归分析研多元线性回归分析研2表表1 271 27名糖尿病人的血糖及有关变量的测量结果名糖尿病人的血糖及有关变量的测量结果 总胆固醇总胆固醇 甘油三酯甘油三酯 胰岛素胰岛素 糖化血红蛋白糖化血红蛋白 血糖血糖 (mmol/L)(mmol/L) (mmol/L)(mmol/L) ( ( U/ml)U/ml) (%)(%) (mmol/L)(mmol/L) 序号序号 i i X X1 1 X X2 2 X X3 3 X X4 4 Y Y 1 1 5.685.68 1.901.90 4.534.53 8.28.2 11.211.2 2 2 3.793.79 1.641.64 7.327.32 6.96.9 8.88.8 3 3 6.026.02 3.563.56 6.956.95 10.810.8 12.312.3 2727 3.843.84 1.201.20 6.456.45 9.69.6 10.410.4 9多元线性回归方程的建立:多元线性回归方程的建立:利用最小二乘法原理估计模型的参数:(使残差平方和最小)Ymmlblblbl11212111Ymmlblblbl22222121mYmmmmmlblblbl2211)(mmXbXbXbYb2211010方程的求解过程复杂,可借助于SPSS、SAS等统计软件来完成SPSS:AnalyzeRegressionLinear regressiondependent:y independent:x1-x5SAS程序:PROC REG DATA=mr15-1; MODEL y=x1-x5; RUN;11例例15.1:P210SPSS的分析结果的分析结果C Co oe ef ff fi ic ci ie en nt ts sa a8.429.60713.893.000.126.096.1121.305.201.044.008.4765.693.000.057.009.4346.491.000.032.006.4315.048.000-.017.013-.105-1.318.196(Constant)x1x2x3x4x5Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 12二、多元回归方程的假设检验二、多元回归方程的假设检验回归方程是否成立?回归方程是否成立?各偏回归系数是否等于各偏回归系数是否等于0 0?131.1.多元线性回归方程的假设检验:多元线性回归方程的假设检验:方差分析法:SSSS总总 = SS= SS回回 + SS+ SS残残01211 12 2:0 :(1,2,)0 / /1miYYm mYHHimSSblb lb lSSSSSSSSmMSFSSnmMS回总回残回回残残不全为()14A AN NO OV VA Ab b48.75059.75042.028.000a7.88834.23256.63739RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x5, x3, x1, x2, x4a. Dependent Variable: yb. 152.2.偏回归系数的假设检验偏回归系数的假设检验 方差分析法、t检验法方差分析法:1212()/1iSS XFSS残n-m-1SS(XSS(Xi) )为第为第i i个自变量的偏回归平方和个自变量的偏回归平方和16偏回归平方和偏回归平方和:SS(X:SS(Xi),),表示模型中含有其它表示模型中含有其它m-1m-1个自变量的条件下该自变量对个自变量的条件下该自变量对Y Y的回归贡献,的回归贡献,相当于从回归方程中剔除该自变量后回归平方相当于从回归方程中剔除该自变量后回归平方和的减少量,或者在和的减少量,或者在m-1m-1个自变量的基础上增个自变量的基础上增加一个自变量后回归平方和的增加量。加一个自变量后回归平方和的增加量。注意:注意:m-1m-1个自变量对个自变量对y y的回归平方和由的回归平方和由m-1m-1个个自变量对自变量对y y重新建立回归方程后计算得到,而重新建立回归方程后计算得到,而不能简单的在整个方程的基础上把不能简单的在整个方程的基础上把b bi il liyiy去掉后去掉后得到。得到。17各偏回归平方和各偏回归平方和SS(Xi i)及残差的计算)及残差的计算回归方程中包含的回归方程中包含的自变量自变量SSSS回回SSSS(X Xi i)X X1 1 X X2 2 X X3 3 X X4 4 X X5 5SS总X X2 2 X X3 3 X X4 4 X X5 5SS-1SS总 SS-1X X1 1 X X3 3 X X4 4 X X5 5SS-2SS总 SS-2X X1 1 X X2 2 X X4 4 X X5 5SS-3SS总 SS3X X1 1 X X2 2 X X3 3 X X5 5SS-4SS总 SS4X X1 1 X X2 2 X X3 3 X X4 4SS-5SS总 SS5182.2.偏回归系数的假设检验偏回归系数的假设检验 t检验法:iiibbts n-m-119SPSS的结果的结果C Co oe ef ff fi ic ci ie en nt ts sa a8.429.60713.893.000.126.096.1121.305.201.044.008.4765.693.000.057.009.4346.491.000.032.006.4315.048.000-.017.013-.105-1.318.196(Constant)x1x2x3x4x5Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 203.3.标准化偏回归系数标准化偏回归系数对各数据进行标准化后求得的回归方程即标准对各数据进行标准化后求得的回归方程即标准化回归方程,其相应的偏回归系数即标准化偏化回归方程,其相应的偏回归系数即标准化偏回归系数。回归系数。标准化偏回归系数和偏回归系数的关系:标准化偏回归系数和偏回归系数的关系:iiiiiiyyylsbbbls在有统计学意义的前提下,在有统计学意义的前提下,标准化偏回归系数绝对值绝对值的大小可直接进行比较,以衡量自变量对应变量的作的大小可直接进行比较,以衡量自变量对应变量的作用大小用大小例:见例:见P213214.4.复相关系数复相关系数复相关系数:multiple correlation coefficient衡量因变量y与回归方程内所有自变量线性组合间相关关系的密切程度,也即Y与 之间的相关系数。R 其值在0与1之间2SSRRSS回总Y如果只有一个自变量,此时|r|R 22 R2称为称为决定系数决定系数表明回归平方和在总平表明回归平方和在总平方和中所占的比重。方和中所占的比重。R2越接近于越接近于1,说明引入,说明引入方程的自变量与因变量的相关程度越高,方程的自变量与因变量的相关程度越高,Xi与与y的回归效果越好。的回归效果越好。 R2受自变量个数的影响,由此又提出受自变量个数的影响,由此又提出校校正决定系数正决定系数,既反映模型的拟和优度,又同时,既反映模型的拟和优度,又同时考虑了模型中的自变量个数。考虑了模型中的自变量个数。2211 (1)1adjnRRnm 23Model SummaryModel Summaryb b.928a.861.840.48165Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x5, x3, x1, x2, x4a. Dependent Variable: yb. 24三、选择最优回归方程的方法三、选择最优回归方程的方法1.1.最优回归方程最优回归方程 : 1)对y的作用有统计学意义的自变量,全部选入回归方程 2)对y的作用没有统计学意义的自变量,一个也不引入回归方程 252.2.方法:方法:1)最优子集回归法:又称求出所有可能的回归模型(共有2m1个)选取最优者2)向后剔除法(backward selection)3)向前引入法(forward selection)4)逐步回归法(stepwise regression)26自变量回归平方和最大的自变量回归平方和最大的X Xi i首先进入方程,在首先进入方程,在X Xi i进入方程的基础上计算其余进入方程的基础上计算其余m-1m-1个自变量分个自变量分别进入回归方程时的偏回归平方和,其中最大别进入回归方程时的偏回归平方和,其中最大者记为者记为SSSSj j,对,对X Xj j进行检验,若有意义则进入方进行检验,若有意义则进入方程,并重新对程,并重新对X Xi i进行检验。若进行检验。若X Xi i退化为无意义退化为无意义,则剔除,则剔除X Xi i,同时再对,同时再对X Xj j进行检验。若进行检验。若X Xj j依然依然有意义则继续选择下一个偏回归平方和最大者有意义则继续选择下一个偏回归平方和最大者并进行检验。重复此过程。并进行检验。重复此过程。27每每引入或剔除一个自变量后都要引入或剔除一个自变量后都要重新重新对已进对已进入方程中的自变量进行检验,直到方程外没入方程中的自变量进行检验,直到方程外没有有意义的自变量可引入、方程内也没有无有有意义的自变量可引入、方程内也没有无意义的自变量可剔除为止意义的自变量可剔除为止 。28双向筛选 ;引入一个有意义变量(前进法)的同时,剔除无意义的变量(后退法) “先剔除后选入”原则 入和出可等可不等 注意,引入变量的检验水准要小于或等于剔除变量的检验水准。29Variables Entered/RemovedVariables Entered/Removeda ax2.Stepwise(Criteria:Probability-of-F-to-enter= .100).x3.Stepwise(Criteria:Probability-of-F-to-enter= .100).x4.Stepwise(Criteria:Probability-of-F-to-enter= .100).Model123VariablesEnteredVariablesRemovedMethodDependent Variable: ya. 30CoefficientsCoefficientsa a12.546.25249.858.000.063.011.6765.648.0008.000.8049.953.000.064.008.6857.818.000.067.011.5095.810.0008.202.60213.621.000.048.007.5217.230.000.060.009.4576.904.000.029.005.3995.493.000(Constant)x2(Constant)x2x3(Constant)x2x3x4Model123BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 31Model SummaryModel Summaryd d.676a.456.442.90018.846b.716.700.65967.919c.845.832.49326Model123RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x2a. Predictors: (Constant), x2, x3b. Predictors: (Constant), x2, x3, x4c. Dependent Variable: yd. 32ANOVAANOVAd d25.845125.84531.895.000a30.79238.81056.6373940.536220.26846.576.000b16.10137.43556.6373947.878315.95965.594.000c8.75936.24356.63739RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x2a. Predictors: (Constant), x2, x3b. Predictors: (Constant), x2, x3, x4c. Dependent Variable: yd. 33四、多元线性回归的应用四、多元线性回归的应用1.1.影响因素分析影响因素分析: :年龄年龄(X1)饮食习惯饮食习惯(X2)吸烟状况吸烟状况(X3)工作紧张度工作紧张度(X4)家族史家族史(X5) 高血压高血压(Y)342.2.估计与预测估计与预测: :心脏表面积心脏表面积(Y)=b(Y)=b0 0+b+b1 1心脏横径心脏横径(X(X1 1)+ b)+ b2 2心脏心脏纵径纵径(X(X2 2)+ b)+ b3 3心脏宽径心脏宽径(X(X3 3) )新生儿体重新生儿体重(Y)=b(Y)=b0 0+b+b1 1胎儿孕龄胎儿孕龄(X(X1 1)+ b)+ b2 2 胎儿胎儿头径头径(X(X2 2)+ b)+ b3 3胎儿胸径胎儿胸径(X(X3 3)+ b)+ b4 4胎儿腹径胎儿腹径(X(X4 4) )353.3.统计控制统计控制: :利用回归方程进行逆估计,确定利用回归方程进行逆估计,确定Y Y后控制后控制X X 。采用射频治疗仪治疗脑肿瘤:采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径脑皮质毁损半径(Y) =b0+b1射频温度射频温度(X1)+ b2照射时间照射时间(X2)36五、多元线性回归应用的注意事项五、多元线性回归应用的注意事项1.1.指标的数量化指标的数量化 应变量应变量Y Y为连续变量为连续变量自变量自变量X X可为连续、有序分类或无序分类变量可为连续、有序分类或无序分类变量 (1)(1)连续变量:连续变量:X X (2) (2)有序分类变量:有序分类变量: 1 1 轻轻 X= 2 X= 2 中中 3 3 重重37(3)(3)无序分类变量无序分类变量自变量为二分类变量自变量为二分类变量: :自变量为多分类变量:假定有自变量为多分类变量:假定有n n类,则用类,则用n n1 1个个取值为取值为0 0或或1 1的哑变量(的哑变量(dummy dummy variables)variables)来表示这些类别。来表示这些类别。X=0 男1 女382.2.样本含量:样本含量: n n至少是至少是X X个数个数mm的的5 51010倍倍3.3.关于逐步回归:关于逐步回归: 不要盲目信任,结合专业知识。不要盲目信任,结合专业知识。4.4.多重共线性:多重共线性:指自变量之间存在较强的线性关系指自变量之间存在较强的线性关系 使偏回归系数方差加大,系数估计不稳,使偏回归系数方差加大,系数估计不稳,难以有合乎专业知识的解释。难以有合乎专业知识的解释。39提示可能存在多重共线性的情况:提示可能存在多重共线性的情况: 整个模型的检验结果为整个模型的检验结果为PPP。 专业上认为应该有统计学意义的自变量检专业上认为应该有统计学意义的自变量检验结果却无统计学意义。验结果却无统计学意义。 自变量的偏回归系数取值大小甚至符号明自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释。显与实际情况相违背,难以解释。 增加或删除一个自变量或一条记录,自变增加或删除一个自变量或一条记录,自变量回归系数发生较大变化。量回归系数发生较大变化。40容忍度容忍度: :若某变量的容忍度若某变量的容忍度0.10.1时,说明该时,说明该变量与其它变量存在严重的多重共线性。变量与其它变量存在严重的多重共线性。CoefficientsCoefficientsa a8.429.60713.893.000.126.096.1121.305.201.5581.793.044.008.4765.693.000.5851.708.057.009.4346.491.000.9151.093.032.006.4315.048.000.5621.780-.017.013-.105-1.318.196.6471.545(Constant)x1x2x3x4x5Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearity StatisticsDependent Variable: ya. 21jRTolerance方差膨胀因子(方差膨胀因子(VIFVIF): :为容忍度的倒数。为容忍度的倒数。VIF10VIF10时,存在严重的多重共线性时,存在严重的多重共线性Rj为第j个自变量与其它自变量间的相关系数多重共线性的判断指多重共线性的判断指标标41条件指数条件指数: :条件指数条件指数1010,则提示存在多重共线性。,则提示存在多重共线性。Collinearity DiagnosticsCollinearity Diagnosticsa a4.8341.000.00.01.01.00.01.01.4393.317.01.00.01.01.10.33.3903.522.01.40.04.00.00.09.1835.137.00.00.22.00.73.38.1455.769.00.52.66.00.16.19.00824.522.99.07.07.98.00.00Dimension123456Model1EigenvalueConditionIndex(Constant)x1x2x3x4x5Variance ProportionsDependent Variable: ya. 方差比方差比: :如两个或多个变量的方差比均如两个或多个变量的方差比均0.50.5,说明这,说明这几个自变量之间存在多重共线性几个自变量之间存在多重共线性jjhmax多重共线性的判断指多重共线性的判断指标标425.变量间的交互作用: 是否考虑交互作用主要靠专业知识6.残差分析检查资料是否符合模型条件消除共线性的方法:剔除、定义新变量、逐步回归