应用回归分析第七章答案(共17页).doc
精选优质文档-倾情为你奉上第七章 岭回归1. 岭回归估计是在什么情况下提出的?答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。2. 岭回归估计的定义及其统计思想是什么?答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,X'X0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计阵仍然用X表示,定义为 ,称为的岭回归估计,其中k称为岭参数。3. 选择岭参数k有哪几种主要方法?答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。4. 用岭回归方法选择自变量应遵从哪些基本原则?答:用岭回归方法来选择变量应遵从的原则有:(1)在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。(2)当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。(3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。5. 对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。答: 依题意,对逐步回归法所保留的三个自变量做岭回归分析。程序为:include'C:Program FilesSPSSEVALRidge regression.sps'.ridgereg dep=y/enter x1 x2 x5/start=0.0/stop=1/inc=0.01.岭迹图如下:计算结果为:可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:先取k=0.08:语法命令如下:include'C:Program FilesSPSSEVALRidge regression.sps'.ridgereg dep=y/enter x1 x2 x5/k=0.08.运行结果如下:得到回归方程为:再取k=0.01:语法命令如下:include'C:Program FilesSPSSEVALRidge regression.sps'.ridgereg dep=y/enter x1 x2 x5/k=0.01.运行结果:* Ridge Regression with k = 0.01 *Mult R .RSquare .Adj RSqu .SE 329. ANOVA table df SS MSRegress 3.000 Residual 17.000 .9 .58 F value Sig F 411. .-Variables in the Equation- B SE(B) Beta B/SE(B)x1 . . . .x2 . . . 3.x5 . . . 9.Constant 753. 121. . 6.回归方程为: y=753.3058-0.05568x10.0796x20.1014x5从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。6.对习题3.12的 问题,分别用普通最小二乘和岭回归建立GDP对第二产业增加值x2,和第三产业增加值x3的二元线性回归,解释所得到的回归系数?答:(1)普通最小二乘法:根据上表得到y与x2,x3的线性回归方程为:=4352.859+1.438x2+0.679x3上式中的回归系数得不到合理的解释. 的数值应该大于1,实际上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的的数值应大于1。这个问题产生的原因仍然是存在共线性, 所以采用岭回归来改进这个问题。(2)岭回归法:程序为:include'C:Program FilesSPSSEVALRidge regression.sps'.ridgereg dep=GDP/enter x2 x3/start=0.0/stop=0.5/inc=0.01.根据岭迹图(如下图)可知,和很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取k=0.1,SPSS输出结果为:Mult R ., RSquare .Adj RSqu .,SE 2364. ANOVA table df SS MSRegress 2.000 1.80E+010 9.02E+009Residual 12.000 .7 F value Sig F 1613. .-Variables in the Equation- B SE(B) Beta B/SE(B)x2 . . . 41.x3 1. . . 39.Constant 6552. 1278. . 5.得岭参数k=0.1时,岭回归方程为 = 6552.306+0.908 x2+1.3938 x3,得岭参数k=0.01时,岭回归方程为 = 3980.2+1.091 x2+1.227 x3,与普通最小二乘回归方程相差很大。岭回归系数=1.227与前面的分析是吻合的,其解释是当第二产业增加值x2保持不变时,第三产业增加值 x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。7.一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法,表7.5是该银行所属25家分行2002年的有关业务数据。(1) 计算y与其余四个变量的简单相关系数。(2) 建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?(3) 分析回归模型的共线性。(4) 采用后退法和逐步回归法选择变量,所得回归方程的回归系数是否合理,是否还存在共线性?(5) 建立不良贷款y对4个自变量的岭回归。(6) 对第4步剔除变量后的回归方程再做岭回归。(7) 某研究人员希望做y对各项贷款余额,本年累计应收贷款.贷款项目个数这三个变量的回归,你认为这种做是否可行,如果可行应该如何做?相关性不良贷款y各项贷款余额x1本年累计应收到款x2贷款项目个数x3本年固定资产投资额x4Pearson 相关性不良贷款y1.000.844.732.700.519各项贷款余额x1.8441.000.679.848.780本年累计应收到款x2.732.6791.000.586.472贷款项目个数x3.700.848.5861.000.747本年固定资产投资额x4.519.780.472.7471.000Sig. (单侧)不良贷款y.000.000.000.004各项贷款余额x1.000.000.000.000本年累计应收到款x2.000.000.001.009贷款项目个数x3.000.000.001.000本年固定资产投资额x4.004.000.009.000.N不良贷款y2525252525各项贷款余额x12525252525本年累计应收到款x22525252525贷款项目个数x32525252525本年固定资产投资额x42525252525系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)-1.022.782-1.306.206各项贷款余额x1.040.010.8913.837.001.1885.331本年累计应收到款x2.148.079.2601.879.075.5291.890贷款项目个数x3.015.083.034.175.863.2613.835本年固定资产投资额x4-.029.015-.325-1.937.067.3602.781a. 因变量: 不良贷款y共线性诊断a模型维数特征值条件索引方差比例(常量)各项贷款余额x1本年累计应收到款x2贷款项目个数x3本年固定资产投资额x4114.5381.000.01.00.01.00.002.2034.733.68.03.02.01.093.1575.378.16.00.66.01.134.0668.287.00.09.20.36.725.03611.215.15.87.12.63.05a. 因变量: 不良贷款y后退法得系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-1.022.782-1.306.206各项贷款余额x1.040.010.8913.837.001本年累计应收到款x2.148.079.2601.879.075贷款项目个数x3.015.083.034.175.863本年固定资产投资额x4-.029.015-.325-1.937.0672(常量)-.972.711-1.366.186各项贷款余额x1.041.009.9144.814.000本年累计应收到款x2.149.077.2611.938.066本年固定资产投资额x4-.029.014-.317-2.006.0583(常量)-.443.697-.636.531各项贷款余额x1.050.0071.1206.732.000本年固定资产投资额x4-.032.015-.355-2.133.044a. 因变量: 不良贷款y逐步回归得系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-.830.723-1.147.263各项贷款余额x1.038.005.8447.534.0002(常量)-.443.697-.636.531各项贷款余额x1.050.0071.1206.732.000本年固定资产投资额x4-.032.015-.355-2.133.044a. 因变量: 不良贷款y R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ x1 x2 x3 x4_ _ _ _ _ _.00000 .79760 . . . -.05000 .79088 . . . -.10000 .78005 . . . -.15000 .76940 . . . -.20000 .75958 . . . -.25000 .75062 . . . -.30000 .74237 . . . -.35000 .73472 . . . -.40000 .72755 . . . -.45000 .72077 . . . -.50000 .71433 . . . -.55000 .70816 . . . .60000 .70223 . . . .65000 .69649 . . . .70000 .69093 . . . .75000 .68552 . . . .80000 .68024 . . . .85000 .67508 . . . .90000 .67003 . . . .95000 .66508 . . . .1.0000 .66022 . . . .Run MATRIX procedure:* Ridge Regression with k = 0.4 *Mult R .RSquare .Adj RSqu .SE 2. ANOVA table df SS MSRegress 2.000 201.275 100.638Residual 22.000 111.375 5.062 F value Sig F 19. .-Variables in the Equation- B SE(B) Beta B/SE(B)x1 . . . 6.x4 . . . .Constant . . . .- END MATRIX -Y对x1 x2 x3 做岭回归Run MATRIX procedure:* Ridge Regression with k = 0.4 *Mult R .RSquare .Adj RSqu .SE 2. ANOVA table df SS MSRegress 3.000 226.089 75.363Residual 21.000 86.562 4.122 F value Sig F 18. .-Variables in the Equation- B SE(B) Beta B/SE(B)x1 . . . 4.x2 . . . 3.x3 . . . 2.Constant -. . . -1.- END MATRIX -由图及表可知,(1)y 与x1 x2 x3 x4 的相关系数分别为0.844,0.732,0.700,0.519.(2) y对其余四个变量的线性回归方程为 由于的系数为负,说明存在共线性,固所得的回归系数是不合理的。(3) 由于条件数=11.25>10,说明存在较强的共线性。(4) 由上表可知由后退法和逐步回归法所得到的线性回归方程为 由于的系数为负,说明仍然存在共线性。(5) Y对其余四个自变量的岭回归如上表所示。(6) 选取岭参数k=0.4,得岭回归方程,回归系数都能有合理的解释。(7) 用y对x1 x2 x3 做岭回归,选取岭参数k=0.4,岭回归方程为回归系数都能有合理的解释,由 B / SE(B) 得近似的t值可知,x1 x2 x3 都是显著的,所以y对x1 x2 x3的岭回归是可行的。专心-专注-专业