应用回归分析第七章复习资料.docx
第七章 岭回来1. 岭回来估计是在什么状况下提出的?答:当说明变量间出现严峻的多重共线性时,用一般最小二乘法估计模型参数,往往参数估计方差太大,使一般最小二乘法的效果变得很不志向,为了解决这一问题,统计学家从模型和数据的角度考虑,接受回来诊断和自变量选择来克制多重共线性的影响,这时,岭回来作为一种新的回来方法被提出来了。2. 岭回来估计的定义及其统计思想是什么?答:一种改良最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,X'X0时,我们设想给X'X加上一个正常数矩阵(k>0),那么X' 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算便利,标准化后的设计阵照旧用X表示,定义为 ,称为的岭回来估计,其中k称为岭参数。3. 选择岭参数k有哪几种主要方法?答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。4. 用岭回来方法选择自变量应遵从哪些根本原那么?答:用岭回来方法来选择变量应遵从的原那么有:1在岭回来的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以干脆比拟标准化岭回来系数的大小,我们可以剔除掉标准化岭回来系数比拟稳定且确定值很小的自变量。2当k值较小时标准化岭回来系数的确定值并不是很小,但是不稳定,随着k的增加快速趋于零。像这样的岭回来系数不稳定,振动趋于零的自变量,我们也可以予以删除。3去掉标准化岭回来系数很不稳定的自变量,假如有假设干个岭回来系数不稳定,终究去掉几个,去掉哪几个,这并无一般原那么可循,这需依据去掉某个变量后重新进展岭回来分析的效果来确定。5. 对第5章习题9的数据,逐步回来的结果只保存了3个自变量x1,x2,x5,用y对这3个自变量做岭回来分析。答: 依题意,对逐步回来法所保存的三个自变量做岭回来分析。程序为:'C: '. x1 x2 x510.01.岭迹图如下:计算结果为:可以看到,变量x1, x2快速由负变正,x5快速减小,在0.01-0.1之间各回来系数的岭估计根本稳定,重新做岭回来。岭迹图如下:先取8:语法叮嘱如下:'C: '. x1 x2 x50.08.运行结果如下:得到回来方程为:再取1:语法叮嘱如下:'C: '. x1 x2 x51.运行结果:* k = 0.01 * R .9931857 .9864179 .9840210 3.1 44733947 F F 411.5487845 .0000000 B (B) (B)x1 .0556780 .0615651 .0981355 .9043751回来方程为: 从上表可看出,方程通过F检验,R检验,经查表,全部自变量均通过t检验,说明回来方程通过检验。从经济意义上讲,x1农业增加值, x2工业增加值x5社会消费总额的增加应当对y财政收入有正方向的影响,岭回来方程中三个自变量的系数均为正值,及实际的经济意义相符。比逐步回来法得到的方程有合理说明。6.对习题3.12的 问题,分别用一般最小二乘和岭回来建立对第二产业增加值x2,和第三产业增加值x3的二元线性回来,说明所得到的回来系数?答:1一般最小二乘法:依据上表得到y及x2,x3的线性回来方程为:上式中的回来系数得不到合理的说明. 的数值应当大于1,事实上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的的数值应大于1。这个问题产生的缘由照旧是存在共线性, 所以接受岭回来来改良这个问题。2岭回来法:程序为:'C: '. x2 x30.01.依据岭迹图如下列图可知,和很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取0.1,输出结果为: R .998145, .996294 .995677, F F 1613.140715 .000000 B (B) (B)得岭参数0.1时,岭回来方程为 = 6 x2 x3,得岭参数0.01时,岭回来方程为 x2 x3,及一般最小二乘回来方程相差很大。岭回来系数=1.227及前面的分析是吻合的,其说明是当第二产业增加值x2保持不变时,第三产业增加值 x3每增加1亿元增加1.227亿元,这个说明是合理的。7.一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,为弄清楚不良贷款形成的缘由,渴望利用银行业务的有关数据做些定量分析,以便找出限制不良贷款的方法,表7.5是该银行所属25家分行2002年的有关业务数据。(1) 计算y及其余四个变量的简洁相关系数。(2) 建立不良贷款y对4个自变量的线性回来方程,所得的回来系数是否合理?(3) 分析回来模型的共线性。(4) 接受后退法和逐步回来法选择变量,所得回来方程的回来系数是否合理,是否还存在共线性?(5) 建立不良贷款y对4个自变量的岭回来。(6) 对第4步剔除变量后的回来方程再做岭回来。(7) 某探讨人员渴望做y对各项贷款余额,本年累计应收贷款.贷款工程个数这三个变量的回来,你认为这种做是否可行,假如可行应当如何做?相关性不良贷款y各项贷款余额x1本年累计应收到款x2贷款工程个数x3本年固定资产投资额x4 相关性不良贷款y.844.732.700.519各项贷款余额x1.844.679.848.780本年累计应收到款x2.732.679.586.472贷款工程个数x3.700.848.586.747本年固定资产投资额x4.519.780.472.747. 单侧不良贷款y.000.000.000.004各项贷款余额x1.000.000.000.000本年累计应收到款x2.000.000.001.009贷款工程个数x3.000.000.001.000本年固定资产投资额x4.004.000.009.000.N不良贷款y2525252525各项贷款余额x12525252525本年累计应收到款x22525252525贷款工程个数x32525252525本年固定资产投资额x42525252525系数a模型非标准化系数标准系数t.共线性统计量B标准 误差试用版容差1(常量).782.206各项贷款余额x1.040.010.891.001.188本年累计应收到款x2.148.079.260.075.529贷款工程个数x3.015.083.034.175.863.261本年固定资产投资额x4.015.067.360a. 因变量: 不良贷款y共线性诊断a模型维数特征值条件索引方差比例(常量)各项贷款余额x1本年累计应收到款x2贷款工程个数x3本年固定资产投资额x411.01.00.01.00.002.203.68.03.02.01.093.157.16.00.66.01.134.066.00.09.20.36.725.036.15.87.12.63.05a. 因变量: 不良贷款y后退法得系数a模型非标准化系数标准系数t.B标准 误差试用版1(常量).782.206各项贷款余额x1.040.010.891.001本年累计应收到款x2.148.079.260.075贷款工程个数x3.015.083.034.175.863本年固定资产投资额x4.015.0672(常量).711.186各项贷款余额x1.041.009.914.000本年累计应收到款x2.149.077.261.066本年固定资产投资额x4.014.0583(常量).697.531各项贷款余额x1.050.007.000本年固定资产投资额x4.015.044a. 因变量: 不良贷款y逐步回来得系数a模型非标准化系数标准系数t.B标准 误差试用版1(常量).723.263各项贷款余额x1.038.005.844.0002(常量).697.531各项贷款余额x1.050.007.000本年固定资产投资额x4.015.044a. 因变量: 不良贷款y K K x1 x2 x3 x4 .55000 .70816 .336222 .259906 .166692 .005882.60000 .70223 .324683 .254757 .166113 .013112.65000 .69649 .314330 .249777 .165331 .019387.70000 .69093 .304959 .244973 .164397 .024860.75000 .68552 .296414 .240345 .163346 .029654.80000 .68024 .288571 .235891 .162207 .033870.85000 .67508 .281331 .231605 .161000 .037587.90000 .67003 .274614 .227480 .159743 .040874.95000 .66508 .268353 .223510 .158448 .0437871.0000 .66022 .262494 .219687 .157127 .046373 :* k = 0.4 * R .802353780 .643771588 .611387187 F F 19.87906417 .00001172 B (B) (B)x4 .004531316 .007867533 .050434658 .575951348 .357087614 .741566536 .000000000 .481531456 Y对x1 x2 x3 做岭回来 :* k = 0.4 * R .850373821 .723135635 .683583583 F F 18.28313822 .00000456 B (B) (B) 由图及表可知,1y 及x1 x2 x3 x4 的相关系数分别为0.844,0.732,0.700,0.519.(2) y对其余四个变量的线性回来方程为 由于的系数为负,说明存在共线性,固所得的回来系数是不合理的。(3) 由于条件数=11.25>10,说明存在较强的共线性。(4) 由上表可知由后退法和逐步回来法所得到的线性回来方程为 由于的系数为负,说明照旧存在共线性。(5) Y对其余四个自变量的岭回来如上表所示。(6) 选取岭参数0.4,得岭回来方程,回来系数都能有合理的说明。(7) 用y对x1 x2 x3 做岭回来,选取岭参数0.4,岭回来方程为回来系数都能有合理的说明,由 B / (B) 得近似的t值可知,x1 x2 x3 都是显著的,所以y对x1 x2 x3的岭回来是可行的。