应用回归分析第7章课后习题参考复习资料.docx
第7章 岭回来思索及练习参考答案7.1 岭回来估计是在什么状况下提出的?答:当自变量间存在复共线性时,XX0,回来系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回来得到合理的结果,70年头提出了岭回来( ,简记为)。7.2岭回来的定义及统计思想是什么?答:岭回来法就是以引入偏误为代价减小参数估计量的方差的一种回来方法,其统计思想是对于XX-1为奇异时,给XX加上一个正常数矩阵D, 那么X接近奇异的程度就会比XX接近奇异的程度小得多,从而完成回来。但是这样的回来必定丢失了信息,不满足。但这样的代价有时是值得的,因为这样可以获得及专业学问相一样的结果。7.3 选择岭参数k有哪几种方法?答:最优是依靠于未知参数和的,几种常见的选择方法是: 岭迹法:选择的点能使各岭估计根本稳定,岭估计符号合理,回来系数没有不符合经济意义的确定值,且残差平方和增大不太多;方差扩大因子法:,其对角线元是岭估计的方差扩大因子。要让;残差平方和:满足成立的最大的值。7.4 用岭回来方法选择自变量应遵循哪些根本原那么?答:岭回来选择变量通常的原那么是:1. 在岭回来的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以干脆比拟标准化岭回来系数的大小。我们可以剔除掉标准化岭回来系数比拟稳定且确定值很小的自变量;2. 当k值较小时,标准化岭回来系数的确定值并不很小,但是不稳定,随着k的增加快速趋近于零。像这样岭回来系数不稳定, 振动趋于零的自变量,我们也可以予以剔除;3. 去掉标准化岭回来系数很不稳定的自变量。假如有假设干个岭回来系数不稳定,终究去掉几个,去掉那几个,要依据去掉某个变量后重新进展岭回来分析的效果来确定。 7.5 对第5章习题9的数据,逐步回来的结果只保存了三个变量x1,x2,x5,用y对这三个自变量作岭回来分析?答: 附5.9 在探讨国家财政收入时,我们把财政收入按收入形式分为:各项税收收入, 企业收入, 债务收入, 国家能源交通重点建立收入, 根本建立贷款归还收入, 国家预算调整基金收入, 其他收入等。为了建立国家财政收入回来模型,我们以财政收入y亿元为因变量,自变量如下:x1为农业增加值亿元,x2为工业增加值亿元,x3为建筑业增加值亿元,x4为人口数万人,x5为社会消费总额亿元,x6为受灾面积万公顷。据中国统计年鉴获得19781998年共21个年份的统计数据,见表5.4P167。解:1逐步回来法回来方程为:但是回来系数的说明不合理。从经济意义上讲,x1农业增加值, x2工业增加值的增加应当对y财政收入有正方向的影响,然而回来方程中两个自变量的系数均为负值,明显及实际的经济意义不相符。同时,三个自变量的值均远大于10,说明回来方程照旧存在较强的多重共线性,逐步回来的方法并没有消退自变量之间的多重共线性。2岭回来法:依题意,对逐步回来法所保存的三个自变量做岭回来分析。程序为:'C: '. x1 x2 x510.01.岭迹图如下:计算结果为:可以看到,变量x1, x2快速由负变正,x5快速减小,各回来系数的岭估计根本稳定,重新做岭回来。岭迹图如下:先取8:语法叮嘱如下:'C: '. x1 x2 x50.08.运行结果如下:得到回来方程为:再取1:语法叮嘱如下:'C: '. x1 x2 x51.运行结果:* k = 0.01 * R .9931857 .9864179 .9840210 3.1 44733947 F F 411.5487845 .0000000 B (B) (B)x1 .0556780 .0615651 .0981355 .9043751回来方程为: 753.30580.05568x10.0796x20.1014x5从上表可看出,方程通过F检验,R检验,经查表,全部自变量均通过t检验,说明回来方程通过检验。从经济意义上讲,x1农业增加值, x2工业增加值x5社会消费总额的增加应当对y财政收入有正方向的影响,岭回来方程中三个自变量的系数均为正值,及实际的经济意义相符。比逐步回来法得到的方程有合理说明。(3)主成分回来对原全部自变量做主成分回来,结果如下: 由于第一主成分的奉献率已到达85%以上,故只选取第一主成分,记作Z1:Z1=1/2,作Y及Z1的最小二乘估计,输出结果如下:依据上表得到y及第一主成分的线性回来方程为:=Z1,将主成分回代为原自变量得最终方程为:=各自变量的说明意义根本合理。 对习题3.12的问题,分别用一般最小二乘法和岭回来建立对第二产业增加值x2和第三产业增加值x3的二元线性回来,说明所得到的回来系数。解:1一般最小二乘法:依据上表得到y及x2,x3的线性回来方程为:上式中的回来系数得不到合理的说明. 的数值应当大于1,事实上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的的数值应大于1。这个问题产生的缘由照旧是存在共线性, 所以接受岭回来来改良这个问题。2岭回来法:程序为:'C: '. x2 x30.01.依据岭迹图如下列图可知,和很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取0.1,输出结果为: R .998145, .996294 .995677, F F 1613.140715 .000000 B (B) (B)得岭参数0.1时,岭回来方程为 = 6+0.908 x2+1.3938 x3,1时,岭回来方程为 = +1.091 x227 x3,及一般最小二乘回来方程相差很大。岭回来系数=1.227及前面的分析是吻合的,其说明是当第二产业增加值x2保持不变时,第三产业增加值 x3每增加1亿元增加1.227亿元,这个说明是合理的。7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的缘由,渴望利用银行业务的有关数据做定量分析,以便找出限制不良贷款的方法。表7.5P206是该银行所属25家分行2002年的有关业务数据。1计算y及其余4个变量的简洁相关系数。2建立不良贷款y对4个自变量的线性回来方程,所得的回来系数是否合理?3分析回来模型的共线性。4接受后退法和逐步回来法选择变量,所得的回来系数是否合理?是否还存在共线性?5建立不良贷款y对4个变量的岭回来。6对4剔除变量后的回来方程再做岭回来。7某探讨人员渴望做y对各项贷款余额, 本年累计应收贷款, 贷款工程个数这3个自变量的回来,你认为这样做可行吗?假如可行应怎么做?解:首先对数据标准化。1计算及其余4个变量的简洁相关系数。计算y及各自变量之间的简洁相关系数,输出结果为:由结果得到,Y及四个自变量的相关系数分别为:0.844, 0.732, 0.7, 0.519,且都通过了显著性检验,说明及其余4个变量是显著线性相关的。同时也可以看出变量之间也存在确定的线性相关性。2建立不良贷款对4个自变量的线性回来方程,所得的回来系数是否合理?由输出如上表可知回来方程为:从上表可看出,方程的自变量X3, X4, X5未通过t检验,说明回来方程不显著,而且由实际意义动身,x4的系数不能是负的。所以所得的回来系数不合理。3分析回来模型的共线性。解:由上表可知,全部自变量对应的全部小于10,所以自变量之间不存在共线性。但进展特征根检验见下表:由这个表可以看出来,第5行中x1, x3的系数分别为0.87, 0.63,可以说明这两个变量之间有共线性。4接受后退法和逐步回来法选择变量,所得的回来系数是否合理?是否还存在共线性?解:接受后退法见下表,所得回来方程为接受逐步回来法见下表,所得回来方程为=0.05x1-0.032x4-0.443 所得X4的系数不合理为负,说明存在共线性5建立不良贷款y对4个变量的岭回来。对y及全部变量做岭回来。C K K X1 X2 X3 X4 .55000 .70816 .336222 .259906 .166692 .005882.60000 .70223 .324683 .254757 .166113 .013112.65000 .69649 .314330 .249777 .165331 .019387.70000 .69093 .304959 .244973 .164397 .024860.75000 .68552 .296414 .240345 .163346 .029654.80000 .68024 .288571 .235891 .162207 .033870.85000 .67508 .281331 .231605 .161000 .037587.90000 .67003 .274614 .227480 .159743 .040874.95000 .66508 .268353 .223510 .158448 .0437871.0000 .66022 .262494 .219687 .157127 .046373C由软件输出的岭迹图可以看出,变量x4的岭回来系数从负值变为正值。其他的变量都很稳定。说明x4变量及其他变量存在多重共线性,所以剔除变量x4再用y及剩下的变量作岭回来。所得结果如下: K K X1 X2 X3 .04000 .75755 .607949 .302710 .006875.06000 .75574 .575733 .303774 .031943.08000 .75377 .549026 .303916 .052255.10000 .75175 .526452 .303409 .068986.12000 .74972 .507060 .302439 .082951.14000 .74771 .490172 .301133 .094736.16000 .74571 .475288 .299581 .104772.18000 .74375 .462036 .297852 .113383.20000 .74181 .450130 .295992 .120819C剔除x4之后岭回来系数变更幅度减小很多,并且有下面的图可以看出k值,根本稳定。参照复确定系数,当0.4时,=0. 75755照旧很大,所以可以给定0.4,重新作岭回来。 :* k = 0.4 * R .850373821 .723135635 .683583583 F F 18.28313822 .00000456 B (B) (B) 故作岭回来后的方程为0.819486727+0.016739073x1+0.156806656x2+0.067110931x36 对4剔除变量后的回来方程再做岭回来。取0.4,作及x1, x4的岭回来 :* k = 0.4 * R .802353780 .643771588 .611387187 2.249999551 F F 19.87906417 .00001172 B (B) (B)x4 .004531316 .007867533 .050434658 .575951348 .357087614 .741566536 .000000000 .481531456 可得岭回来方程为0.357087614+0 .025805860x1+0.004531316x4从实际意义来看,各个系数都能有合理说明。7某探讨人员渴望做,你认为这样做可行吗?假如可行应怎么做?y对各项贷款余额, 本年累计应收贷款, 贷款工程个数这3个自变量的回来方程见5。方程中系数均能合理说明。由(B)这个近似t值可以看出变量都是比拟显著的。所以作y对x1, x2, x3的岭回来是可行的。主成分回来法:见做主成分分析下表,取前两个主成分,记为z12,其中:z1=(0.95x1+0.767x2+0.916x3+0.862x4)/Z2=(-0.029x1+0.627x2-0.143x3-0.373x4 )/建立y及Z12的回来方程