计量经济学多元线性回归多重共线性异方差实验报告22681.pdf
计量经济学实验报告 多元线性回归、多重共线性、异方差实验报告 一、研究目的和要求:随着经济的发展,人们生活水平的提高,旅游业已经成为中国社会新的经济增长点。旅游产业是一个关联性很强的综合产业,一次完整的旅游活动包括吃、住、行、游、购、娱六大要素,旅游产业的发展可以直接或者间接推动第三产业、第二产业和第一产业的发展。尤其是假日旅游,有力刺激了居民消费而拉动内需。2012 年,我国全年国内旅游人数达到亿人次,同比增长%,国内旅游收入万亿元,同比增长%。旅游业的发展不仅对增加就业和扩大内需起到重要的推动作用,优化产业结构,而且可以增加国家外汇收入,促进国际收支平衡,加强国家、地区间的文化交流。为了研究影响旅游景区收入增长的主要原因,分析旅游收入增长规律,需要建立计量经济模型。影响旅游业发展的因素很多,但据分析主要因素可能有国内和国际两个方面,因此在进行旅游景区收入分析模型设定时,引入城镇居民可支配收入和旅游外汇收入为解释变量。旅游业很大程度上受其产业本身的发展水平和从业人数影响,固定资产和从业人数体现了旅游产业发展规模的内在影响因素,因此引入旅游景区固定资产和旅游业从业人数作为解释变量。因此选取我国 31 个省市地区的旅游业相关数据进行定量分析我国旅游业发展的影响因素。二、模型设定 根据以上的分析,建立以下模型 Y=0+1X1+2X2+3X3+4X4+Ut 参数说明:Y 旅游景区营业收入/万元 X1旅游业从业人员/人 X2旅游景区固定资产/万元 X3旅游外汇收入/万美元 X4城镇居民可支配收入/元 收集到的数据如下(见表):表 2011 年全国旅游景区营业收入及相关数据(按地区分)地 区 营业收入 从业人数 固定资产 外汇收入 可支配收入 北 京 145466 541600 天 津 24787 175553 河 北 79643 44765 山 西 57719 56719 内蒙古 36264 67097 辽 宁 64816 271314 吉 林 29066 38528 黑龙江 30341 91762 上 海 91106 575118 江 苏 140154 565297 浙 江 132459 454173 安 徽 55840 117918 福 建 80303 363444 江 西 41791 41500 山 东 143026 255076 河 南 70164 54903 湖 北 62767 94018 湖 南 80615 101434 广 东 226539 1390619 广 西 49876 105188 海 南 30759 37615 重 庆 50160 96806 四 川 70756 59383 贵 州 27683 13507 云 南 62679 160861 西 藏 6023 12963 陕 西 57077 129505 甘 肃 31280 1740 青 海 8741 2659 宁 夏 12196 620 新 疆 40451 46519 数据来源:1.中国统计年鉴 2012,2.中国旅游年鉴 2012。三、参数估计 利用做多元线性回归分析步骤如下:1、创建工作文件 双击图标,进入其主页。在主菜单中依次点击“FileNewWorkfile”,出现对话框“Workfile Range”。本例中是截面数据,在 workfile structure type 中选择“Unstructured/Undated”,在 Date range 中填入 observations 31,点击 ok 键,完成工作文件的创建。2、输入数据 在命令框中输入 data Y X1 X2 X3 X4,回车出现“Group”窗口数据编辑框,在对应的 Y X1 X2 X3 X4 下输入相应数据,关闭对话框将其命名为group01,点击 ok,保存。对数据进行存盘,点击“File/Save As”,出现“Save As”对话框,选择存入路径,并将文件命名,再点“ok”。3、参数估计 在命令框中键入“LS Y C X1 X2 X3 X4”,按回车键,即出现回归结果。利用估计模型参数,最小二乘法的回归结果如下:表 回归结果 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:14 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X1 X2 X3 X4 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)根据表中的样本数据,模型估计结果为 Y=+1+2+34 ()()()()()t=R2=R2=F=DW=可以看出,可决系数 R2=,修正的可决系数R2=。说明模型的拟合程度还可以。但是当=时,X1、X2、X4系数均不能通过检验,且 X4的系数为负,与经济意义不符,表明模型很可能存在严重的多重共线性。四、模型修正 1多重共线性的检验与修正(1)检验 选中 X1 X2 X3 X4 数据,点击右键,选择“Open/as Group”,在出现的对话框中选择“View/Covariance Analysis/correlation”,点击 ok,得到相关系数矩阵。计算各个解释变量的相关系数,得到相关系数矩阵。表 相关系数矩阵 变量 X1 X2 X3 X4 X1 X2 X3 X4 由相关系数矩阵可以看出,解释变量 X2、X3 之间存在较高的相关系数,证实确实存在严重的多重共线性。(2)多重共线性修正 采用逐步回归的办法,检验和回归多重共线性问题。分别作 Y 对 X1、X2、X3、X4 的一元回归,在命令窗口分别输入 LS Y C X1,LS Y C X2,LS Y C X3,LS Y C X4,并保存,整理结果如表所示。表 一元回归结果 变量 X1 X2 X3 X4 参数估计值 t 统计量 R2 2R 其中,X2 的方程2R最大,以 X2 为基础,顺次加入其它变量逐步回归。在命令窗口中依次输入:LS Y C X2 X1,LS Y C X2 X3,LS Y C X2 X4,并保存结果,整理结果如表所示。表 加入新变量的回归结果(一)变量 变量 X1 X2 X3 X4 2R X2,X1 X2,X3 X2,X4 ()经比较,新加入 X1 的方程2R=,改进最大,而且各个参数的 t 检验显着,选择保留 X1,再加入其它新变量逐步回归,在命令框中依次输入:LS Y C X2 X1 X3,LS Y C X2 X1 X4,保存结果,整理结果如表所示。表 加入新变量的回归结果(二)变量 变量 X1 X2 X3 X4 2R X2,X1,X3 X2,X1,X4 当加入 X3 或 X4 时,2R均没有所增加,且其参数是 t 检验不显着。从相关系数可以看出 X3、X4 与 X1、X2 之间相关系数较高,这说明 X3、X4 引起了多重共线性,予以剔除。当取=时,t/2(n-k-1)=,X1、X2 的系数 t 检验均显着,这是最后消除多重共线性的结果。修正多重共线性影响后的模型为 Y=X1+X2 ()()t=R2=2R=0.866053 F=DW=在确定模型以后,进行参数估计 表 消除多重共线性后的回归结果 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:47 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X1 X2 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)五、异方差检验 在实际的经济问题中经常会出现异方差这种现象,因此建立模型时,必须要注意异方差的检验,否则,在实际中会失去意义。(1)检验异方差 由表的结果,按路径“View/Residual Tests/Heteroskedasticity Tests”,在出现的对话框中选择 Specification:White,点击 ok.得到 White 检验结果如下。表 White 检验结果 Heteroskedasticity Test:White F-statistic Prob.F(5,25)Obs*R-squared Prob.Chi-Square(5)Scaled explained SS Prob.Chi-Square(5)Test Equation:Dependent Variable:RESID2 Method:Least Squares Date:11/14/13 Time:21:48 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C+09+09 X1 X12 X1*X2 X2 X22 R-squared Mean dependent var+09 Adjusted R-squared .dependent var+09.of regression+09 Akaike info criterion Sum squared resid+20 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)从上表可以看出,nR2=,由 White 检验可知,在=下,查2分布表,得临界值 205.0(5)=,比较计算的2统计量与临界值,因为 nR2=205.0(5)=,所以拒绝原假设,表明模型存在异方差。(2)异方差的修正 用WLS估计:选择权重w=1/e12,其中e1=resid。在命令窗口中输入 genr e1=resid,点回车键。在消除多重共线性后的回归结果(表的回归结果)对话框中点击Estimate/Options/Weithted LS/TSLS,并在Weight中输入1/e12,点确定,得到如下回归结果。表 用权数1/e12的回归结果 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:49 Sample:1 31 Included observations:31 Weighting series:1/E12 Coefficient Std.Error t-Statistic Prob.C X1 X2 Weighted Statistics R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)Unweighted Statistics R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Sum squared resid+10 Durbin-Watson stat 修正后的 White 检验为 在表的回归结果中,按路径“View/Residual Tests/Heteroskedasticity Tests”,在出现的对话框中选择 Specification:White,点击 ok.得到 White检验结果如下。表 修正后的White 检验结果 Heteroskedasticity Test:White F-statistic Prob.F(2,28)Obs*R-squared Prob.Chi-Square(2)Scaled explained SS Prob.Chi-Square(2)Test Equation:Dependent Variable:WGT_RESID2 Method:Least Squares Date:11/15/13 Time:20:29 Sample:1 31 Included observations:31 Collinear test regressors dropped from specification Coefficient Std.Error t-Statistic Prob.C WGT WGT2 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)从上表可知 nR2=205.0(5)=,证明模型中的异方差已经被消除了。异方差修正后的模型为 Y=+*+X2*t=(R2=2R=0.999837 F=DW=其中 X1*=1/e12*X1,X2*=1/e12*X2,e1=resid。六、自相关检验与修正(1)DW 检验 在显着性水平=,查 DW 表,当 n=31,k=2 时,得上临界值 du=,下临界值 dl=,DW=。因为 duDW4-du,所以模型不存在序列自相关。由图示法也可以看出随机误差项i不存在自相关。下图是残差及一阶滞后残差相关图。图 残差与其滞后一阶残差图(2)LM 检验 在表的回归结果中,按路径“View/Residual Tests/Serial Correlation LM Tests”,在出现的对话框中选择 Lags to include:1,点击 ok.得到 LM 检验结果如下。表 LM 检验结果 Breusch-Godfrey Serial Correlation LM Test:F-statistic Prob.F(1,27)Obs*R-squared Prob.Chi-Square(1)Test Equation:Dependent Variable:RESID Method:Least Squares Date:11/14/13 Time:21:50 Sample:1 31 Included observations:31 Presample missing value lagged residuals set to zero.Weight series:1/E12 CoefficieStd.Error t-Statistic Prob.nt C X1 X2 RESID(-1)Weighted Statistics R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)Unweighted Statistics R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Sum squared resid+10 Durbin-Watson stat 从上表可以看出,nR2=,由 LM 检验可知,在=下,查2分布表,得临界值 205.0(5)=,比较计算的2统计量与临界值,因为 nR2=F(2,28)=,应拒绝原假设,说明回归方程显着,即“旅游景区固定资产”、“旅游从业人员”等变量联合起来确实对“旅游景区营业收入”有显着影响。(3)t 检验:分别对H0:j=0(j=1,2),给定显着性水平=,查 t 分布表得自由度为 n-k-1=28 临界值 t/2(n-k-1)=。由表中数据可得,1、2对应的 t统计量分别为、,其绝对值均大于 t/2(n-k-1)=,这说明应该分别拒绝H0:j=0(j=1,2),也就是说,当在其他解释变量不变的情况下,解释变量“旅游景区固定资产”(X1)、“旅游从业人数”(X2)分别对被解释变量“旅游景区营业收入”(Y)影响显着。八、附录 以下是多重共线性参数估计 备表 1 对 X1回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:14 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X1 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+11 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表 2 对 X2回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:15 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X2 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表 3 对 X3回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:15 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X3 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+11 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表4 对X4回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:15 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X4 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+11 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表 5 对 X2、X1回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:15 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X2 X1 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表 6 对 X2、X3回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:15 Sample:1 31 Included observations:31 CoefficieStd.Error t-Statistic Prob.nt C X2 X3 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表 7 对 X2、X4回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:15 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X2 X4 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表 8 对 X2、X1、X3回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:15 Sample:1 31 Included observations:31 CoefficieStd.Error t-Statistic Prob.nt C X2 X1 X3 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)备表 9 对 X2、X1、X4回归分析 Dependent Variable:Y Method:Least Squares Date:11/14/13 Time:21:16 Sample:1 31 Included observations:31 Coefficient Std.Error t-Statistic Prob.C X2 X1 X4 R-squared Mean dependent var Adjusted R-squared .dependent var .of regression Akaike info criterion Sum squared resid+10 Schwarz criterion Log likelihood Hannan-Quinn criter.F-statistic Durbin-Watson stat Prob(F-statistic)