多元线性回归分析范例(共4页).doc
精选优质文档-倾情为你奉上 国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,其中自变量单位为亿元人民币。即样本量n=31,变量p=12。 利用SPSS软件对数据进行处理,输出:图1 输入/移除变量图1即输入了所有模型中的变量,分别为 x1:农林牧渔服务业 x2:地质勘查水利管理业 x3:交通运输仓储和邮电通信业 x4:批发零售贸易和餐饮业 x5:金融保险业 x6:房地产业 x7:社会服务业 x8:卫生体育和社会福利业 x9:教育文化艺术和广播 x10:科学研究和综合艺术 x11:党政机关 x12:其他行业图2 模型概述 即回归方程对样本观测值的拟合程度,复相关系数R=0.875,决定系数R2=0.935。由决定系数接近1,得出回归拟合的效果较好,但是并不能作为严格的显著性检验。由R2决定模型优劣时需慎重,尤其是样本量与自变量个数接近时。图3 回归方程显著性的F检验F=10.482,F(n,n-p-1)=F(30,18)=2.11(=0.05),P值=0.000,表明回归方程高度显著,即12个自变量整体对因变量y产生显著线性影响。但是并不能说明回归方程中所有自变量都对因变量y有显著影响,因此还要对回归系数进行检验。图4 回归系数的显著性t检验(t0.05(20)=1.725)y对12个自变量的线性回归方程为:但是,负的回归系数显然是不合理的,其原因可能是自变量之间的共线性。所以这一回归方程并不理想,所选自变量数目过多,部分回归系数的显著性检验不能通过,这就是样本量个数n太小,而自变量个数p又较多造成R2虚假现象。如果样本量再稍作改变,未知参数就会发生较大变化,即表现出很不稳定的状况。 在一元线性回归中,回归系数显著性的t检验与回归方程显著性的F检验是等价的,而在多元线性回归中,这两种检验是不等价的,某个或某几个自变量的系数不显著,回归方程显著性的F检验仍可能是显著的,即F检验只说明自变量整体对因变量y产生显著线性影响。图5相关系数阵和协方差阵 由图可知部分自变量自身的方差较大,与其他自变量之间也存在较明显的相关关系。所以这一回归方程并不理想,所选自变量数目过多,部分回归系数的显著性检验不能通过,在一定程度上说明它们对应的自变量在回归方程中可有可无,为使模型简化,需剔除不显著的自变量,重新建立回归方程。但应用后退法剔除多余变量。当有多个自变量对因变量y无显著影响时,由于自变量之间的交互作用,不能一次剔除掉所有不显著的变量。原则上每次只剔除一个变量,先剔除其中t的绝对值最小的(或p值最大的)一个变量,然后再对求得的新回归方程进行检验,有不显著的变量再剔除,直到保留的变量对y有显著影响为止。也可以根据对问题的定性分析选择t值较小的变量先剔除。下面是剔除多余变量后的回归方程及回归诊断剔除顺序为x1,x2,x12,x4,x7,x6,x5,中间过程省略 t0.05(25)=1.708,即后退法终止。修正后,y对自变量的线性回归方程为:x3交通运输仓储和邮电通信业 x8卫生体育和社会福利业 x9教育文化艺术和广播x10科学研究和综合艺 x11党政机关 专心-专注-专业