北航数理统计大作业(逐步回归).docx
北航数理统计大作业(逐步回归) 应用数理统计 第一次大作业学号: 姓名: 班级: B1 班215 年 12 月民航客运量得多元线性回来分析 摘要: : 本文为建立以民航客运量为因变量得多元线性回来模型,选取了 199年至03 年得统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件 SS对各因素进行了筛选分析,采纳逐步回来法得到最优多元线性回来模型,并对模型得回来显著性、拟合度以及随机误差得正态性进行了检验,并采纳 201年得数据进行检验,得到得结果达到预期,证明该模型建立就是较为胜利得. 关键词 :多元线性回来,逐步回来法,民航客运量 0 、 符号说明 变量符号民用航空客运量Y 国民生产总值X 铁路客运量X 2民航航线里程X 3入境 过夜 旅游人数X 4城镇居民人均可支配收入X 5、 引言 随着社会得进步,人民生活水平得提高,如何获得更快捷便利得交通成为人们日益关注得问题.因为航空得平安性,快速且价格水平越来越倾向大众,越来越多得人们选择航空这种交通方式。近年来,我国得航空客运量已经进入世界前列,为驾驭航空客运得动态,合理支配班机数量.科学地对我国民航客运量得影响因素得分析,并得出其回来方程,进而能够估计航空客运量就是特别有必要得。本文收集整理了与我国航空客运量相关得历年数据,运用 SPS 软件对数据进行分析,探讨 199年起至 203 年我国民航客运量 y(万人)与国民生产总值 X 1 (亿元)、铁路客运量 X (万人)、民航航线里程 3 (万公里)、入境过夜旅游人数X 4 (万人)、城镇居民人均可支配收入 X 5 (元)得关系。采纳逐步回来法建立线性模型,选出较优得线性回来模型。2 、数据得统计与分析 本文在进行统计时,查阅中国统计摘要,中国统计年鉴14以及中国知网数据查询中得数据,收集了 196 年至 201年各个自变量因素得数据,分析它们之间得联系。整理如表 1 所示。表 表 1 :年份 民航客运量(万人)国内生产总值(亿元) 铁路客运量(万人) 民航航线里程(万公里)入境过夜旅游人数(万人)城镇居民可支配收入(元)16 5555 973 479 16、5 1356、6 4838、 1997 560 844、3 30 4、 157、3 51、3 998 5755 967、 905 150、8 692、 54、1 19 694 847、 10016 152、2 176、5 554、1 24、 150 150、29 70、96 6280、 255、 105155 15、36 1880、36 6859、6 32、7 0560 163、7 202、 7702、8 22、8 260 74、95 203、58 847、2 2878、 11176 204、 2519、8 41、6 200、 1583 199、5 225、63 10493、1 206、4 5656 11、35 3486、45 1159、5 810、3 3567 23、3 338、8 13785、 045、 4693 26、 9、 580、8、1 模型得建立 以民航客运量 y 为因变量,以上 5 种影响因素为自变量 X i,构建回来方程:其中 为常数项, 为误差项。先视察自变量与因变量得关系,用 SPS得到各个自变量与因变量得散点图:图 图 1民航客运量与国内生产总值散点图 71 2506、9 121 234、51 4025、6 11、7 2983、5 168145 276、 753、8 19109、 21、05 494、3 18、 7、1 18937 32、0 566、 2456、7 245、2 20597 41、 562、9 26955、1 图 图 2民航客运量与铁路 客运量散点图图 民航客运量与航线里程散点图 图4民航客运量与入境 过夜 人数散点图 图 图 5 民航客运量与人均可支配收入散点图 从以上五张散点图,我们可以瞧出因变量民航客运量与国内生产总值,入境过夜旅游人数与城镇居民人均可支配收入均有较好得线性关系,这说明建立线性模型就是有意义得。接着下一步逐步回来分析,逐步回来得基本思想就是将变量逐个引入模型,每引入一个变量后都要进行F检验,并对已经选入得变量逐个进行t检验,当原来引入得变量由于后面变量得引入变得不再显著时,则将其删除。以确保每次引入新得变量之前回来方程中只包含先主动变量。这就是一个反复得过程,直到既没有显著得变量选入回来方程,也没用不显著得变量从回来方程中剔除为止。在PS软件中可干脆进行逐步回来分析,得出以下结果:由表2知,逐步回来后得出两个模型,模型1只包含城镇居民可支配收入,其她自变量都没有进入模型,模型2在得基础上再纳入了过夜入境旅游人数,其她得自变量也都被解除了。表2 输入移去得变量a a模型 输入得变量 移去得变量 方法 1 城镇居民人均可支配收入 、 步进(准则: F-to-enter 得概率 <= 、050,F-to-remove 得概率 >= 、100)。2 过夜游客 、 步进(准则: F-to-enter 得概率 <= 、050,F-to-remove 得概率 >= 、100)。a、 因变量: 民用航空客运量 表32 、2 拟 合度检验 由表,模型1得确定系数R=、92,模型得确定系数 2 =0、995,可以瞧出回来方程都高度显著,且模型2比模型1更优。、3 回来方程得显著性检验: 由表,方差分析表 Sig 值都<、5,说明每个模型都拒绝回来系数均为 0得假设,每个方程都就是显著得。表5 An va 模型 平方与 df 均方 F 、 1 回来 167859397、184 1678593、14 218、841 、000b残差 122987、2 16 76872、9 已解除得变量a a模型 Beta In t Sig、 偏相关 共线性统计量 容差 1 国内生产总值 、197b、517 、612 、132 、003 铁路客运量 -、001b-、014 、989 -、004 、058 民航航线里程 -、040b-、388 、704 -、100 、044 过夜游客 、421b3、432 、004 、663 、018 2 国内生产总值 、306c1、059 、308 、272 、003 铁路客运量 -、020c-、289 、777 -、077 、058 民航航线里程 、011c、138 、892 、037 、043 a、 因变量: 民用航空客运量 b、 模型中得预料变量: (常量), 城镇居民人均可支配收入。c、 模型中得预料变量: (常量), 城镇居民人均可支配收入, 过夜游客。表4 模型汇总c c模型 R R 方 调整 R 方 标准 估计得误差 更改统计量 R 方更改 更改 f f S、 更改 1 、996a、993 、992 876、740 、993 2183、1 1 16 、00 2 、99b、96 、995 677、6 、03 11、77 1 5 、004 a、 预料变量: (常量), 城镇居民人均可支配收入。、 预料变量:(常量), 城镇居民人均可支配收入, 过夜游客。c、 因变量:民用航空客运量总计 905814、4 1 回来 146918、37、5 1833、37 、0c残差 6883、3 总计 6098164、444 17a、 因变量: 民用航空客运量 b、 预料变量: (常量), 城镇居民人均可支配收入。c、 预料变量:(常量), 城镇居民人均可支配收入, 过夜游客。由表6可以得到两个模型得回来方程分别: 1.以城镇居民可支配收入为自变量得拟合函数:y198、66+、40X 2、 以城镇居民可支配收入与过夜入境旅游人数为自变量得拟合函数:-3267、8+0、17 5 +2、71X 且全部系数得显著性水平都小于、0,每个回来方程都就是有意义得。表6 系数a a模型 非标准化系数 标准系数 t ig、 B 标准 误差 试用版 1 (常量) 168、669 423、955-4、7 、00 城镇居民人均可支配收入 1、46 、030 、996 46、73 、00 2 (常量)-3267、72 562、4-5、80 、00 城镇居民人均可支配收入 、81 、73 、59 4、721 、000 过夜游客 2、1 、 、42 3、432 、04 a、 因变量: 民用航空客运量 表 7 就是残差统计结果。主要显示预料值、标准化预料值、残差与标准化残差等统计量得最大值、最小值、均值与标准差。残差平方与 Q 描述得就是随机误差引起因变量 Y 得分散程度,Q 越大分散性也越大,则线性关系越不明显。由表7 可见标准化残差得最大肯定值为 1、758。而且标准残差得均值为 0,说明随机误差对 Y 值得影响很小。表7 残差统计量a a 微小值 极大值 均值 标准 偏差 N 预料值 581、804 3539、 15600、444 53、344 1 残差 119、525 97、163 、000 636、580 8 标准 预料值 、107 1、983 、000 1、000 1 标准 残差 -、58 、4 、000 、39 18、 因变量: 民用航空客运量 2 、4 多重共线性得诊断 表8 共线性诊断 模型 维数 特征值 条件索引 方差比例 (常量)城镇居民人均可支配收入 过夜游客 1 1、73 1、00 、06 、062 、127 3、83 、94 、942 1 2、852 、00 、01 、00 、00 、14 、410 、3 、0 、00 3 、002 39、683 、2 、9 1、00 a、 因变量: 民用航空客运量 表 8 就是 SPS软件得多重共线性诊断表,它包括 3 项诊断值:特征值、条件数与方差比率。特征值表明在自变量中存在多少迥然不同得维数,当几个特征值都接近 0 就是,变量就是高度相关得.条件数就是最大特征值对每一个连续特征值得比率得平方根,若条件数大于 15 则表明可能存在多重共线问题,若大于30 则表明存在严峻得多重共线性问题。明显表 8 中变量 X 4 过夜入境旅游人数得条件数大于 30,说明回来方程存在多重共线性。2 、5 残差检验 如图 6 就是残差分布直方图。在回来分析中,总就是假定残差听从正态分布,这个图就就是依据样本数据得计算结果显示残差分析得实际状况。从图来瞧标准化残差还就是近似听从正态分布得. 图6 如图 7 残差得积累概率图基本围绕在假设直线 (正态分布)四周,说明残差分布基本符合正态分布,说明民航客运量这个因变量基本上可以用线性回来方法建立模型. 3 、结论 为了解决多重共线性得问题,解除模型 2,考虑到模型 1 得拟合度也就是很好得,综合来瞧认为模型 1 为更优.最终得到得回来方程为: -168、6+1、406X 5并以014 年得数据检验该回来方程,204 年航空客运量为 39195 万人,城镇居民人均可支配收入为8843、9,将自变量 X 带入回来方程得到=3885、5 万人,与实际得客运量995 万人得误差为 0、6。因此可以认为该模型基本达到了预期得目标。通过最优回来方程,我们可以发觉航空客运量与城镇居民得可支配收入线性相关非常显著,这就是符合常识得,只有居民可支配收入越来越高,才会选择航空这种昂贵得客运方式。 图7 参考文献:12015 年中国统计年鉴 2孙海燕、周梦、李卫国、冯伟、 应用数理统计、北京航空航天高校出版社,209 3朱卫卫、 基于偏最小二乘回来得我国民航客运量影响因素分析J、 中国市场、 2010(): 11112