《应用数理统计大作业1——逐步回归法分析终.pdf》由会员分享,可在线阅读,更多相关《应用数理统计大作业1——逐步回归法分析终.pdf(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、应用数理统计应用数理统计多元线性回归分析多元线性回归分析(第一次作业)(第一次作业)学院:机械工程及自动化学院姓名:学号:2014 年 12 月逐步回归法在逐步回归法在 AMHSAMHS 物流仿真结果中的应用物流仿真结果中的应用摘要:摘要:本文针对自动化物料搬运系统(Automatic Material Handling System,AMHS)的仿真结果,根据逐步回归法,使用软件 IBM SPSS Statistics 20,对仿真数据进行分析处理,得到多元线性回归方程,建立了工件年产量箱数与EMS数量、周转箱交换周期以及 AGC 物料交换服务水平之间的数学模型,并对影响年产量箱数的显著性因
2、素进行了分析,介绍了基本假设检验的情况。关键词:关键词:逐步回归;残差;SPSS;AMHS;物流仿真目目 录录1 1、2 2、3 3、引言引言.1 1逐步回归法原理逐步回归法原理.4 4模型建立模型建立.5 53.1 确定自变量和因变量.53.2 分析数据准备.63.3 逐步回归分析.74 4、结果输出及分析结果输出及分析.8 84.1 输入移去的变量.84.2 模型汇总.94.3 方差分析.94.4 回归系数.104.5 已排除的变量.114.6 残差统计量.114.7 残差分布直方图和观测量累计概率 P-P 图.125 5、异常情况说明异常情况说明.13.135.1 异方差检验.135.2
3、 残差的独立性检验.145.3 多重共线性检验.156 6、结论结论.15.15参考文献参考文献.17.171 1、引言引言回归被用于研究可以测量的变量之间的关系,线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。这一技术被用于几乎所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。逐步回归是在剔除自变量间相互作用、相互影响的前提下,计算各个自变量 x 与因变量 y 之间的相关性,并在此基础上建立对因变量 y 有最大影响的变量子集的回归方程。SPSS(Statistical Package for the Social Science 社会科学统计软件包)是世界
4、著名的统计软件之一,目前 SPSS 公司已将它的英文名称 更改为Statistical Product and Service Solution,意为“统计产品与服务解决方案”。SPSS 软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能,而且用它处理正交试验设计中的数据程序简单,分析结果明了。基于以上优点,SPSS 已经广泛应用于自然科学、社会科学中,其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。本文研究内容主要来源于“庆安集团基于物联网技术的航空柔性精益制造系统”,在庆安集团新建的 320 厂房建立自动化物料搬运系统(AMHS),使用生产仿真软件 E
5、M-Plant 对该系统建模并仿真,设计实验因子及各水平如表 1-1,则共有 3*4*6=72 组实验结果,如表所示。为方便描述,将各因子定义为:X1 表示 AGC物料交换服务水平,X2 表示周转箱交换周期,X3 表示 EMS 数量,Y 表示因变量年产量箱数。本文目的就是建立年产量箱数与 AGC 物料交换服务水平、周转箱交换周期和 EMS 数量之间的关系。表 1-1 三因子多水平实验方案因子因子AGC 物料交换服务水平周转箱交换周期/小时EMS 数量122244水平水平366881012表 1-2 实验结果AGCAGC 物料交换服务水平物料交换服务水平周转箱交换周期周转箱交换周期/小时小时EM
6、SEMS 数量数量年产量箱数年产量箱数11111111111111111111111122222224444446666668888882246810122468101224681012246810122202744332667594823028685685946195833788145426458564533845161190033046530197300322999730327178362279322651230082273623020202132222464509650852AGCAGC 物料交换服务水平物料交换服务水平周转箱交换周期周转箱交换周期/小时小时EMSEMS 数量数量年产量箱
7、数年产量箱数2222222222222222222223332224444446666668888882228101224681012246810122468101224651290516165114819940394784449344681442324442418919301973015130332298862997418320228822258622621228012303120240341673401733322281012341253425634106AGCAGC 物料交换服务水平物料交换服务水平周转箱交换周期周转箱交换周期/小时小时EMSEMS 数量数量年产量箱数年产量箱数33333
8、33333333333334444446666668888882468101224681012246810121974535499355303576435416361381877730216299283034230205301661838922628228042245522448227632 2、逐步回归法原理逐步回归法原理回归分析是研究因变量和自变量之间变动比例关系的一种方法,最终结果一般是建立某种经验性的回归方程。回归分析因变量的多少有一元回归和多元回归之分,本文中的回归模型因有 3 个因变量故为多元回归。在实际研究中,影响因变量 Y 的因素有很多,而这些因素之间可能存在多重共线性,特别是
9、在各个解释变量之间有高度的相互依赖性,如温度和雨量、雨量与雨日之间的关系密切,这就给回归系数的估计带来不合理的解释。为了得到一个可靠的回归模型,需要一种方法能有效地从众多影响 Y 的因素中挑选出对 Y 贡献大的变量,在它们和 Y的观测数据基础上建立“最优”的回归方程。逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法,它是在多元线性回归基础上派生出来的一种算法技巧。逐步回归分析法在筛选变量方面较为理想,故目前多采用该方法来组建回归模型。该方法也是从一个自变量开始,视自变量对 Y 作用的显著程度,从大到小地依次逐个引入回归方程。但当引入的自变量由于后面变
10、量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要进行 F 值检验,以确保每次引入新的显著性变量前回归方程中只包含对 Y 作用显著的变量。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。本文运用 IBM SPSS Statistics 20 软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量,组建回归方程。当F引=F剔=0 时,则所有的变量全部被引入,逐步回归分析结果就和一般的多元线性回归分析结果相同。当F 取值比较大时,理论和实践都表明,在相同的F 水平上,用逐步回归筛
11、选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。为了从挑选因子中筛选出尽可能多的因子建立回归预测模型,本系统可以自己给出 F 临界值,计算机默认的 F引为 0.05,F剔为 0.1,如果入选的自变量因子数目不多,可通过人为降低 F 临界值的水平而筛选出更多的因子。如此时入选的因子太多,可人为提高 F 临界值的水平而筛选出有代表性因子来组建回归预测模型。如最后建立的回归预测模型的复相关系数不大,回归模型的拟合精度不太高,可根据这些入选因子来组建多元非线性回归预测模型。3 3、模型建立模型建立3.13.1 确定自变量和因变量确定自变量和因变量根据表 1-1 可知,本文目标是确定年产量
12、箱数与 AGC 物料交换服务水平、周转箱交换周期和 EMS 数量之间的关系,其中 AGC 物料交换服务水平分为水平 1、水平 2 和水平 3,分别表示自动交换、人工交换(积极)和人工交换(消极),周转箱交换周期分为 2、4、6 和 8 小时,EMS 数量有 2、4、6、8、10 和 12 辆。3.23.2 分析数据准备分析数据准备打开 SPSS 软件,在变量视图中定义变量:自变量 X1、X2 和 X3 分别表示 AGC物料交换服务水平、周转箱交换周期和 EMS 数量,因变量 Y 表示年产量箱数,如图 3-1 所示。图 3-1 定义变量将表 1-2 中的仿真结果输入到 SPSS 的数据视图中,如
13、图 3-2 所示。图 3-2 仿真数据输入3.33.3 逐步回归分析逐步回归分析单击 SPSS 工具栏中的分析,选择回归线性,如图 3-3 所示,打开如图 3-4所示的线性回归对话框。图 3-3 线性回归分析图 3-4 线性回归对话框在该对话框中选择相应的自变量和因变量,方法中选择逐步,在绘制中选中直方图、正态概率图和产生所有部分图。图 3-5 绘制单击继续后回到线性回归对话框,再单击确定进行回归计算。4 4、结果输出及分析结果输出及分析逐步回归分析得到的结果为 6 张表和 2 幅图,分别为变量引入/剔除方式信息表、模型汇总表、方差分析表、模型回归系数表、被剔除的变量信息表、残差统计表、残差分
14、布直方图和观测量累计概率 P-P 图。4.14.1 输入移去的变量输入移去的变量表 4-1 输入移去的变量模型123周转箱交换周期EMS数量AGC服务水平输入的变量移去的变量.步进(准则:F-to-enter 的概率=.100)。步进(准则:F-to-enter 的概率=.100)。步进(准则:F-to-enter 的概率=.100)。方法aa.因变量:年产量箱数表 4-1 显示变量的引入和剔除,以及引入或剔除的标准。系统在进行逐步回归过程中产生了 3 个模型,模型 1 是按照 F 检验的标准概率值,先将与 Y(年产量箱数)最密切的自变量 X2(周转箱交换周期)引入模型,建立 Y与 X2 之间
15、的一元线性回归模型,然后再把 X3(EMS 数量)引入模型,建立了 Y与 X2,X3 之间的二元线性模型,最后把 X1(AGC 服务水平)引入模型,建立了它们与 Y 之间的三元线性模型。4.24.2 模型汇总模型汇总表 4-2 模型汇总模型123RR 方 调整 R 方.390.515.584标准估计的误差11757.8321510486.436259710.99811Durbin-Watson.845d.632a.399.727b.529.776c.602a.预测变量:(常量),周转箱交换周期。b.预测变量:(常量),周转箱交换周期,EMS数量。c.预测变量:(常量),周转箱交换周期,EMS数
16、量,AGC服务水平。d.因变量:年产量箱数表 4-2 中显示了各模型的拟合情况,回归模型概述表中给出了各模型的相关系数 R,用来对生成的模型进行评估,R 值越接近于 1 说明估计的模型对观测值的拟合越好。从表中可以看出,从模型1 到模型 3,随着预测变量的增多,相关系数(0.3900.5150.584)不断增大,说明模型 3 是比较好的拟合模型。4.34.3 方差分析方差分析表 4-3 Anova模型回归1残差总计回归2残差总计平方和6421384062.0259677263179.85016098647241.8758511038424.1217587608817.7541609864724
17、1.875df1707126971均方6421384062.025138246616.8554255519212.061109965345.185F46.44938.699Sig.000.000cba3回归9686010304.45533228670101.48534.237.000d残差总计6412636937.42016098647241.875687194303484.374a.因变量:年产量箱数b.预测变量:(常量),周转箱交换周期。c.预测变量:(常量),周转箱交换周期,EMS数量。d.预测变量:(常量),周转箱交换周期,EMS数量,AGC服务水平。表 4-3 显示各模型的方差分析结
18、果,对模型 1:F 等于 46.449,显著性概率Sig.0.001;对模型 2:F 等于 38.699,显著性概率 Sig.0.001;对模型 3:F 等于 34.237,显著性概率 Sig.0.001,可以认为 Y(年产量箱数)与 X2(周转箱交换周期)、X3(EMS 数量)和 X1(AGC 物料服务水平)存在高度显著的线性关系。4.44.4 回归系数回归系数表 4-4 系数a模型(常量)1周转箱交换周期(常量)2周转箱交换周期EMS数量(常量)周转箱交换周3期EMS数量非标准化系数B标准系数-.632-.632.360-.632.360-.270tSig.B 的 95.0%置信区间共线性
19、统计量下限上限容差VIF标准误差试用版54823.917 3394.194-4223.408619.69243783.242 3946.951-4223.408552.6841577.239361.81653678.408 4606.331-4223.408511.8151577.239335.06116.152.00048054.411 61593.423-6.815.000-5459.345-2987.47111.093.00035909.28951657.194-7.642.000-5325.982-3120.8344.359.000855.4351.0001.0001.0001.000
20、2299.0431.0001.0001.0001.00011.653.00044486.61862870.198-8.252.000-5244.718-3202.0984.707.000908.6352245.8441.0001.000AGC服务水平-4947.583 1401.662a.因变量:年产量箱数-3.530.001-7744.556-2150.6111.0001.000表 4-4 中显示各模型的偏回归系数,标准化偏回归系数及其对应的检验值。根据表中数据非标准化系数 B 的数值可知,逐步回归过程中先后建立的三个模型分别是:模型 1:Y=54823.917-4223.408X2模型 2
21、:Y=43783.242-4223.408X2+1577.239X3模型 3:Y=53678.408-4223.408X2+1577.239X3-4947.583X1t 值表示对回归系数的显著性检验,其概率值 Sig 小于 0.05 时才可以认为有意义,即自变量对因变量有显著性影响。在模型中,系数均小于 0.05,可认为回归是显著的。模型 3 中各因子 95%的知置信区间为:常亮44486.618,62870.198,周 转 箱 交 换 周 期-5244.718,-3202.098,EMS908.635,2245.844,AGC 服务水平-7744.556,-2150.611。数 量4.54.
22、5 已排除的变量已排除的变量表 4-5 已排除的变量模型1Beta InbatSig.偏相关共线性统计量容差1.0001.0001.000AGC服务水平-.270-3.088.003-.348EMS数量.360cb4.359.000.4652 AGC服务水平-.270-3.530.001-.394a.因变量:年产量箱数b.模型中的预测变量:(常量),周转箱交换周期。c.模型中的预测变量:(常量),周转箱交换周期,EMS数量。表 4-5 中显示逐步回归过程所建立的三个模型中剔除掉的变量信息,包括各变量的 Beta 值、t 统计量值、双尾显著性概率、偏相关系数以及多重共线性统计(Collinear
23、ity Statistics)的容差。对模型来说,它的偏回归系数的 P 值都大于 0.05,接受原假设,即不能把这些变量加入方程中。模型 1 中排除了变量 X1 和 X3,表明 Y 只与 X2 有显著的线性关系;模型 2 中排除了变量 X1,表明 Y 只与 X2 和 X3 有显著的线性关系。4.64.6 残差统计量残差统计量表 4-6 残差统计量预测值残差标准预测值标准残差极小值8202.8701-2.184-2.385极大值59210.87892.1842.372均值.00000.000.000标准偏差9503.621951.000.979N72727272a33706.875011680.
24、01200-23164.4863330799.59961a.因变量:年产量箱数表 4-6 显示了预测值、残差、标准预测值和标准残差的最小值、最大值,均值,标准差以及样本容量。根据概率的 3原则,标准化残差的最大值为 2.3723,说明样本中的数据中没有奇异数据。4.74.7 残差分布直方图和观测量累计概率残差分布直方图和观测量累计概率 P-PP-P 图图图 4-1 残差分布直方图图 4-2 观测的累积概率图回归分析中,总假定残差服从正态分布,这两张图就是根据样本数据的计算结果显示残差分布的实际状况,然后对残差分布是否服从正态分布的假设做出检验。从回归残差的直方图(图 4-1)与附于图上的正态分
25、布两线相比较,可以明显看出残差分布与正态分布比较吻合。图 4-2 为观测量累计概率 P-P 图,也是用来比较残差分布与正态分布差异的图形。图中纵坐标为期望的累计概率分布,横坐标为观测量累计概率分布。图中的斜线对应着一个均值为 0 的正态分布。如果图中的散点密切地分布在这条斜线附近,说明随机变量残差服从正态分布,从而表明样本确实是来自于正态总体。如果离这条直线太远,应该怀疑随机变量的正确性。从图 4-2 的散点分布状况来看,72 个散点大致散布于斜线附近,因此可以认为残差分布基本上是正态的。5 5、异常情况说明异常情况说明5.15.1 异方差检验异方差检验在回归模型的基本假设中,假定随机误差具有
26、相同的方差,但在建立实际经济问题的回归模型时,经常存在与此假设相违背的情况,这时就会出现回归模型中的异方差性。当一个方程存在异方差性时,如果仍用普通最小二乘法估计参数,将会引起严重的后果,特别是最小二乘估计量不再具有最小方差的优良性,即最小二乘估计的有效性被破坏了。异方差性的检验方法目前有十多种,但没有一种是公认最优的方法。常用的是残差图分析法,等级相关系数法以及 Glejser 法。本文使用残差图分析法,在SPSS 中选中标准残差值为 Y,标准预测值为 X,如图 5-1,绘制出的残差图如图5-2 所示。图 5-1 绘制残差图图 5-2 残差图从上图中可以看出,随着预计值的增大,残差变化幅度也
27、随之增大,由此判定存在异方差现象,需要使用非线性的方法拟合。5.25.2 残差的独立性检验残差的独立性检验残差的独立性检验也称为序列相关性检验。如果随机误差不独立,那么对回归模型的任何顾忌与假设所做出的结论是不可靠的。残差独立性检验是通过Durbin-Watson 检验来完成的。Durbin-Watson 检验的参数用 D 表示。D 的取值范围是 0D10 时,就说明自变量之间有严重的多重共线性,且这种多重共线性可能会过度的影响最小二乘法估计值。本文中计算出的 VIF 值列于表 4-4 中,可见各系数的VIF 均等于 1,说明自变量之间不存在多重共线性。6 6、结论结论由上面的分析可知,模型
28、3 满足多元线形回归的假设条件,这样可以分析结果得到回归方程。在考察的对 Y(年产量箱数)影响的 3 个因素中,分析结果为:AGC 物料交换服务水平、周转箱交换周期和 EMS 数量都有显著性影响并进入回归方程:Y=53678.408-4223.408X2+1577.239X3-4947.583X1从上述分析的结果来看,我们不难理解,X1 表示的 AGC 物料交换服务水平越高(X1 数值上越小),机床加工工件的时间间隔就会缩短,机床的利用率上升,从而使得产量提高,所以年产量箱数与 AGC 物料交换服务水平成正比,表现为与X1 数值成反比,因此回归方程中 X1 的系数为负数。周转箱交换周期表示一箱
29、工件进出机床所使用的时间,交换周期越长,表明这箱工件占用机床的时间(包括准备时间和加工时间)越长,那么物料周转的就慢,年产量箱数也就会越低,因此年产量箱数与周转箱交换周期成反比,因此回归方程中 X2 的系数为负数。EMS 负责将物料运输至对接缓冲,再由AGC 将物料运往机床进行加工,很显然,EMS 数量越多,运送的物料也就越多,设备利用率会相应上升,产出增多,但是当 EMS 多到一定程度时,AGC 无法快速响应搬运任务时,便成为瓶颈,此时产出便受制于 AGC 的状态,再增加 EMS 数量年产量箱数也不会增加。其实影响 AMHS 年产量箱数的因素远远不止这些,只不过有一些因素是在设计初期时因硬件
30、或环境的限制下被人为限定,如轨道的长度;还有一些是根据已有的经验执行,如系统中在制品的数量和中央缓冲区的容量等;还有一部分是根据已有的知识就能很轻易地判断出与目标的关系不是很大,所以在本文中选取的三个因素是在进行仿真分析时比较关注的也是对目标影响比较大的,这一点在回归方程的表达式也有体现。参考文献参考文献1孙海燕,周梦,李卫国,冯伟.应用数理统计M.北京:北京航空航天大学出版社,2013.2曹旭,张喆,胡先宁,马少仙.基于逐步回归法的住房需求模型J.甘肃联合大学学报(自然科学版),2012,01:19-21.3赵言,花向红,李萌.逐步回归模型在地表沉降监测中的应用研究 J.测绘信息与工程,20
31、12,01:6-8+35.4张维刚,廖兴涛,钟志华.基于逐步回归模型的汽车碰撞安全性多目标优化J.机械工程学报,2007,08:142-147.5付勇,汪立今,柴凤梅,邓刚,陈勇,陈俊华.多元线性回归和逐步回归分析在白石泉 Cu-Ni 硫化物矿床研究中的应用J.地学前缘,2009,01:373-380.6 高 剑 平.基 于 逐 步 回 归 分 析 的 用 电 量 预 测 J.能 源 研 究 与 利用,2005,06:23-25.7骆术斌,董雯,徐蕾,宋树东.逐步回归法在黄河下游洪水水位预测中的应用J.东北水利水电,2008,11:50-52+72.8范雯.逐步回归分析方法在储层参数预测中的应用J.西安科技大学学报,2014,03:350-355.9高明亮.300mm 半导体工厂 AMHS 系统的分析、设计和控制策略的仿真研究D.上海交通大学,2009.10郁菁.回归模型异方差性的检验与消除研究以SPSS 为分析工具J.长沙民政职业技术学院学报,2007,04:34-36.11 滕冲,汪同庆.SPSS 统计分析M.武汉:武汉大学出版社,2014.(注:专业文档是经验性极强的领域,无法思考和涵盖全面,素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关注)
限制150内