基于汽车维修数据的预测模型(最终修改版).doc
【精品文档】如有侵权,请联系网站删除,仅供学习与交流基于汽车维修数据的预测模型(最终修改版).精品文档. 基于汽车维修数据的预测模型 董浩 苏绍鹏 胡齐摘要: 本文通过对汽车维修中某个部件的千车故障数据的分析,利用两种方案进行求解,其一是对各批次数据用MATLAB进行多项式拟合,预测这些数据今后的走势,得出0205批次使用月数18时的千车故障数为73.2160,0306批次使用9个月的千车故障数为6.3872,考虑到数据过少影响了预测的准确性,本文又对0306批次的小样本数据进行了累加和临近取平均,用灰色模型预测出使用月数9时的千车故障数为77.5757,0310批次采用以前十个月各批次的拟合结果进行了等权平均处理,用得到的多项式预测使用月数12时的千车故障数为48.8236。针对上述方案的不足,本文首先在数据的预处理上利用了移动平均法,在一定的程度上抵消了数据在统计时的偶然因素的影响,并对处理后的数据利用指数函数进行了回归分析,在对数据完全缺省的批次进行预测时又利用了多项式拟合的方式来确定回归曲线中待定的系数,并与之前直接拟合预测的数据比较其优劣得出了得到0205批次使用月数18时的预测值为:32.9 得到0310批次12月份的预测值为:547.9737。【关键词】:汽车维修 多项式拟合 灰色模型 曲线回归 matlab名词解释:千车故障数:在相同的时间长度内的整车或某个部件的保修总次数乘以1000再除以迄今已售出的汽车数量。一,问题重述:产品质量是企业的生命线,售后服务是产品质量的观测点,如何用好售后服务的数据是现代企业管理的重要问题之一。现以某轿车生产厂家为例考虑这个问题。假设该厂的保修期是三年,即在某轿车售出后三年中对于非人为原因损坏的轿车免费维修。在全国各地的维修站通过网络将保修记录送到统一的数据库里面,原始数据主要是这是哪个批次生产的轿车(即生产月份)、售出时间、维修时间、维修部位、损坏原因及程度、维修费用等等。通过这样的数据可以全面了解所有部件的质量情况,若从不同的需求角度出发科学整理数据库中的数据,可得到不同用途的信息,从而实现不同的管理目的。整车或某个部件的“千车故障数”是一个很重要的指标,常用于描述轿车的质量。首先将轿车按生产批次划分成若干个不同的集合(下面表格的同一行数据就来自同一集合),再对每个集合中迄今已售出的全部轿车进行统计,由于每个集合中的轿车是陆续售出的,因此它们的统计时间的起点即售出时间是不同的。但在下面表格中,每一列数据的统计时间的长度却是相同的(例如2002年3月底售出的轿车,到2002年8月底;或2003年10月初售出的轿车,到2004年3月初都是使用了五个月,显然它们的统计时间的终点也是不同的),在相同使用时间长度(例如下表中第5列都是使用10个月的)内的整车或某个部件的保修总次数乘以1000再除以迄今已售出的轿车数量,即为下面表格中的千车故障数。数据利用的时效性是很强的,厂方希望知道近期生产中的质量情况,但刚出厂的轿车还没有全卖出去,已售出的轿车使用几个月后的保修情况可能还没有数据反馈,因此数据显得滞后很多。当一个批次生产的轿车的三年保修期都到时,我们对这批轿车的质量情况有了最准确的信息,可惜时间是轿车出厂的四、五年后,这些信息已无法指导过去的生产,对现在的生产也没有什么作用。所以如何更科学地利用少量数据预测未来情况是售后服务数据利用的重要问题。现有2004年4月1日从数据库中整理出来的某个部件的千车故障数,见下页的表。其中的使用月数一栏是指售出轿车使用了的月份数,使用月数0的列中是已售出的全部轿车在用户没使用前统计的千车故障数,1的列中是某一批次已售出的每一辆轿车,在它被使用到第一个月结束时统计的,对于该批次售出的全部轿车累计的千车故障数(即没使用时和第一个月中千车故障数的和),12的列中是每辆车使用到恰好一年结束时的累计千车故障数。生产月份是生产批次,如0201表示2002年1月份生产的。随着时间的推移,轿车不断地销售出去,已售出轿车使用一段时间后的千车故障数也能不断自动更新,再打印出的表中数据也将都有变化。1. 该表是工厂的真实数据,没有修改,反映的情况很多,请你分析表中是否存在不合理数据,并对制表方法提出建议;2.利用这个表的数据预测时请注意区分水平和垂直方向。请你设计相应的模型与方法,并预测:0205批次使用月数18时的千车故障数,0306批次使用月数9时的千车故障数,0310批次使用月数12时的千车故障数;3.如果有所有部件的千车故障数的数据表,你可以为质量管理方面提供那些决策与咨询?4.你还有什么想法和建议。(比如配件的生产组织、运送等等)二,模型的假设:1、 不存在某些汽车由于维修站的技术原因而造成的屡次返修。2、 在数据统计期间不存在重大的技术改革对汽车的影响。 3、 假设该部件只要发生故障,用户都会去厂家指定的维修站维修。三,符号说明:使用的月数:表示第年第月批次的轿车在使用月份的千车故障数四,模型的建立及求解4.1 对于问题1: 通过对轿车某部件千车故障数的数据表,我们想知道对于每一行的数据的大致走势,于是通过MATLAB软件做出每一行数据的散点图,从这些散点图中看不出哪些数据存在问题, 从表中的数据可以看出:对于各批次整车或部件的维修次数,从03年11月起,后面几个月的数据都没有变化,也就是说,从03年11月开始,各批次的整车或部件都没有新的维修记录,这显然是不可能的,在表中的就是纵向的12与横向的0212对应的101.74到纵向的0与横向的0311对应的0之间的对角线上的数都是最后记录的真实数据,在这条对角线的下方的数据都是没有更新过的,是不准确的,将表中的数据转换成维修次数后,如下表中涂色数据:使用月数1211109876543210生产月份制表时销售量20124571111111199855221120216701010999966544302031580666666433200020437045145433634292521169520205380613913112011210295878369625133142062910120114104969284716654443827132071614116111101877770645649423520620819851501421371271131058973554026152209267130029528927725522520017513811372294210210725625124524322720317714511482472362111399133133131129120114100856656351842124034141373635343327211813223016450791791789783772744696633533432289142233022522362362362362357351340316268213156644303290017417417417417416916114913495472304112720202020201917159203058181212121211111187030611997777775203071831242424242419131308175499997203092163111100310238900000311243400003121171000 ( 表1.1)而对于各批次整车或部件的销售量,我们首先作出销售量的逐年变化图像(如图一),观查图像可知,在03年一月的销售量的前后波动很大,而出现这种情况的可能性是很小的,我们就有理由怀疑这组数据的合理性,下面对销售量作线性回归并做残差分析,得到以下残差图(图二),从图中也可以看出除去03年一月这组数据,其它点都在平衡线附近波动,因此,去掉这组数据是合理的。销售量与生产月份之间的散点图(图一): ( 图一)对销售量作线性回归并做残差分析,得到以下残差图(图二): ( 图二)在制表方式上,表中给出的销售量都是制表时的销售量,而不同批次的整车或部件的销售时间是不相同的,我建议制表时应给出经过相同时间后各整车或部件的销售量,这样也与维修次数的制表方式相呼应,而且有利于评价不同批次的整车或部件的质量优劣,方便公司针对产品的质量状况做出相应的调整措施。4.2 对于问题2:方案一:4.2.2 问题2模型的建立(1)0205批次的千车故障数与月数的散点图如下: 我们可以用三次多项式来对此拟合来预测月数为18时的千车故障数:(2)对于0306批次的小样本5组数据采用灰色模型预测,灰色系统理论着重研究概率统计,模糊数学难以解决的“小样本,贫信息”不确定性问题。GM(1,1)模型原始数据:累加之后的数据: 其中 ,取临近平均值之后的数据:其中 =0.5+0.5GM(1,1)的灰微分方程模型为式中称为发展系数,为灰色作用量。为灰色微分方程的白化方程,也叫影子方程。(3)对于0310批次的轿车出现的千车故障数,根据所给出的数据,若用多项式很显然使用月数12时的千车故障数为 0, 这显然是不合理的。由于轿车千车故障数据表中的数据具有滞后性, 例如表1.1中红色数据左边的都是不真实的数据,0201到0210批次的轿车某部件千车故障数据表中的数据没有滞后性,是可靠的数据,因此我们想到用这些没有滞后性的数据来来预测0310批次使用月数为12时的千车故障数。 具体做法如下: 对0201到0210批次的出现的千车故障数都单独进行三次多项式拟合对于0310批次我们同样用三次多项式进行拟合,于是需要确定多项式的系数,可以取平均值法4.2.3 问题2模型的求解 (1)对于0205批次的轿车出现的千车故障数,用MATLAB软件求解式得:0205批次的轿车使用月数为18时的千车故障数为:73.2160用MATLAB出的拟合图如下(2)用MATLAB做最小二乘拟合求出系数GM(1,1)灰色微分方程的时间响应序列为取,则还原值用MATLAB做最小二乘拟合求出系数序号原始数据模拟数据残差相对误差11.671.39550.2745 0.1644 255.4775 0.47750.150435.844.3985 1.4415 0.2468 45.847.80881.96880.3371预测0306批次使用月数9时的千车故障数为:77.5757 (3) 用MATLAB对0201到0210批次的数据进行三次多项式拟合对10组拟合后的三次多项式系数取平均值,作为总体的系数,所得:0310批次使用月数12时的千车故障数为:48.8236用MATLAB做出的模拟图如下:方案二4.2 .1问题2模型的建立及求解 由于表中的数据存在一定的偶然性,不妨将表中数据移动平均法进行数据的预处理,考虑到数据的缺失,我们只做三项的平均,其具体做法是:对该批次的数据做如下处理,对表中0、1、2月的数据求平均,结果放到1月对应的表中,1、2、3月的数据求平均,结果放到2月对应的表中,以此类推,将10、11、12月的数据求平均,结果放到11月对应的表中,数据经过这样处理之后,数据虽然减少了两个,但在一定程度上减少了数据的偶然性因素。对0205年的原始数据经过平均后得到这样一组数:8.7567 12.9616.02718.8321.0223.38325.13327.23729.3431.88 34.33,对应表中1月到11的数据,作出其散点图如下: (散点图) 考虑到,汽车及其部件的维修次数受到其销售总量的限制,因此曲线最终可能会趋于平缓,我们想到用指数函数做作曲线回归:通过matlab中的统计工具箱对处理后的数据进行拟合可得:即当时 并作出回归曲线如下图:若采用指数函数的非线性回归来预测,即假设03年10月的千车故障数的走向也是指数形式:由于03年10月的是没有数据的,那么我们就只能利用前面的数据进行合理化的预测,因我们对前十组数据进行回归分析,得到从1月到10月的系数为a(7.4709 6.8112 6.0021 21.8136 37.5680 46.7720 82.0756 113.3632 158.2012 184.4488),b(-4.6648 -2.2214 -4.0490 -6.7645 -2.3573 -3.1223 -3.5989 -5.2891 -4.1363 -4.6241)现列出02年1、4、7、10月的走势图: 0201 0204 0207 0210从图像中可以看出,千车故障数在纵向是越来越陡的,从数据中的系数a也可以看出,但数据中的b值是相对稳定的,于是我们采用如下方式预测0310批次的a和b值,对a采用的是三次多项式拟合,得到下图:函数表达式为:式中的t从02年1月起经的月数,令t=22,就得到0310批次的系数a值为769.9834对于系数b,由于它基本稳定在-4上下,我们采用取平均的方法得到0310批次的系数b=-4.0817最终得到0310批次的预测函数为:令x=12得到12月份的预测值为:547.97374.3 对于问题3 我们可以对各类部件的千车故障数建立灰色模型,预测中后期该部件的生产质量情况,也可以得出现阶段该部件的生产情况。如果得出现阶段生产的部件质量不高,则我们可以通过对该部件的生产环节进行质量控制,使该部件的质量合格率得以提高,还可以对该部件生产流程中的原料供应环节、质量检验环节、人员管理等方面加以控制,提高汽车部件的质量。4.4 对于问题4 配件的生产可以根据对各配件的千车故障数分析的结果进行调整,建立上述模型来预测产品质量情况,调整配件的生产。对配件的运送可以建立多目标规划模型,求得满足各维修站对配件需求的情况下,使运输费用最小。五、模型结果分析: 通过上面各方案的比较,我们发现方案一对0205批次在使用18月的千车故障数的预测为73.2160,并且我们通过对曲线的观察千车故障数的增长速度会越来越快,但销售的总车辆是有限的,千车故障数的增长必将趋于平缓,因此方案一对于长期预测是不利的,而方案二中由于对数据进行了一些预处理,因此在短期预测上又不如方案一准确六、模型的评价及改进:由于轿车某部件千车故障数据表中所给出的数据具有滞后性,使得我们得到的数据有很多残缺的部分,我们主要针对三种形式的数据进行了预测分析,即较完整的数据、有一定残缺的数据和完全没有数据的预测。特别是对于完全缺省的数据,方案二中是利用的多项式拟合来确定回归曲线中的系数,为进一步使得预测合理化,我们还可以将前十组完整的数据得到的曲线作加权平均法,为使得拟合的总误差最小,来确定各曲线的权系数,从而转化成最优化问题的求解。七、参考文献1 赵静.数学建模与数学试验.北京:高等教育出版社.20072 冯文权. 经济预测与决策技术.武汉:武汉大学出版社.20013 刘嘉焜.应用概率统计.北京:科学出版社.2004