概率论与数理统计在数学建模中的应用.pdf
《概率论与数理统计在数学建模中的应用.pdf》由会员分享,可在线阅读,更多相关《概率论与数理统计在数学建模中的应用.pdf(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、概率论与数理统计在数学建模中的应用概率论与数理统计在数学建模中的应用国国 冰冰。第一节第一节 概率模型概率模型一、初等概率模型一、初等概率模型初等概率模型主要介绍了可靠性模型、传染病流行估计、常染色体遗传模型等三类问题:1、复合系统工作的可靠性问题的数学模型设某种机器的工作系统由N个部件组成,各部件之间是串联的,即只要有一个部件失灵,整个系统就不能正常工作为了提高系统的可靠性,在每个部件上都装有主要元件的备用件及自动投入装置(即当所使用元件损坏时,备用元件可自动替代之而开始工作)明显地,备用件越多,整个系统正常工作的可靠性就越大.但是,备用件过多势必导至整个系统的成本、重量和体积相应增大,工作
2、精度也会降低.因此,配置的最优化问题便被提出来了:在某些限制性条件之下,如何确定各部件的备用件数量,使整个系统的工作可靠性最大这是一个整体系统的可靠性问题.我们假设第i个部件上装有xi个备用件(i 1,2,那么整个系统正常工作的可,N),此时该部件正常工作的概率为p(xi),靠度便可用p p(xi)()i1n来表示.又设第i个部件上的每个备用件的费用为Ci,重量为Wi,并要求总费用不超过C,总重量不超过W,则问题的数学模型便写成为max p p(xi)()i1nNcixi ci1Ns.twixi ci1xiN,i 1,2,N问题的目标函数为非线性的,决策变量取整数,属于非线性整数规划问题。2、
3、传染病流行估计的数学模型问题分析和模型假设问题分析和模型假设本世纪初,瘟疫还经常在世界的某些地方流行。被传染的人数与哪些因素有关如何预报传染病高潮的到来为什么同一地区一种传染病每次流行时,被传染的人数大致不变科学家们建立了数学模型来描述传染病的蔓延过程,以便对这些问题做出回答。这里不是从医学角度探讨每一种瘟疫的传染机理,而是利用概率论的知识讨论传染病的蔓延过程。假定人群中有病人或更确切地说是带菌者,也有健康人,即可能感染者,任何两人之间的接触是随机的,当健康人与病人接触时健康人是否被感染也是随机的.问题在于一旦掌握了随机规律,那么如何去估计平均每天有多少健康人被感染,这种估计的准确性有多大给出
4、以下假设(1)设人群只分病人和健康人两类,病人数和健康人数分别记为i和s,总数n不变,即is n()(2)人群中任何二人的接触是相互独立的,具有相同概率p,每人每天平均与m人接触;(3)当健康人与一病人接触时,健康人被感染的概率为。模型建立求解模型建立求解由假设(2)知道一个健康人每天接触的人数服从b(n1,p),且平均值是m,则m (n1)p于是p m(n1)又设一健康人被一名指定病人接触并感染的概率为p1,则由假设 3 及(9.4)式得p1p mn1那么一健康人每天被感染的概率p2为p21(1 p1)i1(1)in1m由于健康人被感染的人数服从b(s,p2),其平均值为 sp2(ni)p2
5、标准差为sp2(1 p2)(ni)p2(1 p2)注意,通常n m,n 1,取式右端展开式的前两项,有p21(1min)min最后得到mi(ni)n1 p2nmi(ni)p2mi(ni)式给出了健康人每天平均被感染的人数与n、i、m、的关系,式变异系数,可看作对平均值的相对误差的度量。二、随机性决策模型二、随机性决策模型所谓行为决策理论,就是用行为科学的观点和方法,对决策活动进行描述,解释和预测的一种理论。它以人的决策行为作为基本要素,以自然科学的实证方法作为主要手段,归纳出一套建立在经验证据基础上的理论观点,拓展了决策论的研究范围。合理的决策必须具备三个条件:为(1)目标合理;(2)决策结果
6、满足预定目标的要求;(3)决策本身符合效率、满意、有限合理、经济性的原则。所谓风险型决策是指在作出决策时,往往有某些随机性的因素影响,而决策者对于这些因素的了解不足,但是对各种因素发生的概率已知或者可估算出来,因此这种决策存在一定的风险.风险决策模型的基本要素决策者进行决策的个人、委员会或某个组织.在问题比较重大和严肃时,通常应以后者形式出现.方案或策略参谋人员为决策者提供的各种可行计划和谋略.如渔民要决定出海打鱼与否便是两个方案或称两个策略.准则衡量所选方案正确性的标准.作为风险型决策,采用的比较多的准则是期望效益值准则,也即根据每个方案的数学期望值作出判断.对收益讲,期望效益值越大的方案越
7、好;反之对于损失来讲,期望效益值越小的方案越好.事件或状态不为决策者可控制的客观存在的且将发生的自然状态称为状态(事件),如下小雨,下大雨和下暴雨即为三个事件或称三种状态,均为人所不可控因素.结果某事件(状态)发生带来的收益或损失值.风险决策方法利用树形图法表示决策过程具有直观简便的特点,将其称为决策树的方法.充分利用灵敏度分析(即优化后分析)方法对决策结果作进一步的推广和分析.决策树一般都是自上而下的来生成的。选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。决策树可以是二叉的,也可以是多叉的。对每个节点的衡量:1)
8、通过该节点的记录数2)如果是叶子节点的话,分类的路径3)对叶子节点正确分类的比例。有些规则的效果可以比其他的一些规则要好。决策树对于常规统计方法的优点。构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。下面我们利用一个例题来说明如何来建立风险决策模型。例 1、天龙服装厂设计了一款新式女装准备推向全国。如果直接大批量生产与销售,主观估计成功与
9、失败的概率各为,其分别的获利为1200 万元与-500 万元,如取消生产销售计划,则损失设计与准备费用 40 万元。为稳妥起见,可先小批量生产试销,试销的投入需 45 万元。据历史资料与专家估计,试销成功与失败的概率分别为与,又据过去情况,大批生产销售为成功的例子中,试销成功的占 84%,大批生产销售失败的事例中,试销成功的占 36%。试根据以上数据,通过建立决策树模型按期望值准则确定最优决策。解答解答:本题显然是要考核风险性决策模型的建立能力。按照这类模型的建立思路,我们有:问题分析与模型假设问题分析与模型假设 1.问题涉及直接大批量生产与销售、取消生产销售计划和小批量试销售这样三个决策方案
10、的取舍,在每种方案下又分为成功或失败两种结果;2.决策目标在表面上看是获利大小,实际上是要决定试销与否;3.尚需注意后面几句话:“大批生产销售为成功的例子中,试销成功的占84%,大批生产销售失败的事例中,试销成功的占36%”,这意味着要计算两个概率,其一是当试销成功时,大批量销售成功与失败的概率;其二是试销失败情况下,大批量销售成功与失败的概率,这意味着要利用贝叶斯概率公式;4.设定以下变量A-试销成功,则A-试销失败;B-大量销售成功,则B-大量销售失败。模型建立求解模型建立求解1.先来计算两个概率,注意到P(A/B)0.84,P(B)0.6,P(A/B)0.36,代入贝叶斯概率公式P(B/
11、A)P(A/B)P(B)P(A/B)P(B)P(A/B)P(B)0.840.6 0.78,0.840.6 0.360.4从而P(B/A)0.22.即当试销成功时,大批量销售成功与失败的概率分别为和.同理可以算出在试销失败情况下,大批量销售成功与失败的概率分别为和.2.以试销与否作为决策思路,先画一方块“囗”称为决策结点,由决策结点向右引出若干条直线表示不同的策略(方案)称为策略分枝,策略分枝的右端画一个圆圈“”称为状态结点,由它引出表示不同状态及其发生的概率的分枝称为概率分枝,最后在概率分枝的终点画“”符号表示这一分枝的最终结果的效益值(期望值),正值表收益,负值表示损失本例对应的决策树如图(
12、见图-2):成功试销-45 万取消销售成功1200 万失败大量销售失败-500 万取消销售成功不试销大量销售失败-500 万取消销售-40 万-40 万1200 万成功大量销售失败-500 万-40 万1200 万图-2这棵树即为所求的数学模型。我们继续将模型求解出来。根据期望利润值最大准则对决策树进行计算,值得指出的是,画决策树是从左向右画出,画的过程中将各种已知数据标于相应的位置上.但在决策树上进行决策计算却是从右向左进行的:先计算最右端每个状态结点的期望值。一级决策问题,只需利用结果点效益值计算各状态结点的期望效益值即可.当有两级以上决策时则需从右向左逐级计算.结果如图-3成功试销-45
13、 万取消销售成功成功826大量销售826失败1200 万-500 万-40 万失败-40大量销售-126失败1200 万-500 万取消销售成功不试销-40 万1200 万350大量销售350失败-500 万取消销售-40 万图-3决策树的优缺点:决策树的优缺点:优点:1)可以生成可以理解的规则。2)计算量相对来说不是很大。3)可以处理连续和种类字段。4)决策树可以清晰的显示哪些字段比较重要缺点:1)对连续性的字段比较难预测。2)对有时间顺序的数据,需要很多预处理的工作。3)当类别太多时,错误可能就会增加的比较快。4)一般的算法分类的时候,只是根据一个字段来分类三、随机性存储模型三、随机性存储
14、模型问题分析与模型假设问题分析与模型假设工厂为了稳定的生产,需要贮存一定的原料或零部件;商店为了满足顾客的需要,要有足够的库存商品;银行为了进行正常的营业,需要一定的货币进行周转;医院为了手术的急需,血库必备充足血液.总之库存问题是普遍存在的.早在 1915 年,哈里斯(Harris)对商业中的库存问题建立了一个简单模型,并求得了最优解,但未被人们注意.1918 年威尔逊(Wilson)重新得出了哈里斯的公式,并将其发展.他们的模型都是确定性的,二次大战后,带有随机性因素的库存模型得到研究。目前,库存问题的兴趣已转到了多物品、多个库存点的理论。在随机性需求的情况下,要制订最优的存储策略必须知道
15、一个时间段(如一天、一周、一个月等)内需求量的概率分布,以及订货费、存储费、缺货费(在随机需求的情况下,缺货几乎是不可避免的)。这里有两个可以考虑的问题,第一个问题是:决策者在每个时间段初,应该根据已有的存储量确定应订购多少货物使存储量达到最大,记这个最大的存储量为S。第二个问题是:已有的存储量不低于什么数值时,本时间段就可以不再订购,记这个决定不再订购的那个存储量的最低值为s。整个这种随机存储策略称为(s,S)存储策略。给出以下假设:(1)只考虑一种物品,其需求是随机的,需求量X是非负连续的随机变量,密度函数为(x),分布函数为(x);(2)只考虑一个库存周期,即在库存周期开始时,做一次决策
16、,决定进货量;(3)瞬时供货;(4)决策前原有库存量为I,进货量为Q,决策后的库存量为y I Q;(5)费用包括订货费、存贮费和缺货费.每次的订购手续费为K,货物单价为p;存贮费在周期末结算,它与期末的库存量成正比,比例系数为h(单位存贮费),缺货费与缺货量成正比,比例系数为g(单位缺货损失);(6)决策的准则是期望总费用最小.模型的建立与求解模型的建立与求解库存问题有补充库存需求三个环节.在这一系统中,若一次进货量多,进货的次数就少,进货的费用就少,但库存量大,库存费用就大,造成需求缺货就可能少,缺货损失就会少;若一次进货量少,进货的次数就多,进货费用就大,但库存量小,库存费用就小,造成需求
17、缺货就可能多,缺货损失就会大.如何协调这些矛盾,使该系统在某种准则下运行最佳.即如何确定进货量,使其总费用最小.进货费用为K p(yI)y Ic1(yI)y I0存贮费用为h(y X)X yc2(y X)X y0期望存贮费用为Ec2(y X)c2(y x)(x)dx h(y x)(x)dx00y缺货损失为g(X y)X yc3(X y)X y0期望缺货损失为Ec3(X y)c3(x y)(x)dx g(x y)(x)dx0y记L(y)Ec2(y X)Ec3(X y)则总费用为K p(yI)L(y)y I(2)C(y)L(y)y I目的是求minC(y)y当需要进货时有C(y)K p(yI)h(
18、y x)(x)dx g(x y)(x)dx0yydC(y)ph(x)dx g(x)dx 0(3)令0ydxy若S是使函数达到极小值的点,则(S)(x)dx 0Sg p (4)h g设s为库存量进货点,即当初始库存I s时,进货至S;当I s不进货。当的总费I s时,不进货.总费用为L(s),它应小于y S(此时进货量为S s)用K p(S s)L(S),即L(s)K p(S s)L(S)当I s时,进 货。则L(I)K p(S I)L(S),于 是s应 满 足L(s)K p(S s)L(S),即ps L(s)K pS L(S)(5)若模型假设(1)改为需求量X是非负离散随机变量,分布为PX k
19、 pk(k 0,1,),pk 0,pk1k0(1)式可变为L(y)h(y k)pk g(k y)pk(1)k0k0yy(4)式可变为g pSpk(2)pkh gk0k0S1(5)式变为ps L(s)K pS L(S)(3)s是满足上式的最小正整数.实例实例例 1 设某公司用某种原料进行生产,已知该原料每吨单价 800 元,订货费60 元,存贮费每吨 40 元,缺货损失每吨 1015 元,原有存贮量为 10 吨.已知对原料需求的概率P(X 30)0.2,P(X 40)0.2,P(X 50)0.4,P(X 60)0.2求该公司订购原料的最佳方案.解 由模型假设有:K 60,h 40,g 1015,
20、I 10,p 800计算g p1015800 0.204g h101540因为P(X 30)0.2 0.204,P(X 30)P(X 40)0.4 0.204所以S 40,Q S I 30S=40,Q=SI=4010=30又因为K pS L(S)4026080030+1015(4030)+(5030)+(6030)=40240K pS L(S)所以s 30.故存贮策略为每个阶段开始时检查存贮量I,当I 30吨时不必补充存贮;当I 30吨时补充存贮量到 40 吨.例 2 某市石油公司希望确定一种油的存贮策略,以确定应贮存的油量.该油的市场需求服从指数分布,其密度函数为0.000001e0.000
21、001xx 0(x)x 00该种油每近 2 元,不需进货费.由于油库归该公司管辖,油池灌满与没灌满时的管理费用实际上没有多少差别,故可以认为存贮费用为零.如缺货就从邻市调用,缺货费为 3 元/斤.解 由模型假设K 0,h 0,g 3,p 2计算 Sg p32 0.333g h30由0.000001e0.000001xdx 0.333,有e0.000001x 0.667,两端取对数解出 0S 405000因ps L(s)2s0(s x)(x)dx3(xs)(x)dx 2s3(xs)(x)dxsssK pS L(S)0(S x)(x)dx3(xS)(x)dx 2S 3(xS)(x)dxK+p0SS
22、S由观察可知,它有唯一解s S。所以当库存下降到 405000 斤以下就应进货,使库存达到405000斤.出现s S,是因为进货费为零,可以频繁进货,又存贮费为零,存贮量多一些也不会增加费用。第二节第二节 数据分析模型数据分析模型一、主成分分析模型和因子分析模型一、主成分分析模型和因子分析模型例例1 1现希望对30 个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值,数据文件见附表。这是一个综合分析问题,八项指标较多,可以用主成分分析法进行综合。打开文件后在SPSS 中的
23、操作如下:使用SPSS软件中的AnalyzeData ReductionFactor Analysis就进入了Factor的主对话框。在Factor的主对话框将x1 x8选入Variables框。在Descritives子对话框选中选择“Coefficients”,按Continue回到Factor的主对话框选择OK按钮输出结果,SPSS 在调用Factor Analyze 过程进行分析时,首先会自动对原始变量进行标准化,因此以后的输出结果中在通常情况下都是指标准化后的变量。在结果输出中会涉及一些因子分析中的内容,因此这里仅给出与主成分分析有关的部分如下:Correlation MatrixC
24、orrelation Matrix居民固定职工货物消费资产平均周转水平投资工资量.267.951.187.617.267.426.716居民消费价格指数商品零售工业价格总产指数值.874.363CorrelationGDPGDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值.951.426.396.431.792.099.187.716.396.617.431.022.659.763.022.763.874.363.792.099.659表1 1.1 为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性比较强,的确存在信息上的重叠。Total
25、 Variance ExplainedTotal Variance ExplainedExtraction Sums of SquaredInitial EigenvaluesLoadingsComponen%ofCumulative%ofCumulativetTotalVariance%TotalVariance%1234.4035.2146.1387.066.8298.015.183Extraction Method:Principal Component Analysis.表1 1.2 给出的是各成分的方差贡献率和累计贡献率,由表1 1.2 可知,只有前3个特征根大于1,因此SPSS只提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率论 数理统计 数学 建模 中的 应用
限制150内