运筹学10-动态数规划课件.ppt
《运筹学10-动态数规划课件.ppt》由会员分享,可在线阅读,更多相关《运筹学10-动态数规划课件.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章 动态规划10.1 多阶段过程决策问题多阶段过程决策问题10.2 动态规划原理动态规划原理10.3 动态规划应用举例动态规划应用举例5/26/20231多阶段决策过程的最优化多阶段决策过程的最优化多阶段决策过程:多阶段决策过程:整个决策过程可按时间或空间顺序分解成若干整个决策过程可按时间或空间顺序分解成若干相互联系相互联系的阶段,每一阶段都需作出决策,全部过程的决策是一个决的阶段,每一阶段都需作出决策,全部过程的决策是一个决策序列。策序列。多阶段决策过程最优化的目标:多阶段决策过程最优化的目标:达到整个活动过程的总体效果最优,而非各单个阶段最达到整个活动过程的总体效果最优,而非各单个阶段
2、最优的简单总和。优的简单总和。请看如下典例请看如下典例最短路线问题最短路线问题10.1 多阶段过程决策问题5/26/20232n从生产厂从生产厂Q到某公司到某公司T选择那条路线选择那条路线,使总运费最低使总运费最低(路程路程最短最短)?最短路问题 QTA1A2A3B1B2B3C1C124374642442514633334生生产产商商某某公公司司出出口口港港进进口口港港城城市市阶段阶段1阶段阶段2阶段阶段3阶段阶段45/26/20233n这是一个多阶段决策问题,它可分为四个阶段:这是一个多阶段决策问题,它可分为四个阶段:q第一阶段:从第一阶段:从Q(制造厂制造厂)到到A(出口港出口港);q第二
3、阶段:从第二阶段:从A(出口港出口港)到到B(进口港进口港);q第三阶段:从第三阶段:从B(进口港进口港)到到C(城市城市);q第四阶段:从第四阶段:从C(城市城市)到到T(某公司某公司)。n每个阶段选取的路线不同,对应从每个阶段选取的路线不同,对应从Q到到T就有一系列不同就有一系列不同的运输路线的运输路线:q从始点从始点Q到终点到终点T共有共有3321=18条不同路线条不同路线q现在的问题是如何选择一条费用最小的路线?现在的问题是如何选择一条费用最小的路线?5/26/20234多阶段决策问题的典型例子多阶段决策问题的典型例子v企企业业在在生生产产过过程程中中,由由于于需需求求是是随随着着时时
4、间间变变化化的的因因素素,因因此此企企业业为为了了获获得得全全年年最最佳佳经经济济效效益益,就就要要在在整整个个生生产产过程中逐月或逐季的根据库存和需求决定生产计划。过程中逐月或逐季的根据库存和需求决定生产计划。v某某种种机机器器,可可以以在在高高、低低两两种种负负荷荷下下生生产产。高高负负荷荷下下生生产产的的产产量量多多,但但每每生生产产一一个个阶阶段段后后机机器器的的完完好好率率低低;低低负负荷荷下下生生产产时时的的情情况况则则相相反反。现现在在需需要要安安排排该该种种机机器器在在多多个个阶阶段段内内的的生生产产,问问应应该该如如何何决决定定各各阶阶段段中中机机器器的的使使用,使整个计划期
5、内的总产量最大。用,使整个计划期内的总产量最大。v化化工工生生产产过过程程包包含含一一系系列列的的过过程程设设备备,如如反反应应器器、蒸蒸馏馏塔塔、吸吸收收器器等等等等,前前一一设设备备的的输输出出是是后后一一设设备备的的输输入入。因因此此,应应该该如如何何控控制制生生产产过过程程中中各各个个设设备备的的输输出出和和输输入入,使总产量最大。使总产量最大。5/26/20236v某台设备,例如汽车,刚买来时故障少,耗油低,出车某台设备,例如汽车,刚买来时故障少,耗油低,出车时间长,处理价值和经济效益高。随着使用时间的增加时间长,处理价值和经济效益高。随着使用时间的增加则变为故障多,耗油高,维修费用
6、增加,经济效益差。则变为故障多,耗油高,维修费用增加,经济效益差。使用时间愈长,处理价值也愈低。另外,每次更新都要使用时间愈长,处理价值也愈低。另外,每次更新都要付出更新费用。因此,应当如何决定设备的使用年限,付出更新费用。因此,应当如何决定设备的使用年限,使总的效益最佳。使总的效益最佳。v发射一枚火箭去击中运动中的目标。由于目标的行动是发射一枚火箭去击中运动中的目标。由于目标的行动是不断改变的,因此应如何根据目标运动情况,不断调整不断改变的,因此应如何根据目标运动情况,不断调整火箭飞行的方向与速度,使之最快地命中目标,等等。火箭飞行的方向与速度,使之最快地命中目标,等等。5/26/20237
7、什么是动态规划?什么是动态规划?n动动态态规规划划是是运运筹筹学学OROR的的一一个个分分支支,是是解解决决多多阶阶段段决决策策过过程程最最优优化化的的一一种种方方法法或或是是一一种种分分析析多多阶阶段段决决策策过过程程的的数数学学方方法法,这这种种方方法法可可根根据据人人们们所所采采取取的的措措施施,一一步步步步地地控制过程的发展,以实现预定的要求。控制过程的发展,以实现预定的要求。n这这一一运运筹筹学学分分支支最最初初是是由由美美国国数数学学家家BellmanBellman等等人人根根据据一一类类多多阶阶段段决决策策问问题题的的特特性性,提提出出了了解解决决这这类类问问题题的的最最优化原理
8、,并研究了许多实际问题而建立起来的。优化原理,并研究了许多实际问题而建立起来的。n贝贝尔尔曼曼的的名名著著动动态态规规划划于于19571957年年出出版版,这这成成了了动动态态规划的第一本著作。规划的第一本著作。5/26/20238L缺点:缺点:没有统一的处理方法,求解时要根据问题的性质,结没有统一的处理方法,求解时要根据问题的性质,结合多种数学技巧。因此,实践经验及创造性思维将起重要合多种数学技巧。因此,实践经验及创造性思维将起重要的引导作用。的引导作用。“维数障碍维数障碍”:当变量个数太多时,由于计算机内存和:当变量个数太多时,由于计算机内存和速度的限制导致问题无法解决。有些问题由于涉及的
9、函数速度的限制导致问题无法解决。有些问题由于涉及的函数没有理想的性质使问题只能用动态规划描述,而不能用动没有理想的性质使问题只能用动态规划描述,而不能用动态规划方法求解。态规划方法求解。5/26/202310 应特别指出的是,动态规划是解决某一类问题的一应特别指出的是,动态规划是解决某一类问题的一种方法,是分析问题的一种途径,而不是一种特殊算法种方法,是分析问题的一种途径,而不是一种特殊算法(如线性规划是一种算法如线性规划是一种算法)。因而,它不象线性规划那样。因而,它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必有一个标准的数学表达式和明确定义的一组规则,而必须对具体问题进
10、行具体分析处理。因此,在学习动态规须对具体问题进行具体分析处理。因此,在学习动态规划时,除了对基本概念和方法正确地理解外,应以丰富划时,除了对基本概念和方法正确地理解外,应以丰富的想象力去建立模型,用创造性的技巧去求解。正如贝的想象力去建立模型,用创造性的技巧去求解。正如贝尔曼本人所说:尔曼本人所说:“由于动态规划的最优化原理仅仅是一由于动态规划的最优化原理仅仅是一种基本原理,正是它的某种不确定性为你提供了发挥你种基本原理,正是它的某种不确定性为你提供了发挥你创造性思维的巨大空间创造性思维的巨大空间!5/26/202311n状态状态(state)q状态表示过程发展中某阶段的起始状况。状态表示过
11、程发展中某阶段的起始状况。q过程的发展可以通过各阶段状态的演变来描述。过程的发展可以通过各阶段状态的演变来描述。q状态可用一个变量来描述,称为状态可用一个变量来描述,称为状态变量状态变量状态变量状态变量,用,用Sk表示。表示。q选取的状态变量必须满足选取的状态变量必须满足无后效性无后效性无后效性无后效性。n某某阶阶段段的的状状态态给给定定后后,则则过过程程未未来来发发展展不不受受该该阶阶段段以前各阶段状态的影响。以前各阶段状态的影响。q第第 k 阶阶段段可可能能有有若若干干状状态态,用用Sk 表表示示阶阶段段k的的状状态态集集合,合,qsk(i)表示第表示第k阶段的第阶段的第 i 个状态。个状
12、态。5/26/202313q从从过过程程的的某某个个阶阶段段开开始始到到最最终终阶阶段段结结束束称称为为后后部部子子过过程程。从从第第k阶阶段段开开始始的的后后部部子子策策略略称称为为第第第第k k子子子子过过过过程程程程策略策略策略策略。pk,n(sk)=xk(sk),xk+1(sk+1),xn(sn)简记简记 pk,n=xk,xk+1,xnq每每一一阶阶段段有有若若干干状状态态,每每个个状状态态又又有有若若干干个个不不同同的的决决策策,即即有有许许多多策策略略可可供供选选择择。全全体体策策略略构构成成允允允允许许许许策策策策略略略略集合集合集合集合Pk,n(sk)。q能能使使预预期期目目标
13、标达达到到最最优优效效果果的的策策略略称称为为最最最最优优优优策策策策略略略略P*k,n,q构成最优策略的各决策称为相应阶段的构成最优策略的各决策称为相应阶段的最优决策最优决策最优决策最优决策x*k。5/26/202315n状态转移方程状态转移方程q下下一一阶阶段段状状态态sk+1 是是本本阶阶段段状状态态变变量量sk 和和决决策策变变量量xk的的函数,即函数,即 sk+1=T(sk,xk(sk)=T(sk,xk)q从从状状态态sk出出发发到到下下一一阶阶段段状状态态sk+1的的转转移移规规律律称称为为状状状状态态态态转移方程转移方程转移方程转移方程。n指标函数指标函数q用用来来衡衡量量每每一
14、一阶阶段段决决策策效效果果的的优优劣劣的的数数量量指指标标,称称为为阶阶阶阶段段段段指指指指标标标标函函函函数数数数vk ,阶阶段段指指标标是是状状态态变变量量和和相相应应决决策策变变量的函数,即量的函数,即vk=vk(sk,xk)。n最最短短问问题题是是运运费费或或路路程程。对对阶阶段段的的不不同同状状态态,采采取取不同的决策,运费不同。不同的决策,运费不同。n指标函数也可以是利润、成本、产量等。指标函数也可以是利润、成本、产量等。5/26/202316n逆序算法:逆着阶段顺序的方向,由后向前推算。逆序算法:逆着阶段顺序的方向,由后向前推算。q把寻求最优策略看作连续递推过程,从最终阶段开始,
15、把寻求最优策略看作连续递推过程,从最终阶段开始,逆着实际过程的进展方向逐段求解;逆着实际过程的进展方向逐段求解;q在每一阶段求解过程中都是其后部子过程最优策略的基在每一阶段求解过程中都是其后部子过程最优策略的基础上,再考虑本阶段的指标函数,求出本阶段的最优策础上,再考虑本阶段的指标函数,求出本阶段的最优策略;略;q直到第一阶段为止。直到第一阶段为止。n最优性原理:美国运筹学家贝尔曼提出最优性原理:美国运筹学家贝尔曼提出q无无论论过过去去的的状状态态和和决决策策如如何何,对对前前面面的的决决策策所所形形成成的的状状态而言,余下的诸决策必须构成最优策略。态而言,余下的诸决策必须构成最优策略。q将将
16、决决策策问问题题划划分分为为若若干干个个阶阶段段,全全过过程程的的优优化化问问题题就就分分解解为为子子过过程程的的优优化化问问题题,由由后后向向前前逐逐步步倒倒推推,最最优优化化的的子过程逐渐成为全过程最优。子过程逐渐成为全过程最优。q作作为为全全过过程程的的最最优优策策略略P*1,n的的组组成成部部分分的的任任一一子子策策略略P*k,n(Sk),一定是从状态,一定是从状态Sk 出发直至终点的最优策略。出发直至终点的最优策略。二、动态规划方法的基本思路二、动态规划方法的基本思路 5/26/202318n基本递推方程基本递推方程q据据最最优优性性原原理理,阶阶段段k的的阶阶段段指指标标vk(sk
17、,xk)加加上上(或或乘乘以以)从从下下一一阶阶段段k+1开开始始到到过过程程结结束束采采取取最最优优策策略略取取得得的的最最优优指指标标函函数数值值fk+1(sk+1),再再从从中中选选出出最最优优,便便是是阶段阶段k从状态从状态sk出发到全过程结束的最优指标函数值。出发到全过程结束的最优指标函数值。5/26/202319阶段阶段1阶段阶段2阶段阶段k阶段阶段k+1阶段阶段n状态状态S1决决策策x1状态状态S2v1决决策策x2状态状态S3v2决决策策xk状态状态Sk+1vk决决策策xk+1vk+1决决策策xnvn寻求最优解的方向寻求最优解的方向5/26/202320逆序递推法逆序递推法(Ba
18、ckward Indication Method)将寻优过程看做连续递推的过程,从最终阶将寻优过程看做连续递推的过程,从最终阶段开始,段开始,逆着逆着实际决策过程的进展方向逐段求解,实际决策过程的进展方向逐段求解,在每一段求解中都要利用刚刚求解完那段的结果,在每一段求解中都要利用刚刚求解完那段的结果,直到初始阶段求出结果回到始点为止。直到初始阶段求出结果回到始点为止。顺序递推法顺序递推法(Forward Indication Method)从初始阶段向前递推,直到最终阶段为止。从初始阶段向前递推,直到最终阶段为止。顺序递推法本质上并无新的建树,只是对某顺序递推法本质上并无新的建树,只是对某些实
19、际问题的求解,应用起来较为简便而已。些实际问题的求解,应用起来较为简便而已。5/26/202321三、建立动态规划模型的步骤三、建立动态规划模型的步骤 1、划分阶段、划分阶段划划分分阶阶段段是是运运用用动动态态规规划划求求解解多多阶阶段段决决策策问问题题的的第第一一步步,在在确确定定多多阶阶段段特特性性后后,按按时时间间或或空空间间先先后后顺顺序序,将将过过程程划划分分为为若若干干相相互互联联系系的的阶阶段段。对对于于静静态态问问题题要要人人为为地地赋赋予予“时时间间”概念,以便划分阶段。概念,以便划分阶段。2、正确选择状态变量、正确选择状态变量选选择择变变量量既既要要能能确确切切描描述述过过
20、程程演演变变又又要要满满足足无无后后效效性性,而而且且各各阶阶段段状状态态变变量量的的取取值值能能够够确确定定。一一般般地地,状状态态变变量量的的选选择择是从过程演变的特点中寻找。是从过程演变的特点中寻找。3、确定决策变量及允许决策集合、确定决策变量及允许决策集合通通常常选选择择所所求求解解问问题题的的关关键键变变量量作作为为决决策策变变量量,同同时时要要给给出出决策变量的取值范围,即确定允许决策集合。决策变量的取值范围,即确定允许决策集合。5/26/202322四、动态规划模型的求解四、动态规划模型的求解例例 分配投资问题分配投资问题 某公司有资金某公司有资金 10 万元,若投资于项目万元,
21、若投资于项目 k(k=1,2,3)的的投资额为投资额为 xk 时,其收益分别为时,其收益分别为 g1(x1)=4x1,g2(x2)=9x2,g3(x3)=2x32,问应该如何分配投资数额才能使总收益最大?,问应该如何分配投资数额才能使总收益最大?该问题表面上看与时间无明显关系,其静态模型:该问题表面上看与时间无明显关系,其静态模型:Max z=4x1+9x2+2x32 x1+x2+x3=10 xi 0(i=1,2,3)5/26/202324 如何应用动态规划方法求解此类静态规划问题?一般我如何应用动态规划方法求解此类静态规划问题?一般我们可以人为地给它赋予们可以人为地给它赋予“时段时段”的概念
22、,将投资项目的概念,将投资项目按任意顺序进行排序,如首先考虑项目按任意顺序进行排序,如首先考虑项目1 的投资,然后的投资,然后考虑项目考虑项目2 的投资的投资,即将问题人为划分为若干个阶,即将问题人为划分为若干个阶段,每个阶段只决定对一个项目应投资的金额。这样,段,每个阶段只决定对一个项目应投资的金额。这样,可以将上述问题转化为一个可以将上述问题转化为一个 n 阶段决策过程。阶段决策过程。分配投资问题的分析求解如下:分配投资问题的分析求解如下:n阶段阶段 k=1,2,3,分别表示项目,分别表示项目1,2,3n状态变量状态变量 sk:第:第 k 段初拥有的资金总量段初拥有的资金总量(分配给第分配
23、给第 k 至至第第 3 个项目的资金数量个项目的资金数量)n决策变量决策变量 xk:第:第 k 段的投资量段的投资量(分配给第分配给第 k 个项目的资个项目的资金数量金数量),决策集合决策集合 Dk(sk)=xk 0 xk sk n状态转移方程状态转移方程 sk+1=sk-xk 5/26/202325n阶段指标值阶段指标值(函数函数)vk(sk,xk)=gk(xk)n定义定义fk(sk):第:第 k 段初拥有的资金总量为段初拥有的资金总量为 sk 时,第时,第 k 至至第第 3 段按最优投资策略所获得的第段按最优投资策略所获得的第 k 至第至第 3 段的总收益。段的总收益。n建立动态规划基本方
24、程:建立动态规划基本方程:(逆序递推方程逆序递推方程)fk(sk)=max gk(xk)+fk+1(sk+1),k=3,2,10 xk skf4(s4)=05/26/202326k=1 当当f2(s2)=9s2,f1(10)=Max 4x1+f2(s2)0 x1 10=Max 9s1 5x1 =9s1,x1*=0 但此时但此时 s2=s1 x1=10-0 9/2 与与s2 9/2 矛盾,故舍去。矛盾,故舍去。当当f2(s2)=2s22,f1(10)=Max 4x1+f2(s2)0 x1 10=Max 4s1+2(s1 x1)2 同样可以证明极大值只可能在端点取得,比较两个端点:同样可以证明极大
25、值只可能在端点取得,比较两个端点:x1=0 时,时,f1(10)=200,x1=10 时,时,f1(10)=40所以所以 x1*=0 5/26/202328顺序确定顺序确定最优策略最优策略 s1=10 x1*=0s2=s1 x1*=10 9/2 x2*=0 s3=s2 x2*=10 x3*=10最优投资方案为全部资金投资于第最优投资方案为全部资金投资于第 3 3 个项目,可获最个项目,可获最大收益大收益 200 200 万元。万元。5/26/202329 解:整个计算过程分三个阶段,从最后一个阶段开始。解:整个计算过程分三个阶段,从最后一个阶段开始。第一阶段第一阶段(C D):C 有三条路线到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运筹学 10 动态 规划 课件
限制150内