运筹学第章动态规划.ppt
《运筹学第章动态规划.ppt》由会员分享,可在线阅读,更多相关《运筹学第章动态规划.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022/12/181第六章第六章 动态规划动态规划Dynamic Programming,DP美国数学家贝尔曼(Richard.Bellman,(19201984)创始时间上个世纪50年代创始人 动态规划是运筹学的一个主要分支动态规划是运筹学的一个主要分支,同时也是现代企同时也是现代企业管理中的一种重要决策方法业管理中的一种重要决策方法,它是解决它是解决多阶段决策过程多阶段决策过程的最优化的一种方法。的最优化的一种方法。2022/12/182动态规划动态规划模型分类模型分类离散确定型离散确定型离散随机型连续确定型连续随机型 动态规划解决问题的思路独特动态规划解决问题的思路独特,在处理某些优化
2、问题时在处理某些优化问题时,有有时比线性规划或者非线性规划更有效时比线性规划或者非线性规划更有效.需要需要丰富的想象力丰富的想象力去建去建立模型,并能用立模型,并能用创造性的技巧创造性的技巧去求解。去求解。其中其中离散确定性离散确定性是最基本的是最基本的,本章主要介绍这种类型的问题本章主要介绍这种类型的问题,介介绍动态规划的基本思想、原理和方法绍动态规划的基本思想、原理和方法.2022/12/183本章主要内容本章主要内容n多阶段决策过程及其问题举例多阶段决策过程及其问题举例 q最短路问题最短路问题n 动态规划的基本概念和基本方程动态规划的基本概念和基本方程 n动态规划应用举例动态规划应用举例
3、q资源分配问题资源分配问题q背包问题背包问题q生产库存问题生产库存问题q2022/12/1846.1 多阶段决策过程及其问题举例多阶段决策过程及其问题举例n动态规划研究的问题动态规划研究的问题-多阶段决策多阶段决策问题(顺序决策问问题(顺序决策问题)题)q研究的问题可以在研究的问题可以在时间或空间上时间或空间上划分为若干个划分为若干个相互联系相互联系阶段,阶段,称为称为”时段时段”。q在每一个时段都需要做出决策在每一个时段都需要做出决策,每时段的决策将影响到每时段的决策将影响到下一时段的决策下一时段的决策,因此决策者每段决策时因此决策者每段决策时,不仅要考虑不仅要考虑本本阶段目标最优阶段目标最
4、优,还应考虑最还应考虑最终目标的最优终目标的最优,最终达到整个最终达到整个决策活动的决策活动的总体目标最优总体目标最优.12状态状态状态n状态决策决策决策状态2022/12/185 动态规划方法与动态规划方法与“时间时间”关系很密切,随着时间过程关系很密切,随着时间过程的发展而决定各时段的决策,产生一个的发展而决定各时段的决策,产生一个决策序列决策序列,这就是,这就是“动态动态”的意思。的意思。然而,它也可以处理与时间无关的然而,它也可以处理与时间无关的静态问题静态问题,只要在问,只要在问题中题中人为地引入人为地引入“时段时段”因素因素,就可以将其转化为一个多,就可以将其转化为一个多阶段决策问
5、题。阶段决策问题。2022/12/1862511214106104131112396581052C1C3D1AB1B3B2D2EC2例例1 最短路径问题最短路径问题求从求从A A到到E E的最短路径。的最短路径。显然,这种运输网络问题是显然,这种运输网络问题是静态决策问题静态决策问题。但是,按照网络中点的分布,可以把。但是,按照网络中点的分布,可以把它分为它分为4 4个阶段,而作为多阶段决策问题来研究。个阶段,而作为多阶段决策问题来研究。2022/12/187 第一种方法第一种方法称做称做全枚举法或穷举法全枚举法或穷举法。它的基本思想是。它的基本思想是列举出所有可能发生的方案和结果,再对它们一
6、一进行比列举出所有可能发生的方案和结果,再对它们一一进行比较,求出最优方案。这里从较,求出最优方案。这里从A A到到E E的路程共有的路程共有3 33 32 21 11818条可能的路线,分别算出各条路线的距离,最后进行比条可能的路线,分别算出各条路线的距离,最后进行比较,可知最优路线。显然,当组成交通网络的节点很多时,较,可知最优路线。显然,当组成交通网络的节点很多时,用穷举法求最优路线的计算工作量将会十分庞大,而且其用穷举法求最优路线的计算工作量将会十分庞大,而且其中包含着许多重复计算中包含着许多重复计算 第二种方法第二种方法贪心算法贪心算法,即所谓,即所谓“局部最优路径局部最优路径”法,
7、法,是说某人从是说某人从k出发,他并不顾及全线是否最短,只是选择出发,他并不顾及全线是否最短,只是选择当前最短途径当前最短途径,“逢近便走逢近便走”,错误地以为局部最优会致,错误地以为局部最优会致整体最优,在这种想法指导下,所取决策必是整体最优,在这种想法指导下,所取决策必是 A B3 C3 D1 E.距离为:距离为:1+11+8+5=252022/12/188 2511214106104131112396581052C1C3D1AB1B3B2D2EC2第第1阶段阶段第第4阶段阶段第第3阶段阶段第第2阶段阶段状态状态第三种方法是第三种方法是动态规划方法动态规划方法。2022/12/189 基本
8、思想:基本思想:如果起点如果起点A经过经过B1,C1,D1而到终点而到终点E,则由,则由C1出出发经发经D1到到E点这条子路线,是从点这条子路线,是从C1到到E的最短路线。所以,寻的最短路线。所以,寻找最短路线,应该找最短路线,应该从最后一段开始找,然后往前递推从最后一段开始找,然后往前递推.设设 sk:第:第k阶段初的状态(所处的结点)阶段初的状态(所处的结点);xk(sk):在在sk状态时第状态时第k阶段所作的决策阶段所作的决策,决定下一个状态的位决定下一个状态的位置置;d(sk,xk):第第k阶阶段,采取策略段,采取策略xk 所发生的距离所发生的距离;fk(sk):在第在第k阶段,由阶段
9、,由sk状态开始到终点状态开始到终点E的最短距离的最短距离.2022/12/18102511214106104131112396581052C1C3D1AB1B3B2D2EC2f5(E)=02022/12/18112511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D1)=5f5(E)=02022/12/18122511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f4(D1)=52022/12/18132511214106104131112396581052C1C3D1AB1B3
10、B2D2EC2f4(D2)=2f5(E)=0f3(C1)=8f4(D1)=52022/12/18142511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C2)=7f4(D1)=5f3(C1)=82022/12/18152511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f3(C1)=8f3(C2)=72022/12/18162511214106104131112396581052C1C3D1AB1B3B2D2EC2f
11、4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B1)=20f3(C2)=7f3(C1)=82022/12/18172511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B2)=14f3(C2)=7f3(C1)=8f2(B1)=202022/12/18182511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f2(B1
12、)=20f2(B2)=142022/12/18192511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=202022/12/18202511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=20状态状态
13、最优决策最优决策 状态状态 最优决策最优决策 状态状态 最优决策最优决策 状态状态 最优决策最优决策 状态状态A (A,B2)B2 (B2,C1)C1 (C1,D1)D1 (D1,E)E从从A到到E的最短路径为的最短路径为19,路线为,路线为AB 2C1 D1 E 2022/12/1821多阶段决策过程及实例多阶段决策过程及实例-标号法标号法B1AC3F2F1E3E2E1D3D2D1C4C2C1B2G531368766835342138223335526643437597681310912131618该点到该点到G点的最短距离点的最短距离第一阶段第二阶段第三阶段第四阶段第五阶段第六阶段从从G到
14、到A的解法称为的解法称为逆序解法逆序解法。注:因为从注:因为从A A到到G G的最短路与从的最短路与从G G到到A A的最短路是一样的,的最短路是一样的,因此也可以从因此也可以从A A出发来找。从出发来找。从A A到到G G的解法称为的解法称为顺序解法顺序解法。2022/12/1822 综上所述可见,综上所述可见,全枚举法全枚举法虽可找出最优方案,但不是虽可找出最优方案,但不是个好算法,个好算法,局部最优法局部最优法则完全是个错误方法,只有则完全是个错误方法,只有动态规动态规划方法划方法属较科学有效的算法。它的基本思想是,属较科学有效的算法。它的基本思想是,把一个比把一个比较复杂的问题分解为一
15、系列同类型的更易求解的子问题较复杂的问题分解为一系列同类型的更易求解的子问题,便于应用计算机。便于应用计算机。2022/12/18236.2 动态规划的基本概念和基本方程动态规划的基本概念和基本方程(一一)基本概念和基本方程基本概念和基本方程(1)阶段阶段:k=1,,n(2)状态变量状态变量sk:第:第k阶段的状态阶段的状态.状态变量取值的集合成为状态变量取值的集合成为状态集合状态集合,用,用Sk表示。状态集合可以是一表示。状态集合可以是一离散取值的集合离散取值的集合,也可以为一也可以为一连续的取值区间连续的取值区间,视具体问题而定,视具体问题而定(3)决策变量决策变量uk(sk):第:第k阶
16、段的决定,阶段的决定,Dk(sk)为决策变量的取为决策变量的取值范围值范围.(4)状态转移方程状态转移方程sk1 T(sk,uk):描述第描述第k阶段与第阶段与第k+1阶段阶段的状态变量的关系的状态变量的关系2022/12/1824(5)指标指标 v(sk,uk):第:第k阶段状态阶段状态sk情况下采取决策情况下采取决策uk得到的结得到的结果(距离、得益、成本等)果(距离、得益、成本等)指标函数是指各阶段指标的累计。即指标函数是指各阶段指标的累计。即V(sk,uk,sn,un,sn+1)=vk(sk,uk)*vk+1(sk+1,uk+1)*vn(sn,un)它表示从第它表示从第k阶段的状态阶段
17、的状态sk开始到第开始到第n阶段的终止状态的指标阶段的终止状态的指标累计。式中累计。式中*表示某种运算符,一般为表示某种运算符,一般为加法运算或者乘积运算加法运算或者乘积运算。(6)最优指标函数最优指标函数fk(sk):它表示从第:它表示从第k阶段的状态阶段的状态sk开始到开始到第第n阶段的终止状态的过程,采取最优策略得到的指标函数阶段的终止状态的过程,采取最优策略得到的指标函数值值 阶段函数阶段函数2022/12/1825逆推公式逆推公式fk(sk)OPT d(sk,uk)+fk+1(sk+1)k=n,1fn+1(sn+1)0或或fk(sk)OPTd(sk,uk)+fk+1(sk+1)k=n
18、-1,1fn(sn)OPTd(sn,un)多阶段决策问题中,常见的目标函数形式之一是取多阶段决策问题中,常见的目标函数形式之一是取各阶段效各阶段效益之和的形式益之和的形式.有些问题,如系统可靠性问题,其目标函数有些问题,如系统可靠性问题,其目标函数是取是取各阶段效益的连乘积形式各阶段效益的连乘积形式.总之,具体问题的目标函数总之,具体问题的目标函数表达形式需要视具体问题而定。表达形式需要视具体问题而定。Max或者或者min2511214106104131112396581052C1C3D1AB1B3B2D2EC2第第1阶段阶段第第4阶段阶段第第3阶段阶段第第2阶段阶段对对例例1(1)阶段阶段:
19、k1,2,4(2)状态变量状态变量:sk第第k阶段初所处的阶段初所处的位置位置,状态集合状态集合 Sk 如如S2:=B1,B2,B3.2022/12/1827(3)决策变量决策变量uk:在第在第k段段sk状态时决定选取的下一段的某状态时决定选取的下一段的某点点.(4)状态转移方程状态转移方程:sk1 uk(sk)(5)阶段效益阶段效益:d(sk,uk)为第为第k段,采取决策段,采取决策uk 到下一状态的距离到下一状态的距离.(6)最优指标函数最优指标函数:fk(sk):第第k段,在段,在sk状态时到终点状态时到终点E的最短距离的最短距离.逆推公式:逆推公式:fk(sk)mind(sk,uk)+
20、fk+1(sk+1)k=4,1f5(s5)02022/12/1828(二)(二)贝尔曼贝尔曼最优化原理:最优化原理:一个最优策略具有这样的性质,即一个最优策略具有这样的性质,即不论初始状态与初始策略如何,对于不论初始状态与初始策略如何,对于先前决策所造成的状态而言,余下所先前决策所造成的状态而言,余下所有决策必构成最优决策有决策必构成最优决策。也即:也即:一个最优策略的子策略也是最一个最优策略的子策略也是最优的优的。A BMII II 2022/12/1829(三)解法步骤(三)解法步骤q反向条件优化反向条件优化q正向求最优解正向求最优解fk(sk)OPT d(sk,uk)+fk+1(sk+1
21、)k=n,1fn+1(sn+1)0fk(sk)OPT d(sk,uk)*fk+1(sk+1)k=n,1fn+1(sn+1)12022/12/18306.3 应用举例应用举例例例2 资源分配问题资源分配问题-1例例3 资源分配问题资源分配问题-2例例4 背包问题背包问题例例5 生产库存问题生产库存问题例例6 可靠性问题可靠性问题例例7 机器负荷分配问题机器负荷分配问题等等等等2022/12/1831例例 2 资源分配问题资源分配问题-1某公司准备将某公司准备将5 5台设备分配给所属的三个子工厂,各工厂获台设备分配给所属的三个子工厂,各工厂获得设备后的可盈利情况如表所示。得设备后的可盈利情况如表所
22、示。问:如何分配这五台设备,问:如何分配这五台设备,才能使公司获得的收益最大?才能使公司获得的收益最大?工厂工厂 盈利(万元)盈利(万元)设备设备数数工厂工厂1工厂工厂2工厂工厂300001354271063101111412111251411122022/12/1832分析分析(1)阶段:阶段:k=1,2,3.(3)决策变量决策变量uk:对第对第k个企业的分配数个企业的分配数.(2)状态变量状态变量sk:对第对第k至至3个企业可分配的设备数个企业可分配的设备数 或:第或:第k阶段初可分配的设备数阶段初可分配的设备数.(4)状态转移方程:状态转移方程:sk1 sk uk.(5)最优指标函数最优
23、指标函数fk(sk):第第k至至3个企业采取最优分配个企业采取最优分配策略可产生的最大收益策略可产生的最大收益.设分配给第设分配给第k个工厂的机器数为个工厂的机器数为uk工厂工厂1工厂工厂2工厂工厂32022/12/1833fk(sk)maxgk(uk)+fk+1(sk-uk)k=3,2,1f4(s4)0其中,其中,gk(uk)是阶段函数是阶段函数逆推公式:逆推公式:sk+12022/12/1834k=3,S3=0,1,2,3,4,5,f3(s3)maxg3(u3)+0g3(u3)+0max u3s3012345f3(s3)u3000010441204662304611113404611121
24、245046111212124,52022/12/1835k=2,S2=0,1,2,3,4,5,f2(s2)maxg2(u2)+f3(s3)g2(u2)+f3(s3)max最优最优决策决策 u2s2012345f2(s2)u20000(0,0)10+45+051(1,0)20+65+410+0102(2,0)30+115+610+411+0142(2,1)40+125+1110+611+411+0161,2(1,3)(2,2)50+125+1210+1111+611+411+0212(2,3)S3=S2-u32022/12/1836g1(u1)+f2(s2)max最优决策最优决策 u1s101
25、2345f1(s1)u150+213+167+1410+1012+514+0210,2(0,2,3)(2,2,1)k=1,S1=5,f1(s1)max g1(u1)+f2(s2)得到两种方案:得到两种方案:u1*0,u2*2,u3*3:工厂工厂1分配分配0台,工厂台,工厂2 分配分配2台,工厂台,工厂3分配分配3台台;u1*2,u2*2,u3*1:工厂工厂1分配分配2台,工厂台,工厂2 分配分配2台,工厂台,工厂3分配分配1台。台。总盈利均为总盈利均为21万元。万元。同理得到另一同理得到另一组最优解组最优解2022/12/1837一般分配问题一般分配问题某种资源,总量为某种资源,总量为a,分配
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运筹学 章动 规划
限制150内