第3章:动态规划.ppt
《第3章:动态规划.ppt》由会员分享,可在线阅读,更多相关《第3章:动态规划.ppt(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章:动态规划第三章:动态规划3.1 3.1 基本概念基本概念一、动态决策问题一、动态决策问题 决策过程具有阶段性和时序性决策过程具有阶段性和时序性(与时间有关与时间有关)的决策问题。即决策过程可划分为明显的阶段。的决策问题。即决策过程可划分为明显的阶段。二、什么叫动态规划二、什么叫动态规划(D.P.Dynamic Program)(D.P.Dynamic Program)多阶段决策问题最优化的一种方法。多阶段决策问题最优化的一种方法。广泛应用于工业技术、生产管理、企业管理、经济、军事等领域。广泛应用于工业技术、生产管理、企业管理、经济、军事等领域。三、动态规划三、动态规划(D.P.)(D.
2、P.)的起源的起源 19511951年年,(,(美美)数学家数学家R.BellmanR.Bellman等提出等提出最优化原理,从而建立动态规划,最优化原理,从而建立动态规划,名著名著动态规划动态规划于于19571957年出版。年出版。四、动态决策问题分类四、动态决策问题分类1 1、按数据给出的形式分为:、按数据给出的形式分为:离散型动态决策问题。离散型动态决策问题。连续型动态决策问题。连续型动态决策问题。2 2、按决策过程演变的性质分为:、按决策过程演变的性质分为:确定型动态决策问题。确定型动态决策问题。随机型动态决策问题随机型动态决策问题。1 五、动态决策问题的基本要素五、动态决策问题的基本
3、要素AB1B2B3C1C2C3D1D2D3E1E2F354954351715846442226975141 1、阶段阶段(stage)n(stage)n:作出决策的若干轮次。作出决策的若干轮次。n=1n=1、2 2、3 3、4 4、5 5。2 2、状态状态(state)Sstate)Sn n:每一阶段的出发位置。构成状态集,记为每一阶段的出发位置。构成状态集,记为S Sn n S S1 1=A=A,S S2 2=B=B1 1,B,B2 2,B,B3 3,S S3 3=C=C1 1,C,C2 2,C,C3 3,S S4 4=D=D1 1,D,D2 2,D,D3 3,S S5 5=E=E1 1,E
4、,E2 2。阶段的起点阶段的起点。3 3、决策决策(decision)Xdecision)Xn n:从:从一个阶段某状态演变到下一个阶段某状态的选择。一个阶段某状态演变到下一个阶段某状态的选择。构成决策集,记为构成决策集,记为D Dn n(S(Sn n)。阶段的终点。阶段的终点。D D1 1(S(S1 1)=X)=X1 1(A)=B(A)=B1 1,B,B2 2,B,B3 3=S=S2 2,D D2 2(S(S2 2)=X)=X2 2(B(B1 1),X),X2 2(B(B2 2),X),X2 2(B(B3 3)=C)=C1 1,C,C2 2;C;C1 1,C,C2 2,C,C3 3;C;C2
5、 2,C,C3 3=C=C1 1,C,C2 2,C,C3 3=S=S3 3,D D3 3(S(S3 3)=X)=X3 3(C(C1 1),X),X3 3(C(C2 2),X),X3 3(C(C3 3)=D)=D1 1,D,D2 2;D;D1 1,D,D2 2,D,D3 3;D;D1 1,D,D2 2,D,D3 3=D=D1 1,D,D2 2,D,D3 3=S=S4 4,D D4 4(S(S4 4)=X)=X4 4(D(D1 1),X),X4 4(D(D2 2),X),X4 4(D(D3 3)=E)=E1 1,E,E2 2;E;E1 1,E,E2 2;E;E1 1,E,E2 2=E=E1 1,E
6、,E2 2=S=S5 5,D D5 5(S(S5 5)=X)=X5 5(E(E1 1),X),X5 5(E(E2 2)=F;F=F)=F;F=F。2AB1B2B3C1C2C3D1D2D3E1E2F354954351715846442226975144 4、策略策略(policy)(policy):全过程中各个阶段的决策全过程中各个阶段的决策X Xn n组成的有序总体组成的有序总体 X Xn n。如如 A A B B2 2 C C1 1 D D1 1 E E2 2 F F 上例从上例从 A A F F 共有共有3838种走法,即有种走法,即有3838条路线,条路线,3838个策略。个策略。5 5
7、、子策略子策略(sub-policy)(sub-policy):剩下的剩下的n n个阶段构成个阶段构成n n子过程,相应的决策系列叫子过程,相应的决策系列叫n n子策略。子策略。如如 C C1 1 D D1 1 E E2 2 F F6 6、状态转移方程:前一阶段的终点状态转移方程:前一阶段的终点(决策决策)是后前一阶段的起点是后前一阶段的起点(状态状态)。X Xn n =S=Sn+1n+17 7、指标函数:各个阶段的数量指标,记为指标函数:各个阶段的数量指标,记为r rn n(s(sn n,x,xn n)。如上例中,用如上例中,用d dn n(s(sn n,x,xn n)表示距离。表示距离。d
8、 d2 2(B(B3 3,C,C2 2)=1,d)=1,d3 3(C(C2 2,D,D3 3)=6)=6 等。等。8 8、目标函数:策略的数量指标值,记为、目标函数:策略的数量指标值,记为 Z=optrZ=optr1 1(s(s1 1,x,x1 1)*)*r rn n(s(sn n,x,xn n)。其中:其中:optopt为为maxmax或或minmin,*为运算符号。为运算符号。如上例中,如上例中,Z=mindZ=mind1 1(s(s1 1,x,x1 1)+)+d dn n(s(sn n,x,xn n)=mind)=mind1 1+d+d2 2+d dn n 3 3.2 3.2 最优化原理
9、最优化原理 一、一、R.BellmanR.Bellman最优化原理:最优化原理:作为整个过程的最优策略,无任过去的状态和决策如何,对前面的决策形成状态而言,作为整个过程的最优策略,无任过去的状态和决策如何,对前面的决策形成状态而言,余下的诸决策必构成最优策略。余下的诸决策必构成最优策略。即:若即:若M M是从是从A A到到B B最优路线上的任一点,则从最优路线上的任一点,则从M M到到B B的路线也是最优路线。的路线也是最优路线。A MB 二、指标递推方程:二、指标递推方程:f fn n*(S Sn n)=)=optopt r rn n(s(sn n,x,xn n)*)*f fn+1 n+1*
10、(s(sn+1n+1)x xn nDDn n(S(Sn n)如上例:如上例:f fn n*(S Sn n)=)=minmin d dn n(s(sn n,x,xn n)+)+f fn+1n+1*(S(Sn+1n+1),n n=4=4、3 3、2 2、1 1 x xn nDDn n(S(Sn n)f f5 5*(S(S5 5)=)=minmin r r5 5(s(s5 5,x,x5 5)x x5 5DD5 5(S(S5 5)三、求解过程:三、求解过程:用反向嵌套递推法:从最后一个阶段开始,依次对各子过程寻优,直至获得全过程的最优,用反向嵌套递推法:从最后一个阶段开始,依次对各子过程寻优,直至获得
11、全过程的最优,形成最优策略,获得最优策略指标值。形成最优策略,获得最优策略指标值。4 3.3 DP3.3 DP建模及求解建模及求解 一、建模条件:一、建模条件:决策过程本身具有时顺序性或可以转化为具有时序性的决策问题,决策过程本身具有时顺序性或可以转化为具有时序性的决策问题,均可建立动态规划数学模型求解。均可建立动态规划数学模型求解。AB1B2B3C1C2C3D1D2D3E1E2F35495435171584644222697514 二、典型动态决策问题建模及其求解二、典型动态决策问题建模及其求解 1 1、最短路线问题、最短路线问题 例例1 1:求下列图中:求下列图中A A到到F F的的最短路
12、线及最短路线值。最短路线及最短路线值。5AB1B2B3C1C2C3D1D2D3E1E2F354954351715846442226975141 1、阶段阶段(stage)n(stage)n:n=1n=1、2 2、3 3、4 4、5 5。2 2、状态状态(state)Sstate)Sn n:S S1 1=A=A,S S2 2=B=B1 1,B,B2 2,B,B3 3,S S3 3=C=C1 1,C,C2 2,C,C3 3,S S4 4=D=D1 1,D,D2 2,D,D3 3,S S5 5=E=E1 1,E,E2 2。3 3、决策决策(decision)Xdecision)Xn n:决策集决策集
13、D Dn n(S(Sn n)。D D1 1(S(S1 1)=X)=X1 1(A)=B(A)=B1 1,B,B2 2,B,B3 3=S=S2 2,D D2 2(S(S2 2)=X)=X2 2(B(B1 1),X),X2 2(B(B2 2),X),X2 2(B(B3 3)=C)=C1 1,C,C2 2;C;C1 1,C,C2 2,C,C3 3;C;C2 2,C,C3 3=C=C1 1,C,C2 2,C,C3 3=S=S3 3,D D3 3(S(S3 3)=X)=X3 3(C(C1 1),X),X3 3(C(C2 2),X),X3 3(C(C3 3)=D)=D1 1,D,D2 2;D;D1 1,D,
14、D2 2,D,D3 3;D;D1 1,D,D2 2,D,D3 3=D=D1 1,D,D2 2,D,D3 3=S=S4 4,D D4 4(S(S4 4)=X)=X4 4(D(D1 1),X),X4 4(D(D2 2),X),X4 4(D(D3 3)=E)=E1 1,E,E2 2;E;E1 1,E,E2 2;E;E1 1,E,E2 2=E=E1 1,E,E2 2=S=S5 5,D D5 5(S(S5 5)=X)=X5 5(E(E1 1),X),X5 5(E(E2 2)=F;F=F)=F;F=F。4 4、状态转移方程:状态转移方程:X Xn n =S=Sn+1n+15 5、指标函数指标函数(距离距离
15、):d dn n(s(sn n,x,xn n)。d d2 2(B(B3 3,C,C2 2)=1,)=1,d d3 3(C(C2 2,D,D3 3)=6)=6 等。等。6 6、指标递推方程指标递推方程:f fn n*(S Sn n)=)=minmin r rn n(s(sn n,x,xn n)+)+f fn+1n+1*(S(Sn+1n+1),n n=4=4、3 3、2 2、1 1 x xn nDDn n(S(Sn n)f f5 5*(S(S5 5)=)=minmin r r5 5(s(s5 5,x,x5 5)x x5 5DD5 5(S(S5 5)6AB1B2B3C1C2C3D1D2D3E1E2F
16、3549543517158464422269751411F22F4+1=52+2=44 E26+1=79+2=117E17+1=85+2=77E27AB1B2B3C1C2C3D1D2D3E1E2F354954351715846442226975141+4=55+7=12 /5D18+4=124+7=116+7=1311D24+4=84+7=112+7=98D19+5=145+11=16 /14C14+5=93+11=145+8=139C1 /1+11=127+8=15 12C28AB1B2B3C1C2C3D1D2D3E1E2F354954351715846442226975143+14=175
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态 规划
限制150内