《动态规划》PPT课件.ppt
《《动态规划》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《动态规划》PPT课件.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章第五章 动态规划动态规划1 1 多阶段决策过程及实例多阶段决策过程及实例2 2 动态规划的基本概念和基本方程动态规划的基本概念和基本方程3 3 动态规划的最优性原理和最优性定理动态规划的最优性原理和最优性定理4 4 动态规划与静态规划的关系动态规划与静态规划的关系1 多阶段决策过程及实例多阶段决策过程及实例 在实际中,有一类问题可以看作是一活动的在实际中,有一类问题可以看作是一活动的过程,由于它的特殊性,可将过程分为若干个相过程,由于它的特殊性,可将过程分为若干个相互联系阶段,在每个阶段都要依据该阶段所处的互联系阶段,在每个阶段都要依据该阶段所处的状态作出相应的决策,该决策又引起该阶段状
2、态状态作出相应的决策,该决策又引起该阶段状态的转移,决定了下一阶段的状态,当每个阶段的的转移,决定了下一阶段的状态,当每个阶段的决策确定后,由这些决策组成一个决策序列,即决策确定后,由这些决策组成一个决策序列,即整个过程的一条活动路线。这类活动过程称为多整个过程的一条活动路线。这类活动过程称为多阶段决策过程。这类问题称为多阶段决策问题。阶段决策过程。这类问题称为多阶段决策问题。12n状态状态状态状态状态状态状态状态状态状态决策决策决策决策决策决策 例例1 最短路线问题最短路线问题 如如下下图图,是是一一线线路路网网络络,两两点点之之间间连连线线上上的的数数字字表表示示两两点点之之间间的的距距离
3、离(或或费费用用)试试求求一一条条由由A到到G的的铺铺管管线线路,使总距离为最短(或总费用最小)。路,使总距离为最短(或总费用最小)。1状态状态状态状态状态状态状态状态状态状态决策决策决策决策决策决策23456状态状态状态状态决策决策决策决策决策决策 B2 C3 D2 E3 F2 G B2 C3 D2 E3 F2 G AV6,6=3AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368766835338422133355266432V1,6=24V5,6=9V4,6=11V3,6=14V2,6=21V1,6=24 例例2 机器负荷分配问题机器负荷分配问题 某种机器可以在高低两
4、种不同负荷下进行生产。某种机器可以在高低两种不同负荷下进行生产。在在高高负负荷荷下下进进行行生生产产时时,产产品品的的年年产产量量g和和投投入入生生产的机器数产的机器数u的关系为的关系为 在低负荷下进行生产时,产品的年产量在低负荷下进行生产时,产品的年产量h和投入生产和投入生产的机器数的机器数u的关系为的关系为1状态状态状态状态状态状态状态状态状态状态决策决策决策决策决策决策2345状态状态决策决策决策决策 u1 u2 u3 u4 u5 s2 s3 s4 s5 s6 s1设:设:2 动态规划的基本概念和基本方程动态规划的基本概念和基本方程 2.1 动态规划的基本概念动态规划的基本概念 1.阶段
5、阶段 把把过过程程依依据据一一定定的的时时间间和和空空间间特特征征恰恰当当地地划划分分为为若若干个相互联系的阶段,以便利用动态规划的方法求解。干个相互联系的阶段,以便利用动态规划的方法求解。描描述述阶阶段段的的变变量量称称为为阶阶段段变变量量,用用k表表示示。k=1,2,n 2.状态状态 每每个个阶阶段段开开始始所所处处的的自自然然状状况况或或客客观观条条件件,称称为为状状态。状态是不可控的,是客观存在的。态。状态是不可控的,是客观存在的。描描述述状状态态的的变变量量称称为为状状态态变变量量,用用sk表表示示。状状态态变变量量可可以以是是一一个个数数或或一一个个向向量量。状状态态变变量量sk的
6、的取取值值范范围围称称为可达状态集合,用为可达状态集合,用Sk表示。例表示。例1中,中,S3=C1,C2,C3,C4。状态变量的性质(无后效性)状态变量的性质(无后效性)如果某阶段的状态给定后,则该阶段以后的过程的如果某阶段的状态给定后,则该阶段以后的过程的发展不受该阶段以前各阶段状态的影响。即过程的过去发展不受该阶段以前各阶段状态的影响。即过程的过去历史只能通过当前的状态去影响未来的发展,当前的状历史只能通过当前的状态去影响未来的发展,当前的状态是以往历史的总结,以后发展的依据。这个性质称为态是以往历史的总结,以后发展的依据。这个性质称为无后效性(即马尔科夫性)。无后效性(即马尔科夫性)。无
7、后效性的特征:在每个阶段所作的决策只依据当无后效性的特征:在每个阶段所作的决策只依据当前的状态,和以往的状态无关。前的状态,和以往的状态无关。在选取状态变量时,一定要保证状态变量具有无后在选取状态变量时,一定要保证状态变量具有无后效性,否则不能利用动态规划的方法求解。效性,否则不能利用动态规划的方法求解。3.决策决策 在在每每个个阶阶段段所所作作的的决决定定或或选选择择称称为为决决策策或或控控制制。决决策依据与当前状态,又决定下一阶段的状态。策依据与当前状态,又决定下一阶段的状态。描描述述决决策策的的变变量量称称为为决决策策变变量量,用用uk(sk)表表示示。他他是是状状态态变变量量sk的的函
8、函数数。决决策策变变量量的的取取值值范范围围称称为为容容许许决决策集合,用策集合,用Dk(sk)表示。表示。在例在例1中中 D1(A)=B1,B2 D2(B1)=C1,C2,C3,D2(B2)=C2,C3,C4 D4(D1)=E2,E3 在例在例2中中 D1(s1)=u1(s1)|0u1(s1)s1 D2(s2)=u2(s2)|0u2(s2)s2 Dk(sk)=uk(sk)|0uk(sk)sk 4.策略策略 按一定顺序排列的决策序列集合称为策略。按一定顺序排列的决策序列集合称为策略。由由过过程程的的第第k阶阶段段开开始始到到终终止止状状态态为为止止的的过过程程,称称为为问题的后部子过程(或称为
9、问题的后部子过程(或称为k子过程)。子过程)。由由k子子过过程程的的每每个个阶阶段段的的决决策策函函数数组组成成的的决决策策函函数数序序列列集集合合uk(sk),uk+1(sk+1),un(sn)称称为为k子子过过程程策策略略,简称为子策略,记为简称为子策略,记为pk,n(sk),即,即 pk,n(sk)=uk(sk),uk+1(sk+1),un(sn)当当k=1时时,此决策函数序列称为全过程的一个策略,此决策函数序列称为全过程的一个策略,简称为策略,记为简称为策略,记为p1,n(s1)。即。即 p1,n(sk)=u1(s1),u2(s2),un(sn)策略的取值范围称为容许策略集合,用策略的
10、取值范围称为容许策略集合,用P表示。表示。在在P中中,使指标函数达到最优的策略称为最优策略。使指标函数达到最优的策略称为最优策略。例例1中中,每每一一条条线线路路就就是是一一个个策策略略,容容许许策策略略集集合合中中有有48个策略。个策略。A到到G的最短线路就是最优策略。的最短线路就是最优策略。5.状态转移方程状态转移方程 若给定第若给定第k个阶段状态变量个阶段状态变量sk的值,该阶段的决策变的值,该阶段的决策变量量uk的值一经确定,第的值一经确定,第k+1个阶段的状态变量个阶段的状态变量sk+1的值也的值也就完全确定了,即就完全确定了,即sk+1是是sk和和 uk的函数,记为的函数,记为 s
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态规划 动态 规划 PPT 课件
限制150内