第六讲动态规划上.ppt
《第六讲动态规划上.ppt》由会员分享,可在线阅读,更多相关《第六讲动态规划上.ppt(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六讲动态规划上现在学习的是第1页,共47页第一节第一节多阶段决策过程的最优化多阶段决策过程的最优化 美国数学家贝尔曼美国数学家贝尔曼(R.Bellman)50R.Bellman)50年代执年代执教于普林斯顿和斯坦福大学,后进入兰德教于普林斯顿和斯坦福大学,后进入兰德(RandRand)研究所。研究所。19571957年发表年发表“Dynamic Dynamic ProgrammingProgramming”一书,标识动态规划的正式诞生。一书,标识动态规划的正式诞生。现在学习的是第2页,共47页最短路问题最短路问题给定一个交通网络图如下,其中两点之间的数字表示距离(或花费),给定一个交通网络图
2、如下,其中两点之间的数字表示距离(或花费),试求从试求从A A点到点到G G点的最短距离(总费用最小)点的最短距离(总费用最小)AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368766835338422123335526643123456现在学习的是第3页,共47页2 2、每个阶段都要进行、每个阶段都要进行决策决策,目的是使整个过程的决策达到目的是使整个过程的决策达到最优效果。最优效果。多阶段决策问题:多阶段决策问题:1 1、在多阶段决策过程中、在多阶段决策过程中,系统的动态过程可以按照时间进程分系统的动态过程可以按照时间进程分为为状态状态相互相互联系联系而又相互而又相互
3、区别区别的各个的各个阶段阶段;现在学习的是第4页,共47页12n状态状态决策决策状态状态决策决策状态状态状态状态决策决策现在学习的是第5页,共47页多阶段决策问题的典型例子多阶段决策问题的典型例子现在学习的是第6页,共47页 给定一个线路网络图,要从给定一个线路网络图,要从A A地向地向F F地铺设一条输油管道,各点间地铺设一条输油管道,各点间连线上的数字表示距离,问应选择什么路线,可使总距离最短连线上的数字表示距离,问应选择什么路线,可使总距离最短?现在学习的是第7页,共47页资源分配问题资源分配问题 例例.某某公公司司拟拟将将某某种种设设备备5 5台台,分分配配给给所所属属的的甲甲、乙乙、
4、丙丙三三个个工工厂厂。各各工工厂厂获获得得此此设设备备后后,预预测测可可创创造造的的利利润润如如下下表表所所示示,问问这这5 5台台设设备备应应如如何何分配给这分配给这3 3个工厂,使得所创造的总利润为最大?个工厂,使得所创造的总利润为最大?工厂 盈利设备台数 甲 厂 乙 厂 丙 厂 0 0 0 0 1 3 5 4 2 7 10 6 3 9 11 11 4 12 11 12 5 13 11 12现在学习的是第8页,共47页机器负荷分配问题机器负荷分配问题 某某种种机机器器可可以以在在高高低低两两种种不不同同的的负负荷荷下下进进行行生生产产。在在高高负负荷荷下下进进行行生生产产时时,产品的年产量
5、产品的年产量g g和投入生产的机器数量和投入生产的机器数量u u1 1的关系为的关系为g g=g g(u u1 1)这时,机器的年完好率为这时,机器的年完好率为a a,即如果年初完好机器的数量为即如果年初完好机器的数量为u u,到年终完好的到年终完好的机器就为机器就为auau,0,0a a11。在低负荷下生产时,产品的年产量在低负荷下生产时,产品的年产量h h和投入生产的机器数量和投入生产的机器数量u u2 2的关系为的关系为 h h=h h(u u2 2)假定开始生产时完好的机器数量为假定开始生产时完好的机器数量为s s1 1。要求制定一个五年计划,在每年开始时要求制定一个五年计划,在每年开
6、始时,决定如何重新分配完好的机器在两种不同的负荷下生产的数量,使在五年内,决定如何重新分配完好的机器在两种不同的负荷下生产的数量,使在五年内产品的总产量达到最高。产品的总产量达到最高。相应的机器年完好率相应的机器年完好率b b,0,0b b11。现在学习的是第9页,共47页设备更新问题设备更新问题 企企业业在在使使用用设设备备时时都都要要考考虑虑设设备备的的更更新新问问题题,因因为为设设备备越越陈陈旧旧所所需需的的维维修修费费用用越越多多,但但购购买买新新设设备备则则要要一一次次性性支支出出较较大大的的费费用用。现现某某企企业业要要决决定定一一台台设设备备未未来来8 8年年的的更更新新计计划划
7、,已已预预测测了了第第j j年年购购买买设设备备的的价价格格为为K Kj j,设设G Gj j为为设设备备经经过过j j年年后后的的残残值值,C Cj j为为设设备备连连续续使使用用j-1j-1年年后后在在第第j j年年的的维维修修费费(j j1 1,2 2,8)8),问问应应在在哪哪些些年年更更新新设设备备可使总费用最小。可使总费用最小。这这是是一一个个8 8阶阶段段决决策策问问题题,每每年年年年初初要要作作出出决决策策,是是继继续续使使用用旧旧设设备备,还是购买新设备。还是购买新设备。现在学习的是第10页,共47页第二节第二节动态规划的基本概念和基本原理动态规划的基本概念和基本原理 一、动
8、态规划的基本概念一、动态规划的基本概念使使用用动动态态规规划划方方法法解解决决多多阶阶段段决决策策问问题题,首首先先要要将将实实际际问问题题写写成成动动态态规规划划模模型型,此此时时要要用用到到以以下下概概念:念:(1)阶段;阶段;(2)状态;状态;(3)决策和策略;决策和策略;(4)状态转移;状态转移;(5)指标函数指标函数。现在学习的是第11页,共47页要便于把问题的过程转化为多阶段决策的过程。要便于把问题的过程转化为多阶段决策的过程。1.阶段、阶段变量阶段、阶段变量 把所给问题的过程,适当地分为若干个相互联系把所给问题的过程,适当地分为若干个相互联系的的阶段阶段,以便按次序去求每阶段的解
9、以便按次序去求每阶段的解;描述阶段的变量称为描述阶段的变量称为阶段变量阶段变量,常用常用k k表示表示;阶段的划分,一般是阶段的划分,一般是按时间和空间按时间和空间的的自然特征自然特征(年、月、年、月、路段路段)来划分)来划分 ;现在学习的是第12页,共47页 例例中,从中,从A A到到F F可以分成从可以分成从A A到到B (BB (B有两种选择有两种选择B B1 1,B,B2 2),从从B B到到C (CC (C有四种选择有四种选择C C1 1,C C2 2,C C3 3,C C4 4),从从C C到到D (DD (D有三种选择有三种选择D D1 1,D D2 2 ,D,D3 3),从从D
10、 D到到E (EE (E有两种选择有两种选择E E1 1,E E2 2),再从再从E E到到F F五个阶段。五个阶段。k k1 1,2 2,3 3,4 4,5 5。现在学习的是第13页,共47页 状态变量的取值有一定的允许集合或范围,此集合称状态变量的取值有一定的允许集合或范围,此集合称为为状态允许集合,状态允许集合,用用S Sk k表示。表示。2.2.状态、状态变量状态、状态变量 每个阶段开始所处的自然状态或客观条件。通常一个每个阶段开始所处的自然状态或客观条件。通常一个阶段有若干个状态。阶段有若干个状态。描述过程状态的变量称为描述过程状态的变量称为状态变量状态变量,常用常用s sk k(一
11、个数、一个数、一组数、一个向量一组数、一个向量)表示第表示第k k阶段的状态。阶段的状态。现在学习的是第14页,共47页 在例在例5中,第一阶段状态为中,第一阶段状态为A,第二阶段则有二个状态:第二阶段则有二个状态:Bl,B2。状状态变量态变量s1的集合的集合 ,后面各段的状态集合分别是:,后面各段的状态集合分别是:现在学习的是第15页,共47页 动态规划中的状态应具有如下性质:当某阶段状态给定以后,在这阶段以后过程的发动态规划中的状态应具有如下性质:当某阶段状态给定以后,在这阶段以后过程的发展不受这段以前各段状态的影响。也就是说,当前的状态是过去历史的一个完整总结,展不受这段以前各段状态的影
12、响。也就是说,当前的状态是过去历史的一个完整总结,过程的过去历史只能通过当前状态去影响它未来的发展,这称为过程的过去历史只能通过当前状态去影响它未来的发展,这称为无后效性无后效性。如果所选定如果所选定的变量不具备无后效性,就不能作为状态变量来构造动态规划模型的变量不具备无后效性,就不能作为状态变量来构造动态规划模型。例例 5 5 中中,当当某某段段的的初初始始状状态态已已选选定定某某个个点点时时,从从这这个个点点以以后后的的铺铺管管路路线线只只与与该该点点有有关关,不受以前的铺管路线影响,所以满足状态的无后效性。不受以前的铺管路线影响,所以满足状态的无后效性。现在学习的是第16页,共47页 在
13、实际问题中决策变量的取值往往在某一范围之内,此范围称为在实际问题中决策变量的取值往往在某一范围之内,此范围称为允许决策集允许决策集合合。常用常用 D Dk k(s sk k)表示第表示第 k k 阶段从状态阶段从状态s sk k出发的允许出发的允许决策集合决策集合,显然有显然有 决策变量是状态变量的函数。决策变量是状态变量的函数。3.决策、决策变量决策、决策变量 过程的某一阶段、过程的某一阶段、某个状态某个状态,可以做出不同的决定可以做出不同的决定(选择选择),),决定下一阶段的状态,决定下一阶段的状态,这种决定称为这种决定称为决策决策。uk(sk)Dk(sk)描述决策的变量,称为描述决策的变
14、量,称为决策变量决策变量。常用常用 表示第表示第 k k 阶段当状态阶段当状态为为s sk k 时的决策变量。时的决策变量。现在学习的是第17页,共47页 在在例例5 5中,从第二阶段的状态中,从第二阶段的状态B B1 1出发,可选择下一段的出发,可选择下一段的C C1 1,C C2 2,C C3 3,即其允许决策集即其允许决策集 合为:合为:我们决定选择我们决定选择C3,则可表为:则可表为:uk(sk)Dk(sk)现在学习的是第18页,共47页由由每每段段的的决决策策按按顺顺序序排排列列组组成成的的决决策策函函数数序序列列称称为为k子子过过程程策策略略,简简称称子子策策略略,记为记为pk,n
15、(sk),即即 当当k=1时,此决策函数序列成为全过程的一个策略,简称时,此决策函数序列成为全过程的一个策略,简称策略策略,记为记为p1,n(s1)即:即:4.策略策略按顺序排列的按顺序排列的决策决策组成的集合;组成的集合;可供选择的策略有一定范围,此范围称为可供选择的策略有一定范围,此范围称为允许策略集合允许策略集合,用用表示。从表示。从允许策略集合中找出达到最优效果的策略称为允许策略集合中找出达到最优效果的策略称为最优策略最优策略。由第由第kn(终止状态终止状态)为止的过程,称为问题的为止的过程,称为问题的后部子过程后部子过程(k 子过程)子过程)现在学习的是第19页,共47页 费用、成本
16、、利润、路长等费用、成本、利润、路长等 。用。用 V Vk k,n n 表示之。表示之。5.指标函数和最优值函数指标函数和最优值函数 用于衡量所选定策略优劣的数量指标称为用于衡量所选定策略优劣的数量指标称为指标函数指标函数;它是定义在全过程或它是定义在全过程或所有所有后部后部子过程上确定的数量函数。子过程上确定的数量函数。一个一个n n段决策过程,从段决策过程,从l l到到n n叫作问题的叫作问题的原过程原过程,对于任意一个给定的对于任意一个给定的k(1kn)k(1kn),从第从第k k段到第段到第n n段的过程称为原过程的一个段的过程称为原过程的一个后部子过程后部子过程。表示在第表示在第k
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 动态 规划
限制150内