2022年动态规划模型与实验 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年动态规划模型与实验 .pdf》由会员分享,可在线阅读,更多相关《2022年动态规划模型与实验 .pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、最优化模型与实验第169页第七章动态规划模型与实验一个系统依据某种方式分为许多个不同的阶段,这些阶段不仅有着次序推移性, 而且相互间有着依赖和影响。 这种能分成阶段推移的系统叫做动态系统。 动态规划是解决多阶段决策过程最优化的一种数学方法。动态规划的一个显著特点在于具有明确的阶段性,整个系统按某种方式可分为若干个不同的阶段,在每个阶段由若干种不同的方案可供选择。这样,在多阶段决策过程中,每个阶段决策的选择,不仅要依据次序来考查某阶段的效果外,而且更要顾及此决策对以后各阶段决策的影响, 特别是对以后各个阶段决策的影响。系统最优决策问题要求在系统每个阶段可供的多种方案(决策) 中,选择一个合适的决
2、策,使整个系统达到最优的效果。整个过程分为多阶段的决策过程。各个阶段所做的决策形成确定整个系统的决策序列,称这样的决策序列为系统的一个策略。对应某一确定的策略, 整个系统依据某种数量指标衡量其优劣的决策。 多阶段决策过程就是在所有允许策略集合中。确定一个达到最优指标的最优策略。这种衡量系统的指标一般取最大值或最小值的策略。因此,多阶段决策过程也是一个可以构成多个变量的最优化问题。 一个系统能分为多阶段的决策过程,有时需要数学技巧和艺术来划分, 动态规划就是解决此类多阶段决策过程的最优化方法。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - -
3、 - - 名师精心整理 - - - - - - - 第 1 页,共 17 页 - - - - - - - - - 第七章动态规划模型与实验第170页 7.1 动态规划的基本原理实际生活的问题, 通过构造数学模型, 具有特殊的动态系统过程,将基于某种方式把整个过程分成若干个互相联系的阶段,在其每个阶段都需要作出合适决策,从而使整个过程达到最佳效果。同时,各个阶段决策的选择依赖于该阶段的状态以及前或后阶段的变化。各个阶段决策确定后, 组成一个决策序列, 从而形成了整个过程具有前后关联的链状结构的多阶段决策过程,称为序贯决策过程。由此,动态规划求解首先关键在于如何将实际问题构造成能形成多阶段的系统,
4、并且在各个阶段能作出序贯性的最佳决策,以使在序贯决策的状态推移进程中达到整个系统的最优决策。例 7.1 能分成阶段的最短路问题。图7.1 是一个路线网络图,连线上的数字表示两点之间的距离(或费用),要求寻找一条由A 到 E的路线,使距离最短(或费用最省) 。B1C1D1AB2C2ED2B3C3图 7.1 对于这样一个比较简单的问题,可直接使用枚举法列举所有从A到 E 的路线,共 14条,然后,根据每条路线的长度(或费用) ,确定出所应走的路线(费用)最短(少) 。直观的思想,如果已找到由A 到 E 的最短路线是AB1C2D2E(记作 L) ,那么当寻求 L 中的任何一点(如C2)到 E8 6
5、5 7 9 9 9 7 4 5 10 5 5 5 6 8 11 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 17 页 - - - - - - - - - 最优化模型与实验第171页的最短路时,它必然是L 中子路线 C2D2E(记作 L1) 。否则若 D2到 E 的最短路是另一条路线L2 ,则把 AB1C2与 L2连接起来,就会得到一条不同于L 的从 A 到 E 的最短路。根据此特性,可以从最后一段开始, 用逐步向前递推的方法, 依次求出路段上各点到 E 的最短路,最后
6、得到A 到 E 的最短路。上述这种由系统的作后阶段逐段向初是始阶段求最优的过程称为动态规划的逆推解法。该过程揭示了动态规划的基础思想, 为使动态规划的思想和方法数学上描述。下面先引入动态规划中基本概念与最优目标函数的建立。(1)分阶段把所给的系统,适当地依据具体情况分成若干个相互联系的阶段,描述阶段的变量称为阶段变量,常用k 表示,并将各个阶段按顺序或逆序加以编号, 如例 7.1可分为 5 个阶段来求解,k=1,2,3,4,5。(2)状态状态表示系统在某一阶段所处的位置,自然状况或客观条件。一个阶段系统会存在若干个可能的状态。在例7.1 中,状态就是某阶段的出发位置, 它既是该阶段某之路的起点
7、,又是前一阶段某之路的终点, 一个阶段有若干个状态, 第一阶段有一个状态就是初始位置 A,第二阶段有三个状态,即使集合B1,B2,B3,一般第k阶段的状态就是第k 阶段所有始点的集合。描述过程状态的变量称为状态变量,常用Sk表示第 k 阶段的所有可能状态变量的集合,其元素为sk可以是数,数组或向量。如例7.1中第三阶段有三个状态, 则 sk可能取三个值,即C1,C2,C3,并且 S3=C1,C2,C3 称为第三阶段的可达状态集合。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页
8、,共 17 页 - - - - - - - - - 第七章动态规划模型与实验第172页(3)决策决策表示当系统处于某一阶段的某个状态时,可以作出不同的选择, 确定下一阶段的状态, 这种决定称为决策。 描述决策的变量称为决策变量,常用dk(sk)表示第 k 阶段当状态处于sk时的决策变量,它是状态变量的函数。而用Dk (Sk) 表示相应的决策变量的函数集,即有 dk (sk)Dk(Sk)。如在例 7.1第二阶段中,从状态B2出发,其允许决策集合为D2(B2)=C1,C2,C3,某一阶段的状态变量及决策变量的值取定之后,那么下一阶段的状态随之确定。例如选取的点为 C2,则 C2是状态 B1在决策
9、d2(B1)作用下的一个新的状态,记作 d2(B1)= C2,下一阶段的状态类似地对上阶段的状态和决策变量的依赖关系可用状态转移方程表示:sk+1=Tk (sk,d k (sk) ) (7.1) (4) 策略由系统各阶段确定的决策所形成的决策序列称为策略。从初始状态 s1出发由系统的所有 n个阶段的决策所形成的策略成为全过程策略,记为:P1,n(s1)= d1(s1), d2(s 2), , dn(sn) (7.2) 由系统的第 k 个阶段出发的后面 n k +1 个阶段的决策过程称为全过程的后部子过程,相应的策略称为后部子过程策略,记为Pk,n(sk)=d k(sk), d k+1(s k+
10、1), , dn(sn) (7.3) 所有可供选择的策略集合称为策略集合,用 P 表示,从允许策略集合中找出达到最优效果的策略称为最优策略。(5)状态转移方程状态转移方程是确定过程由一个状态到另一个状态的演变过程。 若给定第 k 阶段状态的演变过程,并且若该阶段名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 17 页 - - - - - - - - - 最优化模型与实验第173页的决策变量 dk一经确定,第 k+1 阶段的状态变量sk+1也就完全确定,这种对应关系为:sk
11、+1=Tk(sk,dk(sk) 所描述了由第k个阶段到第 k+1 个阶段的状态转移规律, 称为状态转移方程。Tk称为第 k 阶段的状态转移系数。 如例 7.1 中,状态转移方程为sk+1=dk(sk) (6) 阶段收益系统某一阶段的状态一经确定, 执行某一决策所得的效益称为阶段效益, 它是整个系统总收益的一部份。阶段效益是阶段状态和决策变量的函数,反映该阶段的价值与目标。对第k 阶段的某一状态 sk执行某一决策 dk(sk)的阶段效益可用rk(sk,dk(sk)来表示。在例 7.1中的阶段效益为走完一段路程所花费的距离。(7) 指标函数和最优值函数系统执行某一策略所产生效果的优劣可用数量指标来
12、衡量,这样的数量指标是整个系统总效益的反映,它是各个阶段状态和决策的函数,称为指标函数。 它是定义在全进程和所有子进程上确定的数量函数,记Fk,n(sk, pk,n),i=n,n-1,1 (7.4) 表示从阶段k 的某一状态 sk出发的后部子进程上的指标函数,其中pk,n表示从状态 sk出发的一个子策略, 最优策略下指标函数的指标为最优策略指标,记为),()(,opt,nkknkPpkkpsFsfnknk(7.5) 其中 Pk, n表示由状态Sk出发的所有允许子策略集合, “opt”为英文名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - -
13、- - 名师精心整理 - - - - - - - 第 5 页,共 17 页 - - - - - - - - - 第七章动态规划模型与实验第174页Optimization(最优)的缩写,可以依题意取min 或 max。由上述指标函数的定义,可得指标函数(例7.1 的指标函数注记rk(sk,dk(sk)表示第 k 阶段中点 sk到 dk(sk)的距离) 。1 ,1,)()(,()(.1,1nnksFsdsrsknFkknkkkkk其中1, 1,),(,(1nkkjsdsTsjjjjj(7.6) 而最优策略指标为1 , 1,),()(,()(,1, 1)(optnnkpsTfsdsrsfnkkkn
14、kkkkksdkkkk(7.7) 在例 7.1 中显然有fn+1(sn+1) = 0 (7.8) 称为边值条件 ,动态规划的求解对k=n, n-1,1 由(7.7)式求最优策略指标的过程。一般地对多数指标函数的形式取(7.6)式,而最优策略指标取形如(7.7)式,以求和形式出现,另一种常用形式是的各阶段的指标函数为乘积,即1 ,1,),()(,() )(,(),(,1,1,nnkpsFsdsrsdsrpsFnkknkkkkknkjjjjjnkknk(7.9) 其相应的最优策略指标为1 , 1,)(,()(,()(1,1)(optnnksdsTfsdsrsfkkkknkkkkksdkkkk(7.
15、10) 对更一般的系统来说, 指标函数未必是求和或乘积形式,但应具有可分离性,并满足递推关系,一般具有形式名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 17 页 - - - - - - - - - 最优化模型与实验第175页),(,(),(,(),(,1,1,nkkkkknkkkknkknkpsdsTFsdspsF(7.11) )(,(),(,()(1)(optkkkkkkkksdkksdsTfsdssfkk(7.12) 在第 k 阶段,指标函数最优策略指标,即最优值,
16、称为最优值函数,即 fk(sk)。根据上述确定的阶段编号、 状态变量、决策变量、状态转移方程以及指标函数,确定例7.1 的最短路线,计算步骤如下:根据最短路线特性,寻找最短路线的方法,将从最后一段开始,用由后向前逐步递推的方法, 求出各点到 E 点的最短路线, 最后求得由 A 点到 E 点的最短路线。所以,动态规划的方向是从各点逐段向始点方向寻找最短路线的一种方法,见图7.2 显示行进方向1 2 3 4 5 始点终点动态规划寻优途径图 7.2 当 k= 4 时,由 D1到终点 E 只有一条路线, 故 f4(D1) = 6,同理,f4(D2) = 5。当 k= 3 时,出发点有 C1、C2、C3
17、三个,若从 C1出发,则有两个选择,一是至 D1,一是至 D2,则115765min)(),()(),(min)(242131411313DfDCrDfDCrCf其相应的决策为d3(C1)=D1,表示由 D1至终点 E 的最短距离为 11,其最短路线是 C1D1E。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 17 页 - - - - - - - - - 第七章动态规划模型与实验第176页同理,从 C2和 C3出发,则有105566min)(),()(),(min)(2
18、42251412323DfDCrDfDCrCf其相应的决策为d3(C2) = D2。1451168min)(),()(),(min)(242331413333DfDCrDfDCrCf且 d3(C3) = D3。类似地,可计算当k=2 时,有f 2(B1)= 18 d2(B1)= C2f 2(B2)= 19 d2(B2)= C2f 2(B3)= 15 d2(B3)= C2当 k=1 时,出发点只有一个A 点,则23159177185min)(),()(),()(),(min)(3232222212111BfBArBfBArBfBArAf且 d1(A)= B1,于是获得从始点A 至终点 E 的最短
19、距离为 15。为使找出最短路线,再接计算的顺序推之,可求出最优决策函数序列dk,即由 d1(A)= B1,d2(B1)= C2,d3(C2)= D2,d4(D2)= E,组成一个最优策略。那么最短路线为AB1C2D2E。从上述例 7.1的计算过程,可知动态规划的方法比枚举有以下优点:(1)减少计算量,使用枚举法,要对18 条路线比较,即比较运算进行 18次,逐阶段累计加法为64 次。使用动态规划来计算,比较运算为 7 次,加法运算 16 次,可见,动态规划方法比穷举法减少了许多计算量,而且随着规模扩大,计算量将大大地减少。名师资料总结 - - -精品资料欢迎下载 - - - - - - - -
20、 - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 17 页 - - - - - - - - - 最优化模型与实验第177页(2)丰富了计算结果,虽然枚举法执行了较多的运算,其结果只有从起点 A 到终点 E 的一个结果,用动态规划方法以较少的运算不仅得到从 A 至 E 的最优路线,而且还确定了各中间点到终点E 的最优路线。 7.2LINGO 软件计算动态规划使用 LINGO 软件计算上述动态规划问题。设:A顶点(城市) 1,B12,B23,B34,C15,C26,C37,D18,D29,E点(城市) 10。本例使用 LINGO 程序的编制动态规划
21、模型如下:MODEL: SETS: ! Dynamic programming illustration. We have a network of 10 cities. We want to find the length of the shortest route from city 1 to city 10.; ! Here is our primitive set of ten cities, where F( i) represents the shortest path distance from city i to the last city; CITIES /1.10/: F;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年动态规划模型与实验 2022 动态 规划 模型 实验
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内