远程运筹学5动态.ppt
《远程运筹学5动态.ppt》由会员分享,可在线阅读,更多相关《远程运筹学5动态.ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容主要内容:5.15.1多阶段决策过程的最优化多阶段决策过程的最优化多阶段决策过程的最优化多阶段决策过程的最优化 5.2 5.2 动态规划的基本概念和基本原理动态规划的基本概念和基本原理动态规划的基本概念和基本原理动态规划的基本概念和基本原理5.3 5.3 动态规划方法的基本步骤动态规划方法的基本步骤动态规划方法的基本步骤动态规划方法的基本步骤 5.4 5.4 动态规划应用举例动态规划应用举例动态规划应用举例动态规划应用举例第第 五五 章章 动动 态态 规规 划划5.15.1多阶段决策过程的最优化多阶段决策过程的最优化 动态规划是解决多阶段最优决策的方法动态规划是解决多阶段最优决策的方法
2、,由美国数学家贝尔曼由美国数学家贝尔曼(R.Bellman)于于 1951年首先提出年首先提出;1957年贝尔曼发表动态规划方面的第一部年贝尔曼发表动态规划方面的第一部专著专著“动态规划动态规划”,标志着运筹学的一标志着运筹学的一 个个新分支的创立。新分支的创立。例例 5.1 求解最短路问题求解最短路问题 动态规划将复杂的多阶段决策问题分解为动态规划将复杂的多阶段决策问题分解为一系列简单的、离散的单阶段决策问题一系列简单的、离散的单阶段决策问题,采用顺序求解方法采用顺序求解方法,通过解一系列小问题通过解一系列小问题达到求解整个问题目的达到求解整个问题目的;动态规划的各个决策阶段不但要考虑本阶动
3、态规划的各个决策阶段不但要考虑本阶段的决策目标段的决策目标,还要兼顾整个决策过程的还要兼顾整个决策过程的整体目标整体目标,从而实现整体最优决策从而实现整体最优决策.动态规划的分类动态规划的分类:离散确定型离散确定型离散随机型离散随机型连续确定型连续确定型连续随机型连续随机型动态规划的特点动态规划的特点:动态规划没有准确的数学表达式和定义动态规划没有准确的数学表达式和定义精确的算法精确的算法,它强调具体问题具体分析它强调具体问题具体分析,依赖分析者的经验和技巧。依赖分析者的经验和技巧。与运筹学其他方法有很好的互补关系与运筹学其他方法有很好的互补关系,尤尤其在处理非线性、离散性问题时有其独其在处理
4、非线性、离散性问题时有其独到的特点。到的特点。通通常常多多阶阶段段决决策策过过程程的的发发展展是是通通过过状状态态的的一一系系列列变变换换来来实实现现的的。一一般般情情况况下下,系系统统在在某某个个阶阶段段的的状状态态转转移移除除与与本本阶阶段段的的状状态态和和决决策策有有关关外外,还还可可能能与与系系统统过过去去经经历历的的状状态态和和决决策策有有关关。因因此此,问问题题的的求求解解就就比比较较困困难难复复杂杂。而而适适合合于于用用动动态态规规划划方方法法求求解解的的只只是是一一类类特特殊殊的的多多阶阶段段决决策策问问题题,即即具具有有“无无后后效效性性”的的多多阶阶段段决决策策过过程程。所
5、所谓谓无无后后效效性性,又又称称马马尔柯夫性,是指系统从某个阶段往后的发展,尔柯夫性,是指系统从某个阶段往后的发展,仅仅由由本本阶阶段段所所处处的的状状态态及及其其往往后后的的决决策策所所决决定定,与与系系统统以以前前经经历历的的状状态态和和决决策策(历历史史)无无关。关。具具有有无无后后效效性性的的多多阶阶段段决决策策过过程程的的特特点点是是系系统统过过去去的的历历史史,只只能能通通过过现现阶阶段段的的状状态态去去影影响响系系统统的的未未来来,当当前前的的状状态态就就是是后后过过程程发发展展的初始条件。的初始条件。动态规划的应用动态规划的应用动态规划在工程技术动态规划在工程技术,企业管理企业
6、管理,军事部军事部门有广泛的应用门有广泛的应用;可解决资源分配可解决资源分配,生产生产调度调度,库存管理库存管理,路径优化路径优化,设备更新设备更新,投资规划投资规划,排序问题和生产过程的最优控排序问题和生产过程的最优控制等问题制等问题;拾火柴游戏拾火柴游戏:桌子上放桌子上放30根火柴根火柴,每人一每人一次可拾起次可拾起13根根,谁拾起最后一根火柴谁谁拾起最后一根火柴谁输输,如果你先选择如果你先选择,如何保证你能赢得游如何保证你能赢得游戏?戏?2925211713951动态规划与倒推求解动态规划与倒推求解:使用动态规划方法求解决策问题首先要将使用动态规划方法求解决策问题首先要将问题改造成符合动
7、态规划求解要求的形式问题改造成符合动态规划求解要求的形式,要涉及以下概念要涉及以下概念:(1)(1)阶段阶段(2)(2)状态状态(3)(3)决策与策略决策与策略 (4)(4)状态转移状态转移(5)(5)指标函数指标函数5.2 5.2 动态规划的基本概念和基本思想动态规划的基本概念和基本思想一、基本概念一、基本概念(1)划分阶段划分阶段 把一个复杂决策问题按时间或空间特把一个复杂决策问题按时间或空间特征分解为若干征分解为若干(n)(n)个相互联系的阶段个相互联系的阶段(stage),(stage),以便按顺序求解以便按顺序求解;阶段变量描述当前所处的阶段位置,一阶段变量描述当前所处的阶段位置,一
8、般用下标般用下标 k k 表示表示;每阶段有若干状态每阶段有若干状态(state),表示某一阶段决策表示某一阶段决策面临的条件或所处位置及运动特征的量面临的条件或所处位置及运动特征的量,称为称为状态。反映状态变化的量叫作状态变量。状态。反映状态变化的量叫作状态变量。k 阶段的状态特征可用状态变量阶段的状态特征可用状态变量 sk 或或 xk描述描述;状态有起始、中间、最终状态之分,每一阶段状态有起始、中间、最终状态之分,每一阶段的全部状态构成该阶段的状态集合的全部状态构成该阶段的状态集合Sk,并有,并有sk Sk或或xk Sk。每个阶段的状态可分为初始状。每个阶段的状态可分为初始状态和终止状态,
9、或称输入状态和输出状态,态和终止状态,或称输入状态和输出状态,阶段的初始状态记作阶段的初始状态记作sk,终止状态记为,终止状态记为sk+1(2)确定状态确定状态(3)(3)决策、决策变量决策、决策变量 所谓决策就是确定系统过程发展的方案,所谓决策就是确定系统过程发展的方案,决策的实质是关于状态的选择,是决策者从决策的实质是关于状态的选择,是决策者从给定阶段状态出发对下一阶段状态作出的选给定阶段状态出发对下一阶段状态作出的选择。择。用以描述决策变化的量称之决策变量,用以描述决策变化的量称之决策变量,和状态变量一样,决策变量可以用一个数,和状态变量一样,决策变量可以用一个数,一组数或一向量来描述也
10、可以是状态变量一组数或一向量来描述也可以是状态变量的函数,记以的函数,记以 ,表示于,表示于 k 阶段状阶段状态态 sk 时的决策变量时的决策变量 决策变量的取值往往也有一定的容许范围,决策变量的取值往往也有一定的容许范围,称之允许决策集合决策变量称之允许决策集合决策变量 uk(sk)的允许的允许决策集用决策集用 UK(SK)表示,表示,uk(sk)UK(SK),允允许决策集合实际是决策的约束条件。许决策集合实际是决策的约束条件。(4)(4)策略和允许策略集合策略和允许策略集合 策略策略(Policy)也叫决策序列策略有全过程也叫决策序列策略有全过程策略和策略和 k 部子策略之分,全过程策略是
11、指具部子策略之分,全过程策略是指具有有n 个阶段的全部过程,由依次进行的个阶段的全部过程,由依次进行的 n 个个阶段决策构成的决策序列,简称策略,表示阶段决策构成的决策序列,简称策略,表示为为 。从。从 k 阶段到第阶段到第 n 阶段,阶段,依次进行的阶段决策构成的决策序列称为依次进行的阶段决策构成的决策序列称为 k 部子策略部子策略,表示为表示为 ,显然,显然当当 k=1时的时的 k 部子策略就是全过程策略。部子策略就是全过程策略。(5)状态转移方程状态转移方程 状态转移确定从一个状态到另一个状态的转状态转移确定从一个状态到另一个状态的转移过程移过程,由状态转移方程描述由状态转移方程描述:s
12、k+1=T(sk,uk);状态转移方程在大多数情况下可以由数学公状态转移方程在大多数情况下可以由数学公式表达式表达,如如:sk+1=sk+uk;(6)指标函数指标函数 用来衡量策略或子策略或决策的效果的用来衡量策略或子策略或决策的效果的某种数量指标,就称为指标函数。它是定义某种数量指标,就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量在全过程或各子过程或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、用、成本、产值、利润、产量、耗量、距离、时间、效用,等等。时间、效用,等等。用用gk(sk,uk
13、)表示第表示第 k 段处于状态段处于状态 sk且且所作决策为所作决策为 uk 时的指标,则它就是第时的指标,则它就是第 k 段指标函数,简记为段指标函数,简记为gk。用用R RK K(s(sk k,u,uk k)表示第表示第k k子过程的指标函数。子过程的指标函数。表示处于第表示处于第 k k 段段 s sk k 状态且所作决策为状态且所作决策为u uk k时,从时,从 s sk k 点到终点的距离。由此可见,点到终点的距离。由此可见,R RK K(s(sk k,u,uk k)不仅跟当前状态不仅跟当前状态 s sk k 有关,还跟有关,还跟(2 2)过程指标函数)过程指标函数(也称目标函数)(
14、也称目标函数)(1)阶段指标函数)阶段指标函数(也称阶段效应)(也称阶段效应)还跟该子过程策略还跟该子过程策略 pk(sk)有关有关,严格说来,严格说来,应表示为应表示为 Rk(sk,pk(sk)。它是由各阶段的。它是由各阶段的阶段指标函数阶段指标函数 gk(sk,uk)累积形成的,对于累积形成的,对于 k 部子过程的指标函数可以表示为:部子过程的指标函数可以表示为:式式中中,表表示示某某种种运运算算,可可以以是是加加、减减、乘、除、开方等乘、除、开方等 多阶段决策问题中,常见的目标函数形式多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即之一是取各阶段效应之和的形式,即:有
15、些问题,如系统可靠性问题,其目标函有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,数是取各阶段效应的连乘积形式,(7)最优解最优解 用用 fk(sk)表示第表示第 k 子过程指标函数子过程指标函数Rk(sk,pk(sk)在状态在状态 sk 下的最优值,即下的最优值,即:称称 fk(sk)为第为第 k 子过程上的最优指标函数;子过程上的最优指标函数;与它相应的子策略与它相应的子策略 pk(sk)称为状态称为状态 sk 下的最下的最优子策略,记为优子策略,记为 pk*(sk)例例 5.2 用动态规划求解最短路问题用动态规划求解最短路问题 最短路的求解最短路的求解:阶段阶段:可分为
16、可分为5个阶段个阶段,k=1,.,5。状态状态:可用城市编号可用城市编号,S1=1,S2=2,3,4,S3=5,6,7,S4=8,9,S5=10 决策决策:决策变量也可用城市编号决策变量也可用城市编号;状态转移方程状态转移方程:sk+1=uk;损益递推函数损益递推函数:k=4f4(8)=10,f4(9)=14 k=3f3(5)=min6+f4(8)=16*,8+f4(9)=22=16 f3(6)=min5+f4(8)=15*,9+f4(9)=23=15 f3(7)=min8+f4(8)=18,3+f4(9)=17*=17 k=2 f2(2)=min6+f3(5),8+f3(6),11+f3(7
17、)=min22*,23,28=22 f2(3)=min6+f3(5),8+f3(6),7+f3(7)=min22*,23,24 =22 f2(4)=min5+f3(5),7+f3(6),8+f3(7)=min21*,22,25 =21 k=1 f1(1)=min5+f2(2),9+f2(3),7+f2(4)=min27*,31,28 =27 最短路是:最短路是:1 2 5 8 10计算效率分析计算效率分析:对有对有 7 个阶段个阶段,每个阶段有每个阶段有 5 种状态的最种状态的最短路径问题短路径问题,用穷举法计算要进行用穷举法计算要进行 56=15625 次加法和次加法和 3124 次比较次比
18、较,而动态规划而动态规划只需只需105次加法和次加法和 84 次比较次比较,计算效率分计算效率分别提高近别提高近150和和40倍倍.动态规划的无后效性原则动态规划的无后效性原则对任何阶段对任何阶段 k,有有sk+1=T(sk,uk),sk+1仅仅取决于当前状态取决于当前状态sk和当前决策和当前决策uk,与与 k 阶阶段前的状态和决策无关段前的状态和决策无关,也即也即,k 阶段以阶段以后的发展不受该阶段以前状态的影响后的发展不受该阶段以前状态的影响,过过去的历史只能通过当前状态来影响今后去的历史只能通过当前状态来影响今后的发展。的发展。整个过程的最优策略应具有这样的性质整个过程的最优策略应具有这
19、样的性质:无论过去的状态和决策如何无论过去的状态和决策如何,对前面的决策对前面的决策所形成的状态而言所形成的状态而言,后续的诸决策必须构成后续的诸决策必须构成最优策略;最优策略;上一条成立的条件是损益递推函数严格单上一条成立的条件是损益递推函数严格单调。调。二、动态规划的最优性原理二、动态规划的最优性原理在在例例5.1中中,用用标标号号法法求求解解最最短短路路线线的的计计算算公公式可以概括写成:式可以概括写成:其其中中,gk 在在这这里里表表示示从从状状态态 sk 到到由由决决策策 uk 所所决决定定的的状状态态 sk+1 之之间间的的距距离离。f5(s5)=0 是是边边界条件,表示全过程到第
20、四阶段终点结束。界条件,表示全过程到第四阶段终点结束。一般地,对于一般地,对于 n 个阶段的决策过程,假设个阶段的决策过程,假设只考虑指标函数是只考虑指标函数是“和和”与与“积积”的形式,的形式,第第 k 阶段和第阶段和第 k+1 阶段间的递推公式可表示阶段间的递推公式可表示如下:如下:当过程指标函数为下列当过程指标函数为下列“和和”的形式时的形式时 相应的函数基本方程为相应的函数基本方程为:当过程指标函数为下列当过程指标函数为下列“积积”的形式时的形式时相应的函数基本方程为相应的函数基本方程为:5.3 5.3 动态规划方法的基本步骤动态规划方法的基本步骤1.将问题按时间或空间划分为满足递推关
21、系的将问题按时间或空间划分为满足递推关系的若干阶段若干阶段,对非时序问题可人为地引入对非时序问题可人为地引入“时时段段”概念概念;2.正确选择状态变量正确选择状态变量 sk,满足满足:可知性可知性:正确描述动态过程演变正确描述动态过程演变,可直接可直接或间接确定状态变量的值或间接确定状态变量的值;无后效性无后效性:后面的决策与前面的决策无关后面的决策与前面的决策无关;3.确定决策变量确定决策变量uk(或或xk)以及允许决策集以及允许决策集合合Dk;4.写出状态转移方程写出状态转移方程 sk+1=T(sk,dk);5.决策变量的取值范围决策变量的取值范围 6.写出损益函数的递推关系写出损益函数的
22、递推关系,应满足应满足:a)是定义在所有阶段上的数量函数;是定义在所有阶段上的数量函数;b)具有可分离性,并满足递推关系;具有可分离性,并满足递推关系;c)损益函数应严格单调。损益函数应严格单调。例例5.3 有有某某种种机机床床,可可以以在在高高低低两两种种不不同同的的负负荷荷下下进进行行生生产产,在在高高负负荷荷下下生生产产时时,产产品品的的年年产产量量为为 g,与与年年初初投投入入生生产产的的机机床床数数量量 u1 的的关关系系为为 g=g(u1)=8u1,这这时时,年年终终机机床床完完好好台台数数将将为为,au1 (a为为机机床床完完好好率率,0 a 1,设设 a=0.7)。在在低低负负
23、荷荷下下生生产产时时,产产品品的的年年产产量量为为 h,和和投投入入生生产产的的机机床床数数量量的的关关系系为为 h=h(u2)=5u2,相相应应的的机机床床完完好好率率为为 b(0b2,设设 b=0.9),一一般般情况下情况下(a b )。假设某厂开始有假设某厂开始有 x1=1000 台完好的机床,现台完好的机床,现要制定一个五年生产计划,问每年开始时如要制定一个五年生产计划,问每年开始时如何重新分配完好的机床在两种不同的负荷下何重新分配完好的机床在两种不同的负荷下生产的数量,以使在生产的数量,以使在5年内产品的总产量为年内产品的总产量为最高。最高。解:解:首先构造这个问题的动态规划模型。首
24、先构造这个问题的动态规划模型。1分分阶阶段段:设设阶阶段段变变量量 k 表表示示年年度度,因因此此,阶段总数阶段总数 n=5。2.状状态态变变量量:用用 sk 表表示示第第 k 年年度度初初拥拥有有的的完完好好机机床床台台数数,同同时时也也是是第第 k-1 年年度度末末时时的完好机床数量。的完好机床数量。3.决策变量:决策变量:用用 uk 表示第表示第 k 年度中分配年度中分配于高负荷下生产的机床台数。于是于高负荷下生产的机床台数。于是 sk-uk 便为该年度中分配于低负荷下生产的机床便为该年度中分配于低负荷下生产的机床台数。台数。4状态转移方程为:状态转移方程为:决策变量的取值:决策变量的取
25、值:在第在第 k 段为段为 6条件最优目标函数递推方程条件最优目标函数递推方程令令 fk(sk)表表示示由由第第 k 年年的的状状态态 sk 出出发发,采采取取最最优优分分配配方方案案到到第第5年年度度结结束束这这段段时时间间的的产产品品产量,根据最优化原理有以下递推关系产量,根据最优化原理有以下递推关系:下下面面采采用用逆逆序序递递推推计计算算法法,从从第第5年年度度开开始始递递推计算推计算K=5 时有时有显显然然,当当 u5*=s5 时时,f5(s5)有有最最大大值值,相相应应的有的有 f5(s5)=8s5。K=4 K=4 时有:时有:因此,当因此,当 u4*=s4 时,有最大值时,有最大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 远程 运筹学 动态
限制150内