运筹学与最优化方法修改动态规划.pptx
《运筹学与最优化方法修改动态规划.pptx》由会员分享,可在线阅读,更多相关《运筹学与最优化方法修改动态规划.pptx(122页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、11.1.多阶段决策过程的最优化多阶段决策过程(Multi-Stagedecision process):前一个阶段的决策要影响到后一个阶段的决策,从而影响整个过程。各个阶段所确定的决策就构成了一个决策序列,称为一个策略。一般来说,由于每一阶段可供选择的决策往往不止一个,因此,对于整个过程,就会有许多可供选择的策略。第1页/共122页21.1.多阶段决策过程的最优化最优策略:若对应于一个策略,可以由一个量化的指标来确定这个策略所对应的活动过程的效果,那么不同的策略就有各自的效果。在所有可供选择的策略中,对应效果最好的策略称为最优策略。把一个问题划分成若干个相互联系的阶段选取其最优策略,这类问题
2、就是多阶段决策问题。第2页/共122页31.1.多阶段决策过程的最优化 多多阶阶段段决决策策过过程程最最优优化化的的目目标标是是要要达达到到整整个个活活动动过过程程的的总总体体效效果果最最优优。由由于于各各段段决决策策间间有有机机地地联联系系着着,本本段段决决策策的的执执行行将将影影响响到到下下一一段段的的决决策策,以以至至于于影影响响总总体体效效果果,所所以以决决策策者者在在每每段段决决策策时时不不应应仅仅考考虑虑本本阶阶段段最最优优,还还应应考考虑虑对对最最终终目目标标的的影影响响,从从而而作作出出对对全全局局来来讲讲是是最最优优的的决决策策。动动态态规规划就是符合这种要求的一种决策方法。
3、划就是符合这种要求的一种决策方法。第3页/共122页41.1.多阶段决策过程的最优化二、多阶段决策问题举例 1)1)工厂生产过程:由于市场需求是一随着时间而变化的因素,因此,为了取得全年最佳经济效益,就要在全年的生产过程中,逐月或者逐季度地根据库存和需求情况决定生产计划安排。属于多阶段决策类的问题很多,例如:第4页/共122页51.1.多阶段决策过程的最优化 2)2)设备更新问题:一般企业用于生产活动的设备,刚买来时故障少,经济效益高,即使进行转让,处理价值也高,随着使用年限的增加,就会逐渐变为故障多,维修费用增加,可正常使用的工时减少,加工质量下降,经济效益差,并且,使用的年限越长、处理价值
4、也越低,自然,如果卖去旧的买新的,还需要付出更新费因此就需要综合权衡决定设备的使用年限,使总的经济效益最好。第5页/共122页61.1.多阶段决策过程的最优化 3)3)连续生产过程的控制问题:一般化工生产过程中,常包含一系列完成生产过程的设备,前一工序设备的输出则是后一工序设备的输入,因此,应该如何根据各工序的运行工况,控制生产过程中各设备的输入和输出,以使总产量最大。第6页/共122页71.1.多阶段决策过程的最优化 以上所举问题的发展过程都与时间因素有关,因此在这类多阶段决策问题中,阶段的划分常取时间区段来表示,并且各个阶段上的决策往往也与时间因素有关,这就使它具有了“动态”的含义,所以把
5、处理这类动态问题的方法称为动态规划方法。不过,实际中尚有许多不包含时间因素的一类“静态”决策问题,就其本质而言是一次决策问题,是非动态决策问题,但是也可以人为地引入阶段的概念当作多阶段决策问题,应用动态规划方法加以解决。第7页/共122页81.1.多阶段决策过程的最优化 4 4)资源分配问题:属于这类静态问题。如:某工业部门或公司,拟对其所属企业进行稀缺资源分配,为此需要制定出收益最大的资源分配方案。这种问题原本要求一次确定出对各企业的资源分配量,它与时间因素无关,不属动态决策,但是,我们可以人为地规定一个资源分配的阶段和顺序,从而使其变成一个多阶段决策问题(后面我们将详细讨论这个问题)。第8
6、页/共122页91.1.多阶段决策过程的最优化 5 5)运输网络问题:如下页图1 1所示的运输网络,点间连线上的数字表示两地距离(也可是运费、时间等),要求从v v1 1 至v v1010的最短路线。这种运输网络问题也是静态决策问题。但是,按照网络中点的分布,可以把它分为4 4个阶段,而作为多阶段决策问题来研究。第9页/共122页101.1.多阶段决策过程的最优化图11 运输网络图示第10页/共122页111.1.多阶段决策过程的最优化 三、动态规划求解的多阶段决策问题的特点三、动态规划求解的多阶段决策问题的特点 通常多阶段决策过程的发展是通过状态的一系列变换来实现的。一般情况下,系统在某个阶
7、段的状态转移除与本阶段的状态和决策有关外,还可能与系统过去经历的状态和决策有关。因此,问题的求解就比较困难复杂。而适合于用动态规划方法求解的只是一类特殊的多阶段决策问题,即具有“无后效性”的多阶段决策过程。所谓无后效性,又称马尔柯夫性,是指系统从某个阶段往后的发展,仅由本阶段所处的状态及其往后的决策所决定,与系统以前经历的状态和决策(历史)无关。第11页/共122页12多阶段决策过程特点:要点:阶段,状态,决策,状态转移方程,k-后部子过程状态 x1阶段1T1决策u1状态 x2决策u2阶段2T2状态 x3.状态 xk决策uk阶段kTk状态 xk+1.状态 xn决策un阶段nTn状态 xn+11
8、.1.多阶段决策过程的最优化第12页/共122页131.1.多阶段决策过程的最优化四、动态规划方法导引例1 1:为了说明动态规划的基本思想方法和特点,下面以图1所示为例讨论的求最短路问题的方法。第一种方法称做全枚举法或穷举法。它的基本思想是列举出所有可能发生的方案和结果,再对它们一一进行比较,求出最优方案。这里从v v1 1到v v1010的路程可以分为4 4个阶段。第一段的走法有三种,第二三两段的走法各有两种,第四段的走法仅一种,因此共有322132211212条可能的路线,分别算出各条路线的距离,最后进行比较,可知最优路线是v v1 1 v v3 3 v v7 7 v v9 9 v v10
9、10 ,最短距离是1818第13页/共122页141.1.多阶段决策过程的最优化 显然,当组成交通网络的节点很多时,用穷举法求最优路线的计算工作量将会十分庞大,而且其中包含着许多重复计算 第二种方法即所谓“局部最优路径”法,是说某人从k出发,他并不顾及全线是否最短,只是选择当前最短途径,“逢近便走”,错误地以为局部最优会致整体最优,在这种想法指导下,所取决策必是v1 v3 v5 v8 v10,全程长度是20;显然,这种方法的结果常是错误的第14页/共122页151.1.多阶段决策过程的最优化 第三种方法是动态规划方法。动态规划方法寻求该最短路问题的基本思想是,首先将问题划分为4个阶段,每次的选
10、择总是综合后继过程的一并最优进行考虑,在各段所有可能状态的最优后继过程都已求得的情况下,全程的最优路线便也随之得到。为了找出所有可能状态的最优后继过程,动态规划方法总是从过程的最后阶段开始考虑,然后逆着实际过程发展的顺序,逐段向前递推计算直至始点。第15页/共122页161.1.多阶段决策过程的最优化结论:全枚举法虽可找出最优方案,但不是个好算法;局部最优法则完全是个错误方法;动态规划方法属较科学有效的算法:它的基本思想是,把一个比较复杂的问题分解为一系列同类型的更易求解的子问题,便于应用计算机。整个求解过程分为两个阶段,先按整体最优的思想逆序地求出各个子问题中所有可能状态的最优决策与最优路线
11、值,然后再顺序地求出整个问题的最优策略和最优路线。计算过程中,系统地删去了所有中间非最优的方案组合,从而使计算工作量比穷举法大为减少。第16页/共122页17 2.2.动态规划的基本概念 使用动态规划方法解决多阶段决策问题,首先要将实际问题写成动态规划模型,同时也为了今后叙述和讨论方便,这里需要对动态规划的下述一些基本术语进一步加以说明和定义基本术语进一步加以说明和定义:第17页/共122页18 2.2.动态规划的基本概念 (一)阶段和阶段变量 为了便于求解和表示决策及过程的发展顺序,而把所给问题恰当地划分为若干个相互联系又有区别的子问题,称之为多段决策问题的阶段。一个阶段,就是需要作出一个决
12、策的子问题,通常,阶段是按决策进行的时间或空间上先后顺序划分的。用以描述阶段的变量叫作阶段变量,一般以k k表示阶段变量阶段数等于多段决策过程从开始到结束所需作出决策的数目。第18页/共122页19 2.2.动态规划的基本概念 (二)状态、状态变量和可能状态集 1.状态与状态变量。用以描述事物(或系统)在某特定的时间与空间域中所处位置及运动特征的量,称为状状态态。反映状态变化的量叫做状状态态变变量量。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。按照过程进行的先后,每个阶段的状态可分为初始状态和终止状态,或称输入状态和输出状态,阶段k k的初始状态记作s sk k,终止状态记为s
13、 sk+1k+1。但为了清楚起见,通通常常定定义义阶阶段段的的状状态态即即指指其其初初始状态始状态。第19页/共122页202.2.动态规划的基本概念 2可能状态集 一般状态变量的取值有一定的范围或允许集合,称为可能状态集,或可达状态集。可能状态集实际上是关于状态的约束条件。通常可能状态集用相应阶段状态sk的大写字母Sk表示,skSk,可能状态集可以是一离散取值的集合,也可以为一连续的取值区间,视具体问题而定第20页/共122页21 (三)决策、决策变量和允许决策集合 所谓决决策策,就是确定系统过程发展的方案。决策的实质是关于状态的选择,是决策者从给定阶段状态出发对下一阶段状态作出的选择。用以
14、描述决策变化的量称之决策变量,和状态变量一样,决策变量可以用一个数,一组数或一向量来描述,也可以是状态变量的函数,记以u uk k=u uk k(s sk k),表示于阶段k k状态s sk k时的决策变量。决策变量的取值往往也有一定的允许范围,称之允许决策集合。决策变量u uk k(s sk k)的允许决策集用U Uk k(s sk k)表示,u uk k(s sk k)U Uk k(s sk k)允许决策集合实际是决策的约束条件。2.2.动态规划的基本概念第21页/共122页22 (四)、策略和允许策略集合 策略(Policy)Policy)也叫决策序列策略有全过程策略和k k部子策略之分
15、,全过程策略是指具有n n个阶段的全部过程,由依次进行的n n个阶段决策构成的决策序列,简称策略,表示为p p1,1,n n u u1 1,u u2 2,u un n。从k k阶段到第n n阶段,依次进行的阶段决策构成的决策序列称为k k部子策略,表示为p pk,nk,n u uk k,u uk k+1+1,u un n ,显然当k k=1=1时的k k部子策略就是全过程策略。在实际问题中,由于在各个阶段可供选择的决策有许多个,因此,它们的不同组合就构成了许多可供选择的决策序列(策略),由它们组成的集合,称之允许策略集合,记作P P1,1,n n ,从允许策略集中,找出具有最优效果的策略称为最
16、优策略。2.2.动态规划的基本概念第22页/共122页23 (五)状态转移方程 系统在阶段k处于状态sk,执行决策uk(sk)的结果是系统状态的转移,即系统由阶段k的初始状态sk转移到终止状态sk+1,或者说,系统由k阶段的状态sk转移到了阶段k+1的状态sk+1,多阶段决策过程的发展就是用阶段状态的相继演变来描述的。对于具有无后效性的多阶段决策过程,系统由阶段k k到阶段k k+1+1的状态转移完全由阶段k k的状态s sk k和决策u uk k(s(sk k)所确定,与系统过去的状态s s1 1,s s2 2,s sk k-1-1及 其 决 策u u1 1(s s1 1),),u u2 2
17、(s s2 2)u uk k-1 1(s sk k-1-1)无关。系统状态的这种转移,用数学公式描述即有:2.2.动态规划的基本概念(1)第23页/共122页24 通常称式(1)为多阶段决策过程的状态转移方程。有些问题的状态转移方程不一定存在数学表达式,但是它们的状态转移,还是有一定规律可循的。(六)指标函数 用来衡量策略或子策略或决策的效果的某种数量指标,就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间、效用,等等。2.2.动态规划的基本概念第24页/共122页25 (1)阶段指标函数(也称阶段效
18、应)。用gk(sk,uk)表示第k段处于sk状态且所作决策为uk(sk)时的指标,则它就是第k段指标函数,简记为gk。(2)过程指标函数(也称目标函数)。用Rk(sk,uk)表示第k子过程的指标函数。如图5-1的Rk(sk,uk)表示处于第k段sk状态且所作决策为uk时,从sk点到终点v10的距离。由此可见,Rk(sk,uk)不仅跟当前状态sk有关,还跟该子过程策略pk(sk)有关,因此它是sk和pk(sk)的函数,严格说来,应表示为:2.2.动态规划的基本概念第25页/共122页26 不过实际应用中往往表示为R Rk k(s sk k,u uk k)或R Rk k(s sk k)。还跟第 k
19、 k 子过程上各段指标函数有关,过程指标函数R Rk k(s sk k)通常是描述所实现的全过程或k k后部子过程效果优劣的数量指标,它是由各阶段的阶段指标函数g gk k(s sk k,u uk k)累积形成的,适于用动态规划求解的问题的过程指标函数(即目标函数),必须具有关于阶段指标的可分离形式对于 k k 部子过程的指标函数可以表示为:式中,表示某种运算,可以是加、减、乘、除、开方等。2.2.动态规划的基本概念(2)第26页/共122页27 多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即:(3)(3)有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,
20、如:(4)(4)总之,具体问题的目标函数表达形式需要视具体问题而定。2.2.动态规划的基本概念第27页/共122页282.2.动态规划的基本概念 (七)最优解 用fk(sk)表示第k子过程指标函数 在状态sk下的最优值,即 称fk(sk)为第k子过程上的最优指标函数;与它相应的子策略称为sk状态下的最优子策略,记为pk*(sk);而构成该子策赂的各段决策称为该过程上的最优决策,记为有简记为第28页/共122页29 特别当k=1且s1取值唯一时,f1(s1)就是问题的最优值,而p1*就是最优策略。如例1只有唯一始点v1即s1取值唯一,故f1(s1)=18就是例1的最优值,而 就是例1的最优策略。
21、但若取值不唯一,则问题的最优值记为f0有 最优策略即为s1=s1*状态下的最优策略:我们把最优策略和最优值统称为问题的最优解。2.2.动态规划的基本概念第29页/共122页30 按上述定义,所谓最优决策 是指它们在全过程上整体最优(即所构成的全过程策略为最优),而不一定在各阶段上单独最优。(八)多阶段决策问题的数学模型综上所述,适于应用动态规划方法求解的一类多阶段决策问题,亦即具有无后效性的多阶段决策问题的数学模型呈以下形式:2.2.动态规划的基本概念(5)第30页/共122页31 式中“OPT”表示最优化,视具体问题取max或min。上述数学模型说明了对于给定的多阶段决策过程,求取一个(或多
22、个)最优策略或最优决策序列 ,使之既满足式(5)给出的全部约束条件,又使式(5)所示的目标函数取得极值,并且同时指出执行该最优策略时,过程状态演变序列即最优路线2.2.动态规划的基本概念第31页/共122页32最优化原理 (贝尔曼最优化原理)作为一个全过程的最优策略具有这样的性质:对对于于最最优优策策略略过过程程中中的的任任意意状状态态而而言言,无无论论其其过过去去的的状状态态和和决决策策如如何何,余余下下的的诸诸决决策策必必构构成成一一个个最最优优子子策策略略。该原理的具体解释是,若某一全过程最优策略为:动态规划的基本原理 则对上述策略中所隐含的任一状态而言,第k子过程上对应于该状态的最优策
23、略必然 包含在上述全过程最优策略p1*中,即为第32页/共122页333.3.动态规划方法的基本步骤 1应将实际问题恰当地分割成n个子问题(n个阶段)。通常是根据时间或空间而划分的,或者在经由静态的数学规划模型转换为动态规划模型时,常取静态规划中变量的个数n,即k=n。2正确地定义状态变量sk,使它既能正确地描述过程的状态,又能满足无后效性动态规划中的状态与一般控制系统中和通常所说的状态的概念是有所不同的,动态规划中的状态变量必须具备以下三个特征:第33页/共122页343.3.动态规划方法的基本步骤 (1)要能够正确地描述受控过程的变化特征。(2)(2)要满足无后效性。即如果在某个阶段状态已
24、经给定,那么在该阶段以后,过程的发展不受前面各段状态的影响,如果所选的变量不具备无后效性,就不能作为状态变量来构造动态规划的模型。(3)(3)要满足可知性。即所规定的各段状态变量的值,可以直接或间接地测算得到。一般在动态规划模型中,状态变量大都选取那种可以进行累计的量。此外,在与静态规划模型的对应关系上,通常根据经验,线性与非线性规划中约束条件的个数,相当于动态规划中状态变量s sk k的维数而前者约束条件所表示的内容,常就是状态变量s sk k所代表的内容。第34页/共122页353.3.动态规划方法的基本步骤 3正确地定义决策变量及各阶段的允许决策集合Uk(sk),根据经验,一般将问题中待
25、求的量,选作动态规划模型中的决策变量。或者在把静态规划模型(如线性与非线性规划)转换为动态规划模型时,常取前者的变量xj为后者的决策变量uk。4.能够正确地写出状态转移方程,至少要能正确反映状态转移规律。如果给定第k阶段状态变量sk的值,则该段的决策变量uk一经确定,第k+1段的状态变量sk+1的值也就完全确定,即有sk+1=Tk(sk,uk)第35页/共122页363.3.动态规划方法的基本步骤 5根据题意,正确地构造出目标与变量的函数关系目标函数,目标函数应满足下列性质:(1)可分性,即对于所有k后部子过程,其 目 标 函 数 仅 取 决 于 状 态sk及 其 以 后 的 决 策 uk,u
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运筹学 优化 方法 修改 动态 规划
限制150内