动态数规划优秀PPT.ppt
《动态数规划优秀PPT.ppt》由会员分享,可在线阅读,更多相关《动态数规划优秀PPT.ppt(74页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、动态数规划第1页,本讲稿共74页多阶段决策过程的最优化多阶段决策过程的最优化多阶段决策过程:多阶段决策过程:整个决策过程可按时间或空间顺序分解成若干整个决策过程可按时间或空间顺序分解成若干相互联系相互联系的阶的阶段,每一阶段都需作出决策,全部过程的决策是一个决策序列。段,每一阶段都需作出决策,全部过程的决策是一个决策序列。多阶段决策过程最优化的目标:多阶段决策过程最优化的目标:达到整个活动过程的总体效果最优,而非各单个阶段最优的简单总达到整个活动过程的总体效果最优,而非各单个阶段最优的简单总和。和。请看如下典例请看如下典例最短路线问题最短路线问题10.1 多阶段过程决策问题2022/12/22
2、第2页,本讲稿共74页n从生产厂从生产厂Q到某公司到某公司T选择那条路线选择那条路线,使总运费最低使总运费最低(路程最短路程最短)?最短路问题 QTA1A2A3B1B2B3C1C124374642442514633334生生产产商商某某公公司司出出口口港港进进口口港港城城市市阶段阶段1阶段阶段2阶段阶段3阶段阶段42022/12/23第3页,本讲稿共74页n这是一个多阶段决策问题,它可分为四个阶段:这是一个多阶段决策问题,它可分为四个阶段:q第一阶段:从第一阶段:从Q(制造厂制造厂)到到A(出口港出口港);q第二阶段:从第二阶段:从A(出口港出口港)到到B(进口港进口港);q第三阶段:从第三阶
3、段:从B(进口港进口港)到到C(城市城市);q第四阶段:从第四阶段:从C(城市城市)到到T(某公司某公司)。n每个阶段选取的路线不同,对应从每个阶段选取的路线不同,对应从Q到到T就有一系列不同的运输路线就有一系列不同的运输路线:q从始点从始点Q到终点到终点T共有共有3321=18条不同路线条不同路线q现在的问题是如何选择一条费用最小的路线?现在的问题是如何选择一条费用最小的路线?2022/12/24第4页,本讲稿共74页n最短路径:最短路径:Q A3 B1 C1TQTA1A2A3B1B2B3C1C224374642442514633334阶段1阶段2阶段3阶段403,T4,T4,C17,C26
4、,C111,B1,B28,B18,B111,A3 2022/12/25第5页,本讲稿共74页多阶段决策问题的典型例子多阶段决策问题的典型例子v企企业业在在生生产产过过程程中中,由由于于需需求求是是随随着着时时间间变变化化的的因因素素,因因此此企企业业为为了了获获得得全全年年最最佳佳经经济济效效益益,就就要要在在整整个个生生产产过过程程中中逐逐月月或或逐逐季季的根据库存和需求决定生产计划。的根据库存和需求决定生产计划。v某某种种机机器器,可可以以在在高高、低低两两种种负负荷荷下下生生产产。高高负负荷荷下下生生产产的的产产量量多多,但但每每生生产产一一个个阶阶段段后后机机器器的的完完好好率率低低;
5、低低负负荷荷下下生生产产时时的的情情况况则则相相反反。现现在在需需要要安安排排该该种种机机器器在在多多个个阶阶段段内内的的生生产产,问问应应该该如如何何决决定定各各阶阶段段中中机机器器的的使使用用,使使整整个计划期内的总产量最大。个计划期内的总产量最大。v化化工工生生产产过过程程包包含含一一系系列列的的过过程程设设备备,如如反反应应器器、蒸蒸馏馏塔塔、吸吸收收器器等等等等,前前一一设设备备的的输输出出是是后后一一设设备备的的输输入入。因因此此,应应该该如如何何控控制制生生产产过过程程中中各各个个设设备备的的输输出出和和输输入入,使使总总产产量最大。量最大。2022/12/26第6页,本讲稿共7
6、4页v某台设备,例如汽车,刚买来时故障少,耗油低,出车时间长,某台设备,例如汽车,刚买来时故障少,耗油低,出车时间长,处理价值和经济效益高。随着使用时间的增加则变为故障多,处理价值和经济效益高。随着使用时间的增加则变为故障多,耗油高,维修费用增加,经济效益差。使用时间愈长,处理价耗油高,维修费用增加,经济效益差。使用时间愈长,处理价值也愈低。另外,每次更新都要付出更新费用。因此,应当如值也愈低。另外,每次更新都要付出更新费用。因此,应当如何决定设备的使用年限,使总的效益最佳。何决定设备的使用年限,使总的效益最佳。v发射一枚火箭去击中运动中的目标。由于目标的行动是不断改变的,发射一枚火箭去击中运
7、动中的目标。由于目标的行动是不断改变的,因此应如何根据目标运动情况,不断调整火箭飞行的方向与速度,因此应如何根据目标运动情况,不断调整火箭飞行的方向与速度,使之最快地命中目标,等等。使之最快地命中目标,等等。2022/12/27第7页,本讲稿共74页什么是动态规划?什么是动态规划?n动动态态规规划划是是运运筹筹学学OROR的的一一个个分分支支,是是解解决决多多阶阶段段决决策策过过程程最最优优化化的的一一种种方方法法或或是是一一种种分分析析多多阶阶段段决决策策过过程程的的数数学学方方法法,这这种种方方法法可可根根据据人人们们所所采采取取的的措措施施,一一步步步步地地控控制制过过程的发展,以实现预
8、定的要求。程的发展,以实现预定的要求。n这这一一运运筹筹学学分分支支最最初初是是由由美美国国数数学学家家BellmanBellman等等人人根根据据一一类类多多阶阶段段决决策策问问题题的的特特性性,提提出出了了解解决决这这类类问问题题的的最最优优化化原原理理,并并研研究究了了许多实际问题而建立起来的。许多实际问题而建立起来的。n贝贝尔尔曼曼的的名名著著动动态态规规划划于于19571957年年出出版版,这这成成了了动动态态规规划划的第一本著作。的第一本著作。2022/12/28第8页,本讲稿共74页动态规划方法的特点动态规划方法的特点J 优点优点:许许多多问问题题用用动动态态规规划划研研究究求求
9、解解比比线线性性规规划划、非非线线性性规规划划更更有有效效,特特别别是是离离散散性性问问题题,解解析析数数学学无无用用武武之之地地,而而动动态态规规划划成成为为得得力力工工具;具;某某些些情情况况下下,用用动动态态规规划划处处理理不不仅仅能能作作定定性性描描述述分分析析,且且可利用计算机给出求其数值解的方法。可利用计算机给出求其数值解的方法。2022/12/29第9页,本讲稿共74页L缺点:缺点:没有统一的处理方法,求解时要根据问题的性质,结合多种数没有统一的处理方法,求解时要根据问题的性质,结合多种数学技巧。因此,实践经验及创造性思维将起重要的引导作用。学技巧。因此,实践经验及创造性思维将起
10、重要的引导作用。“维数障碍维数障碍”:当变量个数太多时,由于计算机内存和速度的限制:当变量个数太多时,由于计算机内存和速度的限制导致问题无法解决。有些问题由于涉及的函数没有理想的性质使问题导致问题无法解决。有些问题由于涉及的函数没有理想的性质使问题只能用动态规划描述,而不能用动态规划方法求解。只能用动态规划描述,而不能用动态规划方法求解。2022/12/210第10页,本讲稿共74页 应特别指出的是,动态规划是解决某一类问题的一种应特别指出的是,动态规划是解决某一类问题的一种方法,是分析问题的一种途径,而不是一种特殊算法方法,是分析问题的一种途径,而不是一种特殊算法(如线如线性规划是一种算法性
11、规划是一种算法)。因而,它不象线性规划那样有一个标。因而,它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必须对具体问准的数学表达式和明确定义的一组规则,而必须对具体问题进行具体分析处理。因此,在学习动态规划时,除了对题进行具体分析处理。因此,在学习动态规划时,除了对基本概念和方法正确地理解外,应以丰富的想象力去建立基本概念和方法正确地理解外,应以丰富的想象力去建立模型,用创造性的技巧去求解。正如贝尔曼本人所说:模型,用创造性的技巧去求解。正如贝尔曼本人所说:“由于动态规划的最优化原理仅仅是一种基本原理,正是它由于动态规划的最优化原理仅仅是一种基本原理,正是它的某种不确定性为你
12、提供了发挥你创造性思维的巨大空间的某种不确定性为你提供了发挥你创造性思维的巨大空间!2022/12/211第11页,本讲稿共74页10.2 动态规划原理 n阶段阶段(stage)q处理多阶段决策,需将全过程划为若干阶段,每个阶段进行一次抉处理多阶段决策,需将全过程划为若干阶段,每个阶段进行一次抉择。择。q各阶段按一定顺序联接在一起组成统一的整体。各阶段按一定顺序联接在一起组成统一的整体。q用用k表示表示阶段变量阶段变量阶段变量阶段变量。q阶段编号阶段编号n顺序编号顺序编号n逆序编号逆序编号一、动态规划的基本概念一、动态规划的基本概念 2022/12/212第12页,本讲稿共74页n状态状态(s
13、tate)q状态表示过程发展中某阶段的起始状况。状态表示过程发展中某阶段的起始状况。q过程的发展可以通过各阶段状态的演变来描述。过程的发展可以通过各阶段状态的演变来描述。q状态可用一个变量来描述,称为状态可用一个变量来描述,称为状态变量状态变量状态变量状态变量,用,用Sk表示。表示。q选取的状态变量必须满足选取的状态变量必须满足无后效性无后效性无后效性无后效性。n某某阶阶段段的的状状态态给给定定后后,则则过过程程未未来来发发展展不不受受该该阶阶段段以以前各阶段状态的影响。前各阶段状态的影响。q第第 k 阶段可能有若干状态,用阶段可能有若干状态,用Sk 表示阶段表示阶段k的状态集合,的状态集合,
14、qsk(i)表示第表示第k阶段的第阶段的第 i 个状态。个状态。2022/12/213第13页,本讲稿共74页n决策决策(decision)q从从上上一一阶阶段段某某状状态态演演变变到到下下一一阶阶段段某某状状态态要要作作一一次次选选择择,称称为为决决策。策。q用用变变量量xk(sk)表表示示第第k阶阶段段状状态态为为sk时时的的决决策策,称称为为决决决决策策策策变变变变量量量量,简记简记xkq决决策策变变量量的的取取值值被被限限制制在在某某一一范范围围内内,此此范范围围称称为为允允许许决决策策集集合合Xk(sk)n策略策略(policy)q多多阶阶段段决决策策过过程程中中,每每一一阶阶段段均
15、均有有一一个个决决策策,依依序序组组合合成一个全过程的决策序列,称为成一个全过程的决策序列,称为全过程策略全过程策略全过程策略全过程策略。p1,n(s1)=x1(s1),x2(s2),xn(sn),简记简记p1,n=x1,x2,xn2022/12/214第14页,本讲稿共74页q从从过过程程的的某某个个阶阶段段开开始始到到最最终终阶阶段段结结束束称称为为后后部部子子过过程。从第程。从第k阶段开始的后部子策略称为阶段开始的后部子策略称为第第第第k k子过程策略子过程策略子过程策略子过程策略。pk,n(sk)=xk(sk),xk+1(sk+1),xn(sn)简记简记 pk,n=xk,xk+1,xn
16、q每每一一阶阶段段有有若若干干状状态态,每每个个状状态态又又有有若若干干个个不不同同的的决决策策,即即有有许许多多策策略略可可供供选选择择。全全体体策策略略构构成成允允允允许许许许策策策策略略略略集集集集合合合合Pk,n(sk)。q能能使使预预期期目目标标达达到到最最优优效效果果的的策策略略称称为为最最最最优优优优策策策策略略略略P*k,n,q构成最优策略的各决策称为相应阶段的构成最优策略的各决策称为相应阶段的最优决策最优决策最优决策最优决策x*k。2022/12/215第15页,本讲稿共74页n状态转移方程状态转移方程q下下一一阶阶段段状状态态sk+1 是是本本阶阶段段状状态态变变量量sk
17、和和决决策策变变量量xk的的函函数数,即即 sk+1=T(sk,xk(sk)=T(sk,xk)q从从状状态态sk出出发发到到下下一一阶阶段段状状态态sk+1的的转转移移规规律律称称为为状状状状态态态态转转转转移移移移方程方程方程方程。n指标函数指标函数q用用来来衡衡量量每每一一阶阶段段决决策策效效果果的的优优劣劣的的数数量量指指标标,称称为为阶阶阶阶段段段段指指指指标标标标函函函函数数数数vk ,阶阶段段指指标标是是状状态态变变量量和和相相应应决决策策变变量量的的函函数数,即即vk=vk(sk,xk)。n最最短短问问题题是是运运费费或或路路程程。对对阶阶段段的的不不同同状状态态,采采取取不不同
18、同的的决决策,运费不同。策,运费不同。n指标函数也可以是利润、成本、产量等。指标函数也可以是利润、成本、产量等。2022/12/216第16页,本讲稿共74页q从从第第k阶阶段段的的状状态态sk出出发发到到最最后后阶阶段段结结束束,各各阶阶段段绩绩效效综综合合起起来来反反映映这这个个后后部部子子过过程程的的绩绩效效,称称为为过过过过程程程程指指指指标标标标函函函函数数数数,记记为为Vk,n。qVk,n的大小取决于从第的大小取决于从第k阶段到最后阶段所采取的子策略。即阶段到最后阶段所采取的子策略。即 q Vk,n=Vk,n(sk,xk,sk+1,xk+1,sn)q根据实际问题的性质,指标函数根据
19、实际问题的性质,指标函数Vk,n 为各个阶段指标的和或积。为各个阶段指标的和或积。q从从状状态态sk出出发发,选选取取最最优优策策略略所所得得的的指指标标函函数数值值称称为为最最最最优优优优指指指指标标标标函数值函数值函数值函数值。qfk(sk)=optVk,n=optvk(sk,xk)+fk+1(sk+1)qopt表示最优化,取最大表示最优化,取最大max或最小或最小min。2022/12/217第17页,本讲稿共74页n逆序算法:逆着阶段顺序的方向,由后向前推算。逆序算法:逆着阶段顺序的方向,由后向前推算。q把寻求最优策略看作连续递推过程,从最终阶段开始,逆着实把寻求最优策略看作连续递推过
20、程,从最终阶段开始,逆着实际过程的进展方向逐段求解;际过程的进展方向逐段求解;q在每一阶段求解过程中都是其后部子过程最优策略的基础上,再考在每一阶段求解过程中都是其后部子过程最优策略的基础上,再考虑本阶段的指标函数,求出本阶段的最优策略;虑本阶段的指标函数,求出本阶段的最优策略;q直到第一阶段为止。直到第一阶段为止。n最优性原理:美国运筹学家贝尔曼提出最优性原理:美国运筹学家贝尔曼提出q无无论论过过去去的的状状态态和和决决策策如如何何,对对前前面面的的决决策策所所形形成成的的状状态态而言,余下的诸决策必须构成最优策略。而言,余下的诸决策必须构成最优策略。q将将决决策策问问题题划划分分为为若若干
21、干个个阶阶段段,全全过过程程的的优优化化问问题题就就分分解解为为子子过过程程的的优优化化问问题题,由由后后向向前前逐逐步步倒倒推推,最最优优化化的的子子过过程逐渐成为全过程最优。程逐渐成为全过程最优。q作作为为全全过过程程的的最最优优策策略略P*1,n的的组组成成部部分分的的任任一一子子策策略略P*k,n(Sk),一定是从状态,一定是从状态Sk 出发直至终点的最优策略。出发直至终点的最优策略。二、动态规划方法的基本思路二、动态规划方法的基本思路 2022/12/218第18页,本讲稿共74页n基本递推方程基本递推方程q据据最最优优性性原原理理,阶阶段段k的的阶阶段段指指标标vk(sk,xk)加
22、加上上(或或乘乘以以)从从下下一一阶阶段段k+1开开始始到到过过程程结结束束采采取取最最优优策策略略取取得得的的最最优优指指标标函函数数值值fk+1(sk+1),再再从从中中选选出出最最优优,便便是是阶阶段段k从从状状态态sk出出发发到到全过程结束的最优指标函数值。全过程结束的最优指标函数值。2022/12/219第19页,本讲稿共74页阶段阶段1阶段阶段2阶段阶段k阶段阶段k+1阶段阶段n状态状态S1决决策策x1状态状态S2v1决决策策x2状态状态S3v2决决策策xk状态状态Sk+1vk决决策策xk+1vk+1决决策策xnvn寻求最优解的方向寻求最优解的方向2022/12/220第20页,本
23、讲稿共74页逆序递推法逆序递推法(Backward Indication Method)将寻优过程看做连续递推的过程,从最终阶段开始,将寻优过程看做连续递推的过程,从最终阶段开始,逆着逆着实际决策过程的进展方向逐段求解,在每一段求实际决策过程的进展方向逐段求解,在每一段求解中都要利用刚刚求解完那段的结果,直到初始阶段解中都要利用刚刚求解完那段的结果,直到初始阶段求出结果回到始点为止。求出结果回到始点为止。顺序递推法顺序递推法(Forward Indication Method)从初始阶段向前递推,直到最终阶段为止。从初始阶段向前递推,直到最终阶段为止。顺序递推法本质上并无新的建树,只是对某些实
24、际问顺序递推法本质上并无新的建树,只是对某些实际问题的求解,应用起来较为简便而已。题的求解,应用起来较为简便而已。2022/12/221第21页,本讲稿共74页三、建立动态规划模型的步骤三、建立动态规划模型的步骤 1、划分阶段、划分阶段划划分分阶阶段段是是运运用用动动态态规规划划求求解解多多阶阶段段决决策策问问题题的的第第一一步步,在在确确定定多多阶阶段段特特性性后后,按按时时间间或或空空间间先先后后顺顺序序,将将过过程程划划分分为为若若干干相相互互联联系系的的阶阶段段。对于静态问题要人为地赋予对于静态问题要人为地赋予“时间时间”概念,以便划分阶段。概念,以便划分阶段。2、正确选择状态变量、正
25、确选择状态变量选选择择变变量量既既要要能能确确切切描描述述过过程程演演变变又又要要满满足足无无后后效效性性,而而且且各各阶阶段段状状态态变变量量的的取取值值能能够够确确定定。一一般般地地,状状态态变变量量的的选选择择是是从从过过程程演演变变的特点中寻找。的特点中寻找。3、确定决策变量及允许决策集合、确定决策变量及允许决策集合通通常常选选择择所所求求解解问问题题的的关关键键变变量量作作为为决决策策变变量量,同同时时要要给给出出决决策策变变量量的的取值范围,即确定允许决策集合。取值范围,即确定允许决策集合。2022/12/222第22页,本讲稿共74页 4、确定状态转移方程、确定状态转移方程 根据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态 规划 优秀 PPT
限制150内