运筹学7动态规划.pptx
《运筹学7动态规划.pptx》由会员分享,可在线阅读,更多相关《运筹学7动态规划.pptx(161页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、教学要求:1掌握动态规划的基本概念:阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数、最优策略、最优轨线2了解动态规划的基本理论:最优性定理和最优性原理3掌握动态规划基本思想和基本方程4牢固掌握动态规划的顺序解法和逆序解法。会处理动态与静态规划的关系5了解和掌握若干典型问题的动态规划模型及求解技巧:如最短路线、资源分配、生产计划、货物存储、设备更新与系统可靠性问题、背包问题、推销商问题等6了解多维动态规划降维方法和减少离散状态点数方法7了解随机性问题的动态规划求解方法第1页/共161页重点:动态规划顺序解法和逆序解法;若干典型问题动态规划模型及求解技巧;难点:建立动态规划数学模型的状
2、态转移方程。第2页/共161页7.1 7.1 多阶段决策过程的最优化 动态规划(Dynamic Programming)是运筹学的一个重要分支,它是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼(R.E.Bellman)等人在50年代初提出了解决多阶段决策问题的“最优性原理”(Principle of Optimality)。1957年贝尔曼出版了专著“动态规划”,该书是动态规划的第一本著作。目前动态规划已经用于解决最优路径问题、资源分配问题、生产调度问题、设备更新问题、复合系统可靠性问题及生产过程最优控制等,并且取得了显著的效果。回本章目录第3页/共161页 动态规划是求解问题的一种方
3、法,而不是算法(线性规划是一种算法),因而没有标准的数学表达式,对于具体问题需要具体分析。第4页/共161页 一、多阶段决策问题 在生产经营活动中,某些问题决策过程可以划分为若干相互联系的阶段,每个阶段需要做出决策,从而使整个过程取得最优。由于各个阶段不是孤立的,而是有机联系的,也就是说,本阶段的决策将影响过程下一阶段的发展,从而影响整个过程效果,所以决策者在进行决策时不能够仅考虑选择的决策方案使本阶段最优,还应该考虑本阶段决策对最终目标产生的影响,从而做出对全局来讲是最优的决策。当每个阶段的决策确定以后,全部过程的决策就是这些阶段决策所组成的一个决策序列,所以多阶段决策问题也称为序贯决策问题
4、。第5页/共161页 多阶段决策问题中,各个阶段一般是按照时间来划分的,随着时间的发展而产生各个阶段的决策,从而形成决策序列,这就是动态的含义。在一些与时间无关的静态问题中(如非线性规划等),可以人为地赋予时间的概念,使其成为一个多阶段决策问题,再用动态规划方法处理。12n状态决策状态决策状态状态决策第6页/共161页二、多阶段决策问题举例属于多阶段决策类的问题很多,例如:例例 1 1 工厂生产过程:由于市场需求是一随着时间而变化的因素,因此,为了取得全年最佳经济效益,就要在全年的生产过程中,逐月或者逐季度地根据库存和需求情况决定生产计划安排。第7页/共161页 例例 2 2 设备更新问题:一
5、般企业用于生产活动的设备,刚买来时故障少,经济效益高,即使进行转让,处理价值也高,随着使用年限的增加,就会逐渐变为故障多,维修费用增加,可正常使用的工时减少,加工质量下降,经济效益差,并且,使用的年限越长、处理价值也越低,自然,如果卖去旧的买新的,还需要付出更新费因此就需要综合权衡决定设备的使用年限,使总的经济效益最好。第8页/共161页 例 3 连续生产过程的控制问题:一般化工生产过程中,常包含一系列完成生产过程的设备,前一工序设备的输出则是后一工序设备的输入,因此,应该如何根据各工序的运行工况,控制生产过程中各设备的输入和输出,以使总产量最大。以上所举问题的发展过程都与时间因素有关,因此在
6、这类多阶段决策问题中,阶段第9页/共161页的划分常取时间区段来表示,并且各个阶段上的决策往往也与时间因素有关,这就使它具有了“动态”的含义,所以把处理这类动态问题的方法称为动态规划方法。不过,实际中尚有许多不包含时间因素的一类“静态”决策问题,就其本质而言是一次决策问题,是非动态决策问题,但是也可以人为地引入阶段的概念当作多阶段决策问题,应用动态规划方法加以解决。第10页/共161页 例例 4 4 资源分配问题:便属于这类静态问题。如:某工业部门或公司,拟对其所属企业进行稀缺资源分配,为此需要制定出收益最大的资源分配方案。这种问题原本要求一次确定出对各企业的资源分配量,它与时间因素无关,不属
7、动态决策,但是,我们可以人为地规定一个资源分配的阶段和顺序,从而使其变成一个多阶段决策问题(后面我们将详细讨论这个问题)。第11页/共161页 例例 5 5 运输网络问题:如图7-1所示的运输网络,点间连线上的数字表示两地距离(也可是运费、时间等),要求从fk(sk)至v10的最短路线。这种运输网络问题也是静态决策问题。但是,按照网络中点的分布,可以把它分为4个阶段,而作为多阶段决策问题来研究。第12页/共161页1234图7-1 运输网络图示(10)(14)(16)(15)(17)(22)(22)(21)(27)第13页/共161页特别注意:动态规划求解的多阶段决策问题的特点:适合于用动态规
8、划方法求解的只是一类特殊的多阶段决策问题,即具有“无后效性”的多阶段决策过程。所谓无后效性,又称马尔柯夫性,是指系统从某个阶段往后的发展,仅由本阶段所处的状态及其往后的决策所决定,与系统以前经历的状态和决策(历史)无关。第14页/共161页 7.2 7.2 动态规划的基本概念和基本原理引言 为了说明动态规划的基本思想方法和特点,以下面的例题来讨论求最短路问题的方法。回本章目录第15页/共161页 第一种方法称做全枚举法或穷举法。它的基本思想是列举出所有可能发生的方案和结果,再对它们一一进行比较,求出最优方案。这里从A到G的路程可以分为6个阶段。第一段的走法有2种,第二、三、四、五、六段的走法各
9、6、8、6、6、2,因此共有2322248条可能的路线,分别算出各条路线的距离,最后进行比较求优。第16页/共161页AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368763685338422213335256643最优路径长度18第17页/共161页第二种方法即所谓“局部最优路径”法,是说某人从k阶段出发,他并不顾及全线是否最短,只是选择当前最短途径,“逢近便走”,错误地以为局部最优会致整体最优,在这种想法指导下,所取决策必是下图所示,全程长度是25;显然,这种方法的结果常是错误的AB1B2C1C2C3D1D2D3E1E2E3F1F2G53136876368533842
10、2213335256643C4第18页/共161页第三种方法是动态规划方法。动态规划方法寻求该最短路问题的基本思想是,首先将问题划分为6个阶段,每次的选择总是综合后继过程的一并最优进行考虑,在各段所有可能状态的最优后继过程都已求得的情况下,全程的最优路线便也随之得到。第19页/共161页一、动态规划的基本概念 运用动态规划求解多阶段决策问题,首先要将该问题写成动态规划模型,再进行求解,动态规划模型中用到的概念及符号如下:第20页/共161页12n状态决策状态决策状态状态决策12ks1u1s2u2s3skuksk+1第21页/共161页例6 最短路问题 如图7-2所示,要从A地到E地铺设管线,中
11、间需要经过三个中间站,两点之间的连线上的数字表示距离,问应该选择什么路线,使总距离最短?35256321737562254321B1AB2B3C1C2C3C4ED2D1 第22页/共161页1.阶段(stage)根据所需解决问题的特点,按照时间或空间顺序把整个过程划分为若干相互联系的阶段,以便按照一定次序求解。描述阶段的变量称为阶段变量,通常用字母k表示阶段变量。例如例6中,从A到E可以划分为四个阶段,第一阶段k=1,从A到B(B有三种选择,B1,B2,B3);第二阶段k=2,从B到C(C有四种选择,C1,C2,C3,C4);第三阶段k=3,从C到D(D有两种选择,D1,D2);第四阶段k=4
12、,从D到E。例6可以分为四个阶段来求解,k=1,2,3,4。第23页/共161页上海A伊犁 EB1B245C1C2C3425D1D356753D243654546第一阶段第二阶段第三阶段第四阶段第24页/共161页2.状态(state)状态表示各阶段开始所处的自然状况或客观条件,它既是某阶段过程演变的起点,又是前一阶段某种决策的结果。描述状态的变量称为状态变量,常用sk表示第k阶段的状态变量。状态变量sk的取值集合称为状态集合,第k阶段的状态集合记为Sk,例如例6中,第一阶段状态为A,第二阶段有三个状态:B1,B2,B3;第三阶段有四个状态:C1,C2,C3,C4;第四阶段有两个状态:D1,D
13、2;各阶段状态集合分别为:第25页/共161页S1=AS2=B1,B2,B3S3=C1,C2,C3,C4S4=D1,D2第26页/共161页上海A伊犁 EB1B245C1C2C3425D1D356753D243654546第一阶段第二阶段第三阶段第四阶段S1=AS2=B1,B2S3=C1,C2,C3.n个阶段的决策过程有n+1个状态变量第27页/共161页 这里状态的选取应当满足无后效性:系统从某个阶段往后的发展演变,完全由系统本阶段所处的状态及决策所决定,与系统以前的状态及决策无关。也就是说,过去的历史只能通过当前的状态去影响未来的发展,当前的状态是过去历史的一个完整总结。只有具有无后效性的
14、多阶段决策过程才适合于用动态规划方法求解。例6中,当某个阶段已经选定某个点时,这个点以后的管线铺设只与该点有关,而与该点以前的管线铺设无关,所以满足无后效性。第28页/共161页3.决策(decision)当各阶段的状态选定以后,可以做出不同的决定(或选择)从而确定下一个阶段的状态,这种决定(或选择)称为决策。表述决策的变量称为决策变量,常用uk(sk)表示第k阶段当状态为sk时的决策变量。实际问题中,决策变量的取值往往限制在某一范围内,此范围称为允许决策集合,常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然uk(sk)Dk(sk)。例如例6中,第二阶段若从B2出发,可以选择C1
15、,C2,C3,C4,即允许决策集合为:D2(B2)=C1,C2,C3,C4 当决定选择C3时,可以表示为:u2(B2)=C3第29页/共161页上海A伊犁 EB1B245C1C2C3425D1D356753D243654546第一阶段S1=Au1(A)=B1 或 u1(A)=B2 ,D1(A)=B1,B2第30页/共161页4.策略(policy)当各个阶段的决策确定以后,各阶段的决策形成一个决策序列,称此决策序列为一个策略。使系统达到最优效果的策略称为最优策略。在n阶段决策过程中,从第k阶段到终止状态的过程,称为k后部子过程(或称为k子过程),k后部子过程相应的决策序列称为k后部子过程策略,
16、简称子策略,记为p k,n(sk),即:P k,n(sk)=uk(sk),uk+1(sk+1),un(sn)当k=1时,即由第一阶段某个状态出发做出的决策序列称为全过程策略,简称策略,记为p1,n(s1),即:p1,n(s1)=u1(s1),u2(s2),un(sn)第31页/共161页上海A伊犁 EB1B245C1C2C3425D1D356753D243654546P1,5(A)=A,B1,C2,D2,E P1,5(A)=A,B2,C3,D3,E P2,5(A)=B2,C2,D1,E 第32页/共161页5.状态转移方程(state transfer equation)动态规划中,本阶段的状
17、态往往是上一个阶段状态和上一个阶段决策作用的结果。设第k阶段状态为sk,做出的决策为uk(sk),则第k+1阶段的状态sk+1随之确定,他们之间的关系可以表示为:sk+1=Tk(sk,uk)这种表示从第k阶段到第k+1阶段状态转移规律的方程称为状态转移方程,它反映了系统状态转移的递推规律。例如例6中,上一阶段的决策就是下一阶段的状态,所以状态转移方程为:sk+1=uk(sk)状态转移方程是建立动态规划数学模型的难点之一。第33页/共161页12ks1u1s2u2s3skuksk+1一旦某阶段的状态和决策为已知,下阶段的状态便完全确定无后效性。第34页/共161页6.指标函数和最优指标函数衡量所
18、选策略优劣的数量指标称为指标函数。它定义在全过程和所有后部子过程,常用Vk,n表示,即:Vk,n=Vk,n(sk,uk,sk+1,sn+1)当k=1时,V1,n表示初始状态为s1,采用策略p1,n时的指标函数值。V1,n=V1,n(s1,u1,s2,sn+1)动态规划数学模型的指标函数应该具有可分离性,并满足递推关系,即:Vk,n(sk,uk,sk+1,sn+1)=ksk,uk,Vk+1,n(sk+1,sn+1)在阶段k状态为sk,决策为uk(sk)时得到的反映第k阶段的数量指标vk(sk,uk)称为k阶段的指标函数。第35页/共161页常见的指标函数形式有两种:(1)任一后部子过程的指标函数
19、是它所包含的各阶段指标的和,即:Vk,n(sk,uk,sn+1)=写成递推关系:Vk,n(sk,uk,sn+1)=vk(sk,uk)+Vk+1,n(sk+1,uk+1,sn+1)第36页/共161页(2)任一后部子过程的指标函数是它所包含的各阶段指标的积,即:Vk,n(sk,uk,sn+1)=写成递推关系:Vk,n(sk,uk,sn+1)=vk(sk,uk)Vk+1,n(sk+1,uk+1,sn+1)第37页/共161页指标函数的最优值记为fk(sk),它表示从第k阶段状态sk出发,采取最优策略p*k,n(sk)到第n阶段的终止状态时的最佳指标函数值,即:opt 是英文optimization
20、(优化)的缩写,根据问题的性质取max或min。第38页/共161页当k=1时,f1(s1)就是从初始状态s1出发到终止状态的最优函数。在不同的问题中,指标函数可以是利润、成本、距离、产品质量或资源消耗等。在最短路线问题中,第k阶段的指标函数vk(sk,uk)通常也用dk(sk,uk)表示。例如例6中,d2(B2,C3)表示第二阶段中由点B2到点C3的距离,fk(sk)表示从第k阶段点sk到终点E的最短距离,f1(A)就是所求从A到E的最短距离。第39页/共161页AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368763685338422213335256643则不论前面
21、A如何到达B,B又如何到达C2,对于C2来说:第40页/共161页二、最优化原理 一个过程的最优策略具有这样的性质:即无论初始状态及初始决策如何,对于先前决策所形成的状态而言,其以后的所有决策必构成最优策略,即一个最优策略的子策略也是最优的。第41页/共161页AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368763685338422213335256643k=4,3,2,1第42页/共161页E1E2E3F1F2G33525664k=6,F1 G f6(F1)=4F2 G,f6(F2)=3k=5,出发点E1、E2、E3u5(E1)=F1E1 F1 Gu5(E2)=F2E
22、2 F2 Gu5(E3)=F2E3 F2 G第43页/共161页k=4,f4(D1)=7 u4(D1)=E2f4(D2)=6 u4(D2)=E2f4(D3)=8 u4(D3)=E2D1D2D3E1E2E3F1F2G22213335256643第44页/共161页k=2,f2(B1)=13 u2(B1)=C2 f2(B2)=16 u2(B2)=C3=minf1(A)=mind1(A,B1)+f2(B1)d1(A,B2)+f2(B2)5+133+16=18k=1,u1(A)=B1u2(B1)=C2u3(C2)=D1u4(D1)=E2f3(C1)=13 u3(C1)=D1f3(C2)=10 u3(C
23、2)=D1f3(C3)=9 u3(C3)=D1f3(C4)=12 u3(C4)=D3k=3,第45页/共161页u1(A)=B1u2(B1)=C2u3(C2)=D1u4(D1)=E2 u5(E2)=F2u6(F2)=G最优策略 路长18AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368763685338422213335256643第46页/共161页AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G537363421333264动态规划方法明显优于穷举法(计算次数及结果数量)第47页/共161页1、动态规划方法的关键在于正确地写出基本的递推递推关系式和恰当的边
24、界条件(简称基本方程)关系式和恰当的边界条件(简称基本方程)。要做到这一点,就必须将问题的过程分成几个相互联系的阶段阶段,恰当的选取状态变量和决策变量及定义最状态变量和决策变量及定义最优值函数优值函数,从而把一个大问题转化成一组同类型的一组同类型的子问题子问题,然后逐个求解。即从边界条件开始,逐段递推寻优,在每一个子问题的求解中,均利用了它前面的子问题的最优化结果,依次进行,最后一个子问题所得的最优解,就是整个问题的最优解。结论:第48页/共161页2、在多阶段决策过程中,动态规划方法是既把当前一段和未来一段分开,又把当前效益和未来效益结合起来考虑的一种最优化方法。因此,每段决策的选取每段决策
25、的选取是从全局来考虑的,与该段的最优选择答案一般是不是从全局来考虑的,与该段的最优选择答案一般是不同的同的。3、在求整个问题的最优策略时,由于边界(初始或结果)状态是已知的,而每段的决策都是该段状态的函数,故最优策略便可通过逆序(或顺序)逆序(或顺序)递推逐段变换得到,从而确定最优路线。(请看下例)第49页/共161页AB1B2C1C2C3C4D1D2D3E1E2E3F1F2G531368763685338422213335256643例:请用顺序法求解下列最短路问题123456第50页/共161页第51页/共161页两种方式在本质上没有什么不同:两种方式在本质上没有什么不同:通常情况下,当初
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运筹学 动态 规划
限制150内