算法 第四章动态规划精品文稿.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《算法 第四章动态规划精品文稿.ppt》由会员分享,可在线阅读,更多相关《算法 第四章动态规划精品文稿.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、算法 第四章 动态规划2022/10/231第1页,本讲稿共120页第四章 动态规划4.1 一般方法一般方法1.多阶段决策问题多阶段决策问题 多阶段决策过程多阶段决策过程:问题的活动过程分为若干相互联系的阶段,任一阶段:问题的活动过程分为若干相互联系的阶段,任一阶段i以后的行以后的行为仅依赖于为仅依赖于i阶段的过程状态,而与阶段的过程状态,而与i阶段之前的过程如何达到这种状态的方式无关。在每阶段之前的过程如何达到这种状态的方式无关。在每一个阶段都要做出决策,这一系列的决策称为多阶段决策过程一个阶段都要做出决策,这一系列的决策称为多阶段决策过程(multistep decision proces
2、s)。最优化问题最优化问题:问题的每一阶段可能有多种可供选择的决策,必须从中选:问题的每一阶段可能有多种可供选择的决策,必须从中选择一种决策。各阶段的决策构成一个决策序列。决策序列不同,所导致的择一种决策。各阶段的决策构成一个决策序列。决策序列不同,所导致的问题的结果可能不同。问题的结果可能不同。多阶段决策的最优化问题多阶段决策的最优化问题就是:求能够获得问题最优解的决策序列就是:求能够获得问题最优解的决策序列最优最优决策序列。决策序列。2022/10/232第2页,本讲稿共120页2.多阶段决策过程的求解策略多阶段决策过程的求解策略1)枚举法)枚举法 穷举穷举可能的决策序列,从中选取可以获得
3、最优解的决策序列可能的决策序列,从中选取可以获得最优解的决策序列2)动态规划)动态规划 20世纪世纪50年代初美国数学家年代初美国数学家R.E.Bellman等人在研究多阶段决策过程的优化等人在研究多阶段决策过程的优化问题时,提出了著名的问题时,提出了著名的最优化原理最优化原理(principle of optimality),把,把多阶段多阶段过程转化为过程转化为一系列一系列单阶段单阶段问题,创立了解决这类过程优化问题的新方法问题,创立了解决这类过程优化问题的新方法动态规划动态规划。动态规划动态规划(dynamic programming)是是运筹学运筹学的一个分支,是求解的一个分支,是求解
4、决策过决策过程程(decision process)最优化的数学方法。最优化的数学方法。应用领域:动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方应用领域:动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。问题,用动态规划方法比用其它方法求解更为方便。2022/10/233第3页,本讲稿共120页3.最优性原理最优性原理(Principle of Optimality)过程
5、的过程的最优决策序列最优决策序列具有如下性质:无论过程的具有如下性质:无论过程的初始状态初始状态和和初初始决策始决策是什么,其余的决策都必须相对于初始决策所产生的状态构成一个是什么,其余的决策都必须相对于初始决策所产生的状态构成一个最优决策序列。最优决策序列。对于一个多阶段过程问题,上述最优决策是否存在依赖于该问题是对于一个多阶段过程问题,上述最优决策是否存在依赖于该问题是否有否有最优子结构性质最优子结构性质:原问题的最优解包含了其子问题的最优解。而能:原问题的最优解包含了其子问题的最优解。而能否采用动态规划的方法还要看该问题的子问题是否具有重叠性质。问题的否采用动态规划的方法还要看该问题的子
6、问题是否具有重叠性质。问题的子结构性质和子问题重叠性质子结构性质和子问题重叠性质是采用动态规划算法的两个基本要素。是采用动态规划算法的两个基本要素。子问题重叠性质子问题重叠性质:在求解具有最优子结构的问题时,每次产生的子问题并不总是新问在求解具有最优子结构的问题时,每次产生的子问题并不总是新问题,有些问题被反复计算多次。题,有些问题被反复计算多次。2022/10/234第4页,本讲稿共120页 利用动态规划求解问题的前提利用动态规划求解问题的前提 1)证明问题满足最优性原理证明问题满足最优性原理 如果对所求解问题证明满足最优性原理,则说明用动如果对所求解问题证明满足最优性原理,则说明用动态规划
7、方法有可能解决该问题态规划方法有可能解决该问题 2)获得问题状态的递推关系式获得问题状态的递推关系式 获得各阶段间的递推关系式是解决问题的关键。获得各阶段间的递推关系式是解决问题的关键。2022/10/235第5页,本讲稿共120页例例4.1 多段图问题多段图问题多段图多段图G=(V,E)是一个有向图,且具有特性是一个有向图,且具有特性:结点结点:结点集:结点集V被分成被分成k22个不相交的集合个不相交的集合V Vi i,1ik1ik,其中其中V V1 1和和V Vk k分别只有一个结点分别只有一个结点s(s(源结点源结点)和和t(t(汇点汇点)。每一集合每一集合V Vi i定义图中的定义图中
8、的一段一段。边边:所有的边所有的边(u,v)(u,v)均具有如下性质:均具有如下性质:若若EE,则,则 该边将是从某段该边将是从某段i i指向指向i+1i+1段,即若段,即若uVuVi i,则,则vVvVi i1 1,1ik 1ik1 1。每条边每条边(u,v)(u,v)均附有成本均附有成本c(u,v)c(u,v)。s s到到t t的路径的路径:从第:从第1 1段开始,至第段开始,至第2 2段、第段、第3 3段、段、最后、最后 在第在第k k段终止。路径的段终止。路径的成本成本是这条路径上边的成本是这条路径上边的成本 和。和。多段图问题多段图问题:求由:求由s s到到t t的的最小成本路径最小
9、成本路径。2022/10/236第6页,本讲稿共120页12345678910111297324227111181456356425V1V2V3V4V55段图2022/10/237第7页,本讲稿共120页 多段图问题的多段图问题的多阶段决策过程多阶段决策过程:生成从:生成从s到到t的最小成本路径是在的最小成本路径是在k-2个阶段(除个阶段(除s和和t外)进行某种决策的过程:从外)进行某种决策的过程:从s开始,开始,第第i次次决策决定决策决定Vi+1(1ik-2)中的哪个结点在从中的哪个结点在从s到到t的最短路径上。的最短路径上。最优性原理对多段图问题成立最优性原理对多段图问题成立 假设假设s,
10、v2,v3,vk-1,t是一条由是一条由s到到t的最短路径。的最短路径。初始状态初始状态:s 初始决策初始决策:(s,v2),v2VV2 2 初始决策产生的状态初始决策产生的状态:v2 则,其余的决策:则,其余的决策:v3,.,vk-1相对于相对于v2将构成一个最优决策序列将构成一个最优决策序列最最优性原理成立。优性原理成立。反证反证:若不然,设:若不然,设v2,q3,qk-1,t是一条由是一条由v2到到t的更短的路径,则的更短的路径,则s,v2,q3,qk-1,t将是比将是比s,v2,v3,vk-1,t更短的从更短的从s到到t的路径。与假设矛盾。的路径。与假设矛盾。故,最优性原理成立故,最优
11、性原理成立2022/10/238第8页,本讲稿共120页n例例4.20/1背包问题背包问题 KNAP(1,j,X)目标函数目标函数:约束条件约束条件:0/1背包问题:背包问题:KNAP(1,n,M)2022/10/239第9页,本讲稿共120页最优性原理对最优性原理对0/1背包问题成立:背包问题成立:设设y1,y2,yn是是x1,x2,xn的的0/1值最优序列。值最优序列。若若y10,KNAP(2,n,M)是初始决策产生的状态。则是初始决策产生的状态。则y2,yn相对于相对于KNAP(2,n,M)将构成一个最优序列。否则,将构成一个最优序列。否则,y1,y2,yn将不是将不是KNAP(1,n,
12、M)的最优解的最优解 若若y11,KNAP(2,n,Mw1)是初始决策产生的状态。则是初始决策产生的状态。则y2,yn相对相对于于KNAP(2,n,Mw1)将构成一个最优序列。将构成一个最优序列。否则,设存在另一否则,设存在另一0/1序列序列z2,z3,zn,使得使得 且且 则序列则序列y1,z2,zn将是一个对于将是一个对于KNAP(1,n,M)具有更大效益值得序列。具有更大效益值得序列。故,最优性原理成立故,最优性原理成立2022/10/2310第10页,本讲稿共120页4.动态规划模型的基本要素动态规划模型的基本要素一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素:一个多阶段决
13、策过程最优化问题的动态规划模型通常包含以下要素:1)阶段阶段 阶段阶段(step)是对整个过程的自然划分。通常根据时间顺序或空是对整个过程的自然划分。通常根据时间顺序或空间特征来划分阶段,以便按阶段的次序解优化问题。阶段变量一间特征来划分阶段,以便按阶段的次序解优化问题。阶段变量一般用般用k=1,2,.,n表示。表示。2022/10/2311第11页,本讲稿共120页2)状态状态 状态状态(state)表示每个阶段开始时过程所处的自然状况。它应该能表示每个阶段开始时过程所处的自然状况。它应该能够描述过程的特征并且具有够描述过程的特征并且具有无后向性无后向性,即当某阶段的状态给定时,这个,即当某
14、阶段的状态给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关,即每个状态都是过去阶段以后过程的演变与该阶段以前各阶段的状态无关,即每个状态都是过去历史的一个完整总结。通常还要求状态是直接或间接可以观测的。历史的一个完整总结。通常还要求状态是直接或间接可以观测的。描述状态的变量称描述状态的变量称状态变量状态变量(state variable)。变量允许取值的范围。变量允许取值的范围称允许称允许状态集合状态集合(set of admissible states)。用。用xk表示第表示第k阶段的状态阶段的状态变量,它可以是一个数或一个向量。用变量,它可以是一个数或一个向量。用Xk表示第表示第
15、k阶段的允许状态集合。阶段的允许状态集合。状态变量简称为状态状态变量简称为状态2022/10/2312第12页,本讲稿共120页3)决策)决策 当一个阶段的状态确定后,可以作出各种选择从而演变到下一阶段的某个当一个阶段的状态确定后,可以作出各种选择从而演变到下一阶段的某个状态,这种选择手段称为状态,这种选择手段称为决策决策(decision)。描述决策的变量称决策变量描述决策的变量称决策变量(decision variable)。变量允许取值的范围称允。变量允许取值的范围称允许决策集合许决策集合(set of admissible decisions)。用。用uk(xk)表示第表示第k阶段处于
16、状态阶段处于状态xk时的决策变量,它是时的决策变量,它是xk的函数,用的函数,用Uk(xk)表示了表示了xk的允许决策集合。的允许决策集合。决策变量简称决策。决策变量简称决策。2022/10/2313第13页,本讲稿共120页4)策略)策略 决策组成的序列称为策略决策组成的序列称为策略(policy)。由初始状态。由初始状态x1开始的全过程开始的全过程的策略记作的策略记作p1n(x1),即,即p1n(x1)=u1(x1),u2(x2),.,un(xn)。由第由第k阶段的状态阶段的状态xk开始到终止状态的后部子过程的策略记作开始到终止状态的后部子过程的策略记作pkn(xk),即,即pkn(xk)
17、=uk(xk),uk+1(xk+1),.,un(xn)。类似地,。类似地,由第由第k到第到第j阶段的子过程的策略记作阶段的子过程的策略记作 pkj(xk)=uk(xk),uk+1(xk+1),.,uj(xj)。对于每一个阶段对于每一个阶段k的某一给定的状态的某一给定的状态xk,可供选择的策略,可供选择的策略pkj(xk)有一定的范围,称为允许策略集合有一定的范围,称为允许策略集合(set of admissible policies),用,用P1n(x1),Pkn(xk),Pkj(xk)表示。表示。2022/10/2314第14页,本讲稿共120页5)状态转移方程状态转移方程 在确定性过程中,
18、一旦某阶段的状态和决策为已知,下阶在确定性过程中,一旦某阶段的状态和决策为已知,下阶段的状态便完全确定。用状态转移方程段的状态便完全确定。用状态转移方程(equation of state)表示这种演变规律,写作表示这种演变规律,写作2022/10/2315第15页,本讲稿共120页6)指标函数和最优值函数指标函数和最优值函数 指标函数指标函数(objective function)是衡量过程优劣的数量是衡量过程优劣的数量指标,它是关于策略的数量函数,从阶段指标,它是关于策略的数量函数,从阶段k到阶段到阶段n的指标的指标函数用函数用Vkn(xk,pkn(xk)表示,表示,k=1,2,.,n。能
19、够用动态规划解决的问题的指标函数应具有可分离性,即能够用动态规划解决的问题的指标函数应具有可分离性,即Vkn可表为可表为xk,uk,Vk+1 n 的函数,记为:的函数,记为:2022/10/2316第16页,本讲稿共120页7.最优策略和最优轨线最优策略和最优轨线 使指标函数使指标函数Vkn达到最优值的策略是从达到最优值的策略是从k开始的后部子过程的开始的后部子过程的最优策略,记作最优策略,记作pkn*=uk*,.un*,p1n*又是全过程的最优策略,简又是全过程的最优策略,简称最优策略称最优策略(optimal policy)。从初始状态。从初始状态x1(=x1*)出发,过程按出发,过程按照
20、照p1n*和状态转移方程演变所经历的状态序列和状态转移方程演变所经历的状态序列x1*,x2*,.,xn+1*称最优轨线称最优轨线(optimal trajectory)。2022/10/2317第17页,本讲稿共120页4.最优决策序列的表示最优决策序列的表示 设设 S0:问题的初始状态:问题的初始状态 n次决策:问题需要做次决策:问题需要做n次决策次决策 xi:i阶段的决策值,阶段的决策值,1inin。设设X X1 1=r=r1,11,1,r,r1,21,2,r,r1,p11,p1 是是x x1 1可能的决策值的集合,可能的决策值的集合,S S1,j11,j1是在选择决策值是在选择决策值r
21、r1,j11,j1之后所产生的状态之后所产生的状态初始决策所产生的状态初始决策所产生的状态。设设1,j11,j1是相应于状态是相应于状态S S1,j11,j1的最优决策序列的最优决策序列。则,相应于则,相应于S S0 0的最优决策序列就是的最优决策序列就是rr1,j11,j11,j11,j1|1j|1j1 1pp1 1 中最优的序列,记中最优的序列,记为为 2022/10/2318第18页,本讲稿共120页s0r1,1r1,2.r1,p1sn1,j12022/10/2319第19页,本讲稿共120页 若已经做了若已经做了k-1k-1次决策,次决策,1k-11k-1n n,设,设x x1 1,x
22、,x2 2,x,xk-1k-1的最优决策值是的最优决策值是r r1 1,r,r2 2,r,rk-1k-1,所产生的状态依次为,所产生的状态依次为S S1 1,S,S2 2,S,Sk-1k-1。设设X Xk k=r=rk,1k,1,r,rk,2k,2,r,rk,pkk,pk 是是x xk k可能的决策值的集合,可能的决策值的集合,S Sk,jkk,jk是在选择决策值是在选择决策值r rk,jkk,jk之后所产生的状态之后所产生的状态,1j,1jk kppk k。k,jkk,jk是相应于状态是相应于状态S Sk,jkk,jk的最优决策序的最优决策序列。列。则,相应于则,相应于S Sk-1k-1的最
23、优决策序列是的最优决策序列是 相应于相应于S S0 0的最优决策序列为的最优决策序列为r r1 1,r,rk-1k-1,r rk k,k k2022/10/2320第20页,本讲稿共120页5.递推策略递推策略1)向前处理法)向前处理法 列出根据列出根据xi+1,xn的最优决策序列求取的最优决策序列求取xi决策决策值的关系式。值的关系式。从最后一个阶段,逐步从最后一个阶段,逐步向前向前递推求出各阶段的递推求出各阶段的决策值。决策序列决策值。决策序列x1,x2,xn就是问题的最优解。就是问题的最优解。xn-1,1xn-1,pn-1xn2022/10/2321第21页,本讲稿共120页 例例4.3
24、 利用向前处理法求解利用向前处理法求解0/1背包问题背包问题 设设gi(x)是是KNAP(i+1,n,X)的最优解。的最优解。g0(M):KNAP(1,n,M)的最优解。由于的最优解。由于x1的取值等于的取值等于1或或0,可得:可得:g0(M)=maxg1(M),g1(M-w1)+p1 对于某个对于某个xi,xi等于等于1或或0,则有:,则有:gi(X)=maxgi+1(X),gi+1(X-wi+1)+pi+1 初始值:初始值:0 X0 0 gn(X)=-X02022/10/2322第22页,本讲稿共120页 例例4.4 利用向前处理法求解利用向前处理法求解k段图问题段图问题 设设 V2,1j
25、2p2,|V2|=p2;是由是由 到到t的最短路径,的最短路径,则s到到t的最短路径是的最短路径是 s|V2,1j2p2中最短的那条路径。中最短的那条路径。若若s,v2,v3,vi,vk-1,t是是s到到t的一条最短路径,的一条最短路径,vi是其中的一个中是其中的一个中间点,点,则s,v2,v3,vi和和 vi,vk-1,t分分别是由是由s到到vi和和vi到到t的最短路径的最短路径(最(最优性原理)性原理)从从Vi中的中的结点点ji到到t的最短路径将是:的最短路径将是:min(|Vi+1,1ji+1pi+1)2022/10/2323第23页,本讲稿共120页2)向后处理法向后处理法 列出根据列
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法 第四章 动态规划精品文稿 第四 动态 规划 精品 文稿
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内