第八章-动态规划ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第八章-动态规划ppt课件.ppt》由会员分享,可在线阅读,更多相关《第八章-动态规划ppt课件.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章第八章 动态规划动态规划第一节第一节 动态规划原理和模型动态规划原理和模型第二节第二节 一维动态规划求解方法一维动态规划求解方法第三节第三节 动态规划在经济和管理中的应用动态规划在经济和管理中的应用第一节第一节 动态规划原理和模型动态规划原理和模型一、引例与动态规划的基本概念一、引例与动态规划的基本概念二、动态规划的原理二、动态规划的原理三、动态规划模型的建立三、动态规划模型的建立动态规划是动态规划是5050年初由美国数学家年初由美国数学家R.BellmanR.Bellman等人提出等人提出的解决多阶段决策过程优化问题的的解决多阶段决策过程优化问题的“最优化原理最优化原理”基础上建立起来
2、的。基础上建立起来的。动态规划是将一个较复杂的多阶段决策问题分解为动态规划是将一个较复杂的多阶段决策问题分解为若干相互关联的较容易求解的子决策问题,而每一若干相互关联的较容易求解的子决策问题,而每一个子决策问题都有多种选择,并且当一个子决策问个子决策问题都有多种选择,并且当一个子决策问题确定以后,将影响另一个子决策问题,从而影响题确定以后,将影响另一个子决策问题,从而影响到整个问题的决策。到整个问题的决策。一、动态规划的基本概念一、动态规划的基本概念动态规划模型分为(动态规划模型分为(1 1)离散模型;()离散模型;(2 2)连续模)连续模型。本章只讨论与离散模型有关原理和方法。这型。本章只讨
3、论与离散模型有关原理和方法。这对连续模型也适用。对连续模型也适用。下面通过一个多阶段决策过程的例子引入动态规下面通过一个多阶段决策过程的例子引入动态规划的基本概念、原理和方法。划的基本概念、原理和方法。例例8.18.1(最短路问题)某运输公司拟将一批货物从(最短路问题)某运输公司拟将一批货物从A A地运往地运往E E地,其间的交通系统网络如图地,其间的交通系统网络如图8-18-1所示。图上所示。图上节点表示地点,边表示两地之间的道路,边上的数字节点表示地点,边表示两地之间的道路,边上的数字表示两地间的运输费用,求运输费用最低的运输路线。表示两地间的运输费用,求运输费用最低的运输路线。相关的概念
4、相关的概念:AB1B2B3C1C2C3D1D2E第2阶段第3阶段第4阶段第1阶段5412331136444165798(1)(1)阶段阶段 将所给问题的过程,按时间或空间特征分解将所给问题的过程,按时间或空间特征分解成若干互相联系的阶段,按次序去求每阶段的解,成若干互相联系的阶段,按次序去求每阶段的解,用字母用字母k k表示阶段变量。表示阶段变量。AB1B2B3C1C2C3D1D2E第2阶段第3阶段第4阶段第1阶段的状态第2阶段的状态第1阶段541233113644416579s1状态状态A,s2?S1=A,S2=B1、B2、B3,S3=C1、C2、C3,S4=D1、D2。8(2)(2)状态状
5、态 状态就是阶段的起始位置。通常一个阶段包含若干个状态。状态就是阶段的起始位置。通常一个阶段包含若干个状态。第第k k阶段的状态就是该阶段所有始点的集合。描述各阶段状态阶段的状态就是该阶段所有始点的集合。描述各阶段状态的变量称为状态变量。常用的变量称为状态变量。常用s sk k表示第表示第k k阶段的状态变量。状态阶段的状态变量。状态变量的取值集合称为状态集合,用变量的取值集合称为状态集合,用S Sk k表示。表示。3 3)决策)决策决策是某阶段状态给定之后,从该状态演变到下一阶决策是某阶段状态给定之后,从该状态演变到下一阶段某一状态的选择。表示决策的变量称为决策变量,段某一状态的选择。表示决
6、策的变量称为决策变量,用用u uk k(s(sk k)表示第阶段,状态为表示第阶段,状态为s sk k时的决策变量,它是时的决策变量,它是状态变量的函数。实际问题中,决策变量的选取往往状态变量的函数。实际问题中,决策变量的选取往往受到某些条件的影响而限制于某一范围,此范围称为受到某些条件的影响而限制于某一范围,此范围称为允许决策集合。允许决策集合。AB1B2B3C1C2C3D1D2E第2阶段第3阶段第4阶段第1阶段的状态第2阶段的状态第1阶段541233113644416579在例在例8.18.1中,中,u u2 2(B(B1 1)就表示第就表示第2 2阶段状态为阶段状态为B B1 1时的决策
7、变量(它或时的决策变量(它或等于等于C C1 1或等于或等于C C3 3),即,从第),即,从第2 2阶段的状态阶段的状态B B1 1出发,可到达下一出发,可到达下一阶段的阶段的C C1 1或者或者C C3 3,所以这一阶段的允许决策集,所以这一阶段的允许决策集D D2 2(B(B1 1)=C)=C1 1,C,C3 3。84 4)策略)策略各阶段决策确定后,组成的一个有序的决策序列就各阶段决策确定后,组成的一个有序的决策序列就构成了一个策略。构成了一个策略。称为全过程的一个策略,称为全过程的一个策略,简称策略。简称策略。称为由第称为由第k k阶段开始阶段开始到最后阶段止的一个子策略,简称后部子
8、策略。到最后阶段止的一个子策略,简称后部子策略。使整个问题到达最优效果的策略称为最优策略。使整个问题到达最优效果的策略称为最优策略。动态规划方法就是要从允许策略集中找出最优策动态规划方法就是要从允许策略集中找出最优策略。略。AB1B2B3C1C2C3D1D2E第2阶段第3阶段第4阶段第1阶段的状态第2阶段的状态第1阶段541233113644416579p pA,EA,EA,BA,B2 2,C,C3 3,D,D2 2,E,E就是一个策略。就是一个策略。8p pB2,EB2,EBB2 2,C,C3 3,D,D2 2,E,E就是一个子策略。就是一个子策略。AB1B2B3C1C2C3D1D2E第2阶
9、段第3阶段第4阶段第1阶段的状态第2阶段的状态第1阶段541233113644416579状态转移方程为状态转移方程为 sk+1=uk(sk)85 5)状态转移方程)状态转移方程 它是确定过程由某一阶段的一个状态到下一阶段另一状态的它是确定过程由某一阶段的一个状态到下一阶段另一状态的演变过程,用演变过程,用sk+1=Tk(sk,uk)表示。该方程描述了由第表示。该方程描述了由第k k阶段到阶段到第第k k+1+1阶段的状态转移规律。因此又称其为状态转移函数。阶段的状态转移规律。因此又称其为状态转移函数。指标函数是用来衡量多阶段决策过程优劣的一种数量指标。指标函数是用来衡量多阶段决策过程优劣的一
10、种数量指标。一个一个n 阶段决策过程,从阶段决策过程,从1到到n 称为问题的原过程,对于任意称为问题的原过程,对于任意一个给定的一个给定的k(1kn),从第),从第k 阶段到第阶段到第n 阶段的过程称为原阶段的过程称为原过程的一个后部子过程。过程的一个后部子过程。用用 V1,n(s1,p1,n)表示初始状态为表示初始状态为s1 采用策略采用策略p1,n 时,原过程的指时,原过程的指标函数值。标函数值。Vk,n(sk,pk,n)表示在第表示在第k 阶段,状态为阶段,状态为sk采用策略采用策略pk,n 时,后部子时,后部子过程的指标函数值。过程的指标函数值。从第从第k 阶段状态阶段状态 sk采用最
11、优策略采用最优策略 p*k,n 到过程终止时的最佳效到过程终止时的最佳效益值,称为最优指标函数。记为益值,称为最优指标函数。记为fk(sk)。6 6)指标函数)指标函数 AB1B2B3C1C2C3D1D2E第2阶段第3阶段第4阶段第1阶段的状态第2阶段的状态第1阶段541233113644416579V2,4(B1):表示在第:表示在第2阶段,状态为阶段,状态为B1时,从时,从B1到到E的距离。的距离。f2(B1)则表示从则表示从B1到到E的最短距离。的最短距离。8二、动态规划的原理二、动态规划的原理 在例在例8.18.1中,整个运输路程分为四个阶段,见图中,整个运输路程分为四个阶段,见图8.
12、28.2。下面给出求解的全过程。这里我们采用倒推。下面给出求解的全过程。这里我们采用倒推的方法,即从终点(的方法,即从终点(E E)到起点()到起点(A A)。)。1 1第第4 4阶段,即从阶段,即从E E到到D D,从,从E E出发倒推到下一站出发倒推到下一站D D,它可通过它可通过D D1 1,也可通过,也可通过D D2 2,所需费用分别为,所需费用分别为5 5和和3 3。如果现处于状态如果现处于状态D D1 1,到终点,到终点E E的最佳路线费用:的最佳路线费用:f f4 4(D(D1 1)=5)=5,最优策略:,最优策略:u u4 4(D(D1 1)=E)=E。如果现处于状态如果现处于
13、状态D D2 2,到终点,到终点E E的最佳路线费用:的最佳路线费用:f f4 4(D(D2 2)=3)=3,最优策略:,最优策略:u u4 4(D(D2 2)=E)=E。第第3 3阶段,当从阶段,当从E E到达到达D D后,有两个状态后,有两个状态D D1 1和和D D2 2;若处于状态若处于状态D D1 1,则可到达,则可到达C C1 1或或C C2 2,则费用分别为,则费用分别为9 9或或7 7。若处于状态若处于状态D D2 2,则可到达,则可到达C C1 1或或C C2 2或或C C3 3,费用分别为,费用分别为8 8或或1212或或5 5。从从E E经经D D1 1到达到达C C1
14、1或或C C2 2 的费用,应加上的费用,应加上E E到达到达D D1 1这段的这段的费用,所以费用分别为费用,所以费用分别为5+9=145+9=14、5+7=125+7=12;从从E E经经D D2 2到达到达C C2 2或或C2C2或或C C3 3 的费用,应加上的费用,应加上E E到达到达D D2 2这这段的费用,所以费用分别为段的费用,所以费用分别为3+8=113+8=11、3+12=153+12=15、3+5=83+5=8。如果现在处于如果现在处于C1C1,则到达终点,则到达终点E E的最小费用为:的最小费用为:最小费用路线为最小费用路线为 相应的最优决策相应的最优决策u u3 3(
15、C(C1 1)=D)=D2 2。如果现在处于如果现在处于C2C2,则到达终点,则到达终点E E的最小费用为:的最小费用为:最小费用路线为最小费用路线为 。相应的最优决策。相应的最优决策:如果现在处于如果现在处于C3,到达终点,到达终点E的最小费用为:的最小费用为:最小费用路线为最小费用路线为 相应的最优决策相应的最优决策3第第2阶段,同上。阶段,同上。如果现处于如果现处于B1,到达终点,到达终点E的最小费用为:的最小费用为:最小费用路线为最小费用路线为 相应的最优决策相应的最优决策如果现处于如果现处于B2,则到达终点,则到达终点E的最小费用为:的最小费用为:最小费用路线为最小费用路线为 相应的
16、最优决策相应的最优决策如果现处于如果现处于B3,则到达终点,则到达终点E的最小费用为:的最小费用为:最小费用路线为最小费用路线为 相应的最优决策相应的最优决策4在第在第1阶段阶段A处,则到达终点处,则到达终点E的最小费用为:的最小费用为:最小费用路线为:最小费用路线为:相应的最优决策:相应的最优决策:所以,整个问题的最小费用路线为:所以,整个问题的最小费用路线为:最优策略为:最优策略为:,。在每一阶段的求解,都利用了第在每一阶段的求解,都利用了第k阶段和第阶段和第k+1 阶阶段的如下关系:段的如下关系:这种关系称为动态规划的基本方程。这种关系称为动态规划的基本方程。所谓最优化原理是:一个过程的
17、最优决策具有这所谓最优化原理是:一个过程的最优决策具有这样的性质:无论初始状态及初始决策如何,对于样的性质:无论初始状态及初始决策如何,对于先前决策所形成的状态而言,其以后的所有决策先前决策所形成的状态而言,其以后的所有决策应构成最优策略。应构成最优策略。三、动态规划模型的建立三、动态规划模型的建立 用动态规划解决实际问题,就要建立动态规划模用动态规划解决实际问题,就要建立动态规划模型,为此需要解决如下问题:型,为此需要解决如下问题:1.划分阶段划分阶段2.确定状态变量和决策变量以及相应的取值范围确定状态变量和决策变量以及相应的取值范围3.建立状态转移方程建立状态转移方程4.确定指标函数,建立
18、动态规划的基本方程确定指标函数,建立动态规划的基本方程5.确定边界条件确定边界条件 1.1.划分阶段划分阶段 按照时间、空间、变量划分为若干阶段。按照时间、空间、变量划分为若干阶段。建立动态规划模型要求每个阶段问题具有同一模式。建立动态规划模型要求每个阶段问题具有同一模式。2.2.确定状态变量和决策变量以及相应的取值范围确定状态变量和决策变量以及相应的取值范围 决策过程可用状态演变描述。状态必须包含表示系统情况和确定决决策过程可用状态演变描述。状态必须包含表示系统情况和确定决策所需要的全部信息,反映过程的演变特征。无后效性。找出状态策所需要的全部信息,反映过程的演变特征。无后效性。找出状态变量
19、在各阶段的取值范围。决策变量由系统最优化的目的所决定。变量在各阶段的取值范围。决策变量由系统最优化的目的所决定。3.3.建立状态转移方程建立状态转移方程 根据状态变量和决策变量的含义,写出状态转移方程。根据状态变量和决策变量的含义,写出状态转移方程。4.4.确定指标函数,建立动态规划的基本方程确定指标函数,建立动态规划的基本方程 选取指标函数,根据指标函数建立最优指标函数递推关系选取指标函数,根据指标函数建立最优指标函数递推关系,即基本方即基本方程程5.5.确定边界条件确定边界条件 增加研制费:万元新产品成功的概率甲乙丙0120.600.800.850.400.700.900.300.600.
20、70例例8.2.8.2.有一工厂研制甲、乙、丙三种新产品,估计这三种新有一工厂研制甲、乙、丙三种新产品,估计这三种新产品研制成功的概率分别为:产品研制成功的概率分别为:0.60.6、0.40.4、0.30.3。由于工厂急于。由于工厂急于推出新产品,决定再加拨推出新产品,决定再加拨2 2万元研制费,以提高新产品研制成万元研制费,以提高新产品研制成功的概率。据估计,把增加的研制费用于各种新产品研制时,功的概率。据估计,把增加的研制费用于各种新产品研制时,研制成功的概率见下表。现把这批研制费分配给各新产品(不研制成功的概率见下表。现把这批研制费分配给各新产品(不分配、分配给分配、分配给1 1万元或分
21、配给万元或分配给2 2万元),使这三种新产品都研制万元),使这三种新产品都研制成功的概率最大。应怎样分配。成功的概率最大。应怎样分配。划分阶段划分阶段 把对某一种新产品增加研制费用作为一个阶段,将整个过程分把对某一种新产品增加研制费用作为一个阶段,将整个过程分为三个阶段。对甲产品增加研制费用记为第为三个阶段。对甲产品增加研制费用记为第1阶段、对乙产品增加研制费阶段、对乙产品增加研制费用记为第用记为第2阶段、对丙产品增加研制费用记为第阶段、对丙产品增加研制费用记为第3阶段。阶段。K=1,2,3。状态变量状态变量 把有可能提供的研制费用作为状态变量,记为把有可能提供的研制费用作为状态变量,记为sk
22、,它的取值范围,它的取值范围是:是:0、1、2 决策变量决策变量 把给第把给第k种新产品的研制费用的数量作为决策变量种新产品的研制费用的数量作为决策变量 uk,它由决策它由决策者决定,不能超过当时拥有的金额者决定,不能超过当时拥有的金额 sk建立状态转移方程建立状态转移方程 sk+1=sk-uk 确定指标函数确定指标函数 确定边界条件确定边界条件 由于开始时可用的金额为由于开始时可用的金额为2万元,而最后将全部用完,所以万元,而最后将全部用完,所以 s1=2,s4=0 第二节第二节 一维动态规划求解方法一维动态规划求解方法一、逆推法一、逆推法二、顺推法二、顺推法逆推法是从最后一个阶段开始,逐阶
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 动态 规划 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内