动态规划基本方法.ppt
《动态规划基本方法.ppt》由会员分享,可在线阅读,更多相关《动态规划基本方法.ppt(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、动态规划基本方法 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望 例例2 机器负荷分配问题机器负荷分配问题 某某种种机机器器可可以以在在高高低低两两种种不不同同的的负负荷荷下下进进行行生生产产。在在高高负负荷荷下下进进行行生生产产时时,产产品品的的年年产产量量g和和投投入入生生产产的的机机器器数数量量u的的关关系系为为 gg(u),这这时时机机器器的的年年完完好好率率为为a(0a1);在在低低负负荷荷下下生生产产时时,产产品品的的年年产产量量h和和投投入入生生产产
2、的的机机器器数数量量v的的关关系系为为hh(v),这这时时机机器器的的年年完完好好率率为为b(ab1)。假假定定开开始始生生产产时时完完好好的的机机器器数数量量为为s,要要求求制制定定一一个个五五年年计计划划,在在每每年年开开始始时时决决定定机机器器在在两两种种不不同同负负荷荷下下生生产产的的数数量量,使使五五年内产品的总产量最高年内产品的总产量最高。第第1年年第第1阶段阶段第第2年年第第2阶段阶段第第3年年第第3阶段阶段第第4年年第第4阶段阶段第第5年年第第5阶段阶段 多阶段决策问题和前面遇到的决策问题不同,它多阶段决策问题和前面遇到的决策问题不同,它是和时间有关的,状态(所处自然状况和客观
3、条件)是和时间有关的,状态(所处自然状况和客观条件)是随着决策进程而变化的,故有是随着决策进程而变化的,故有“动态动态”的含义。的含义。与时间有关的活动过程称为动态过程,处理它的与时间有关的活动过程称为动态过程,处理它的方法称为动态规划。而与时间无关的活动过程称为静方法称为动态规划。而与时间无关的活动过程称为静态过程,相应的处理方法称为静态规划。态过程,相应的处理方法称为静态规划。以以上上两两个个问问题题都都可可以以划划分分为为先先后后多多个个决决策策阶阶段段。这类问题就称为多阶段决策问题。这类问题就称为多阶段决策问题。多阶段决策问题的过程如下图所示:多阶段决策问题的过程如下图所示:阶段阶段1
4、状态状态1决策决策1阶段阶段2状态状态2决策决策2阶段阶段n状态状态n决策决策n状态状态3状态状态n+1第第2 2节节 动态规划的基本概念和基本方程动态规划的基本概念和基本方程 (1)阶段(阶段(stage)(2 2)状态(状态(statestate)把所研究的决策问题,按先后顺序划分为若干相把所研究的决策问题,按先后顺序划分为若干相互联系的决策步骤,以便按一定的次序进行求解。互联系的决策步骤,以便按一定的次序进行求解。这这些些决策步骤就称为阶段。决策步骤就称为阶段。描述阶段的变量称阶段变量,常用描述阶段的变量称阶段变量,常用k表示。表示。状态表示每个阶段开始时所处的自然状况或客观状态表示每个
5、阶段开始时所处的自然状况或客观条件条件。它描述了影响决策的因素随决策进程的变化情它描述了影响决策的因素随决策进程的变化情况况。它既是前面阶段所作决策的结果,又是本阶段作它既是前面阶段所作决策的结果,又是本阶段作出决策的出发点和依据。出决策的出发点和依据。描述状态的变量称状态变量,第描述状态的变量称状态变量,第k阶段的状态变量阶段的状态变量常用常用sk表示。通常,第一阶段的状态变量表示。通常,第一阶段的状态变量s1是确定的是确定的,称初始状态。称初始状态。2.1 2.1 动态规划的基本概念动态规划的基本概念动态规划的基本概念动态规划的基本概念 描述决策的变量称决策变量,第描述决策的变量称决策变量
6、,第k阶段的决策变阶段的决策变量常用量常用uk表示。决策变量的取值会受到状态变量表示。决策变量的取值会受到状态变量的的制制约,被限制在某一范围之内约,被限制在某一范围之内,称为允许决策集,记为称为允许决策集,记为Dk(sk)。决策表示在某一阶段处于某种状态时,决策者在决策表示在某一阶段处于某种状态时,决策者在若干种方案中作出的选择决定。若干种方案中作出的选择决定。(3)决策(决策(decision)(4)策略(策略(policy)把从第一阶段开始到最后阶段终止的整个决策过把从第一阶段开始到最后阶段终止的整个决策过程,称为问题的全过程;而把从第程,称为问题的全过程;而把从第k阶段开始到最后阶阶段
7、开始到最后阶段终止的决策过程,或称为段终止的决策过程,或称为k子过程。子过程。在在全全过过程程上上,各各阶阶段段的的决决策策按按顺顺序序排排列列组组成成的的决决策策序序列列p1,n=u1,u2,un称称为为全全过过程程策策略略,简简称称策策略略;而而在在k-子子过过程程上上的的决决策策序序列列pk,n=uk,uk+1,un称称为为k-子过程策略,也简称子策略。子过程策略,也简称子策略。(5)状态转移方程)状态转移方程 若第若第k阶段的状态变量值为阶段的状态变量值为sk,当决策变量当决策变量uk的取的取值决定后,下一阶段状态变量值决定后,下一阶段状态变量sk+1的值也就完全确定了的值也就完全确定
8、了,即即sk+1的值对应于的值对应于sk和和uk的值。这种对应关系记为的值。这种对应关系记为sk+1=Tk(sk,uk),称为状态转移方程。称为状态转移方程。状状态态转转移移方方程程描描述述了了由由一一个个阶阶段段的的状状态态到到下下一一阶阶段的状态的演变规律。段的状态的演变规律。(6)指标函数和最优值函数)指标函数和最优值函数 指标函数分为阶段指标函数和过程指标函数。指标函数分为阶段指标函数和过程指标函数。阶段指标函数是对某一阶段阶段指标函数是对某一阶段上(上(由由状态和决策产状态和决策产生的)目标损益值的度量,用生的)目标损益值的度量,用vk(sk,uk)表示。表示。过过程程指指标标函函数
9、数是是指指过过程程所所包包含含的的各各阶阶段段上上(由由状状态和决策所产生的)总的目标损益值,记为态和决策所产生的)总的目标损益值,记为 Vk,nVk,n(sk,uk,sk+1,uk+1,sn,un)动态规划所要求的过程指标函数应具有可分离性,动态规划所要求的过程指标函数应具有可分离性,即可表达为它所包含的各阶段指标函数的函数。即可表达为它所包含的各阶段指标函数的函数。常见的两种过程指标函数形式是:常见的两种过程指标函数形式是:各阶段指标函数的和各阶段指标函数的和 Vk,n=vj(sj,uj);各阶段指标函数的积各阶段指标函数的积 Vk,n=vj(sj,uj)。把过程指标函数把过程指标函数Vk
10、,n对对k-子过程策略子过程策略pk,n求最优,求最优,得到一个关于状态得到一个关于状态sk的函数,称为(的函数,称为(k-子过程)子过程)最优最优值函数,记为值函数,记为fk(sk)。即即 fk(sk)opt Vk,n(sk,uk,sn,un)uk,un 式中的式中的“opt”(optimization)可根据具体问题而可根据具体问题而取取min或或max。2.2 2.2 动态规划的基本方程动态规划的基本方程动态规划的基本方程动态规划的基本方程 动态动态规划的最优性原理(贝尔曼原理):作为整规划的最优性原理(贝尔曼原理):作为整个过程的最优策略具有这样的性质,即无论过去的状个过程的最优策略具
11、有这样的性质,即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。简言之,最优策略的下的诸决策必须构成最优策略。简言之,最优策略的子策略也必是最优的。子策略也必是最优的。根据此原理,要求全过程最优策略,可从子过程根据此原理,要求全过程最优策略,可从子过程策略的最优化入手。对于过程指标函数是阶段指标函策略的最优化入手。对于过程指标函数是阶段指标函数和的形式,考虑数和的形式,考虑k-子过程最优值函数子过程最优值函数fk(sk):则有递推方程:则有递推方程:还需有边界条件,一般取:还需有边界条件,一般取:于是,得基本方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态 规划 基本 方法
限制150内