第10章动态规划课件.ppt
《第10章动态规划课件.ppt》由会员分享,可在线阅读,更多相关《第10章动态规划课件.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章 动态规划动态规划4-1引言及内容框架引言及内容框架4-2基本概念、模型与最优化原理基本概念、模型与最优化原理4-3动态规划的应用动态规划的应用14-1引引 言言 动态规划的研究对象动态规划的研究对象 动态规划问题的特点动态规划问题的特点 静态决策问题的动态处理静态决策问题的动态处理2一、动态规划的研究对象一、动态规划的研究对象 多阶段的决策问题多阶段的决策问题1多阶段决策问题动态决策将时间作为变量的决策问题称为动态决策。其基本特点是多次决策。多阶段决策问题是一类特殊形式的动态决策问题。是指这样一类活动过程:系统的动态动态过程可以按照时间进程分为状态相互联系又相互区别的阶段,而且每
2、个阶段都进行决策,当每个阶段决策确定以后,就完全确定了一个过程确定的线路。3多阶段决策问题的典型例子多阶段决策问题的典型例子企业生产过程中,由于需求是随着时间变化的因素,因此企业为了获得全年最佳经济效益,就要在整个过程中进行逐月和逐季的根据库存和需求决定生产计划。某种机器,可以在高、低两种负荷下生产。高负荷下生产时的产量多,但每生产一个阶段的机器完好率低;低负荷下生产时的情况则相反。现在需要安排该种机器在多个阶段内的生产,问应如何决定各个阶段中机器的使用,使这个计划期内的总产量最大?4某台设备。例如汽车,刚买来时故障低,耗油少,出车时间长,处理价值和经济效益高;随着使用时间的增加则变为故障多、
3、耗油高、维修费用增加,经济效益差,使用时间越长,处理价值越低。另外每次更新都要付出更新费用。因此应如何决定设备的使用年限,使总的效益最佳?化工生产过程包括一系列的过程设备,如反映器、蒸馏塔、吸收器等,前一设备的输出是后一设备的输入。因此,应如何控制生产过程中各个设备的输出和输入,使总产量最大?5什么是动态规划?什么是动态规划?DP是OR中的一个分支,是解决多阶段决策过程最优化的一种方法或是一种分析多阶段决策过程的数学方法。这种方法可根据人们所采取的措施,一步步地控制过程的发展,来实现预定的要求。这一运筹学分支最初有美国数学家BELLMAN等人根据一类多阶段决策问题的特性,提出了解决这类问题的最
4、优化原理,并研究了许多实际问题而建立起来的。6动态规划的特点动态规划的特点优点优点许多问题用动态规划研究求解比线性规划、非线性规划更有效,特别是离散性问题,解析数学无用武之地。而动态规划成为得力工具;某些情况下,用动态规划处理不仅能定性描述分析,且可利用计算机给出求其数值解的方法。二、动态规划问题的特点二、动态规划问题的特点7缺点缺点没有统一的处理方法,求解时要根据问题的性质,结合多种数学技巧。因此实践经验及创造性思维将起重要的引导作用;“维数障碍”,当变量个数太多时,由于计算机内存和速度的限制导致问题无法解决。有些问题由于涉及的函数没有理想的性质使问题只能用动态规划描述,而不能用动态规划方法
5、求解。8不包含时间因素的决策问题称为静态决策问题,是一次性决策(如线性规划)。但若能恰当地人为引入“时段”概念,就可以把问题转化成一个多阶段决策问题,这样就能用动态规划处理了。拓宽了动态规划的应用范围。这样的例子是大量的,如最短线路问题,资源分配问题等等。三、静态决策问题的动态处理三、静态决策问题的动态处理9DP中描述多阶段决策过程的基本概念主要有:阶段和阶段变量状态和状态变量决策、决策变量和决策序列状态转移方程阶段效应和目标函数4-2 基本概念、模型与最优化原理基本概念、模型与最优化原理10把所研究的多阶段决策过程恰当地划分为若干个相互独立又相互联系的部分,每个部分称为一个阶段。事实上一个阶
6、段也就是需要作出一个决策的子问题部分。通常阶段是按照过程进行的时间和空间上的先后顺序划分的。并用阶段变量k表示。阶段数等于多段决策过程中从开始到结束所需要作出决策的数目。划分阶段的目的是便于求解。1、阶段和阶段变量、阶段和阶段变量11状态是描述系统状况所必须的信息。一般定义为某一阶段的初始点、初始位置和初始情况。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息,阶段k的状态变量表示为sk。比如:在最短路问题中,状态就是网络中各个节点。2、状态和状态变量、状态和状态变量12状态变量的取值有一定的允许范围,称为状态可能集。状态可能集可以是一个离散取值的集合,也可以是一个连续的区间,视所给
7、问题而定。状态可能集是关于状态的约束条件。状态可能集用相应阶段状态sk的大写字母Sk表示,其中skSk13决策就是决策者从本阶段出发对下一阶段状态的选择。多段决策过程的发展是用各个阶段的状态演变描述的。因此用状态描述的过程具有无后效性,因此在进行阶段决策时,只须根据当前的状态而无须考虑过去的历史。在阶段k如果给出了决策变量xk随状态变量sk变化的函数,称为决策函数,表示为:xk(sk)。3、决策和决策变量和决策序列、决策和决策变量和决策序列14决策变量的允许取值范围,称为允许决策集合。允许决策集合是决策变量的约束条件。xk的允许决策集合表示为Xk。xkXk,Xk要根据相应的状态可能集Sk并结合
8、具体问题来确定。决策序列就叫策略,策略有全过程策略和子策略之分。全过程策略是整个问题n个段决策过程依次进行的n个阶段决策构成的序列,简称策略,表示为:x1,x2,xn15从阶段k到阶段n依次进行的阶段决策构成的决策序列称为k-子策略。表示为:xk,xk+1,xn当k=1时,k-子策略就是全过程策略。在n段决策过程中,各阶段的状态可能集合和决策允许集合决定了决策的允许范围。特别,过程的初始状态不同,决策和策略也就不同,即策略是初始状态的函数。16状态转移方程表示从阶段k到阶段k+1的状态转移规律的表达式。多阶段过程的发展就是用阶段状态的演变来描述的。对具有无后效性的多阶段决策过程,系统由从阶段k
9、到阶段k+1的状态转移方程表示为:sk+1=Tk(sk,xk(sk)4、状态转移方程、状态转移方程17即阶段的状态完全由阶段的状态和决策确定,与系统过去的状态s1,s2,sk-1及其决策x1(s1),x2(s2),xk-1(sk-1)无关。Tk(sk,xk)称为变换函数或变换算子。变换函数可以分为确定型和随机型两种类型,据此形成确定型动态规划和随机型动态规划。问:状态转移方程是否一定是数学意义上的方程?18多阶段决策过程中,在阶段k状态sk执行决策xk,不仅带来系统状态的转移,而且也带来对目标函数的影响。阶段效应就是执行阶段决策时所带来的目标函数的增量。在具有无后效性的多阶段决策过程中,阶段效
10、应完全由阶段k的状态sk和决策xk决定,与阶段以前的状态和决策无关,表示为:Tk(sk,xk)5、阶段效应和目标函数、阶段效应和目标函数19多阶段决策过程关于目标函数的总效应是由各阶段的阶段效应积累形成。适应于动态规划求解的问题的目标,必须具有关于阶段效应的可分离形式、递推性。201、构模条件一个大前提:恰当的划分问题的阶段,把问题化为多阶段决策过程;四个条件:1)正确地选择状态变量能描述过程的演变特征;满足无后效性可知性各阶段状态变量的值直接和间接均为已知。2)能确定决策变量及各阶段的允许决策集合:二、二、多阶段决策过程的数学模型多阶段决策过程的数学模型213)能写出状态转移方程;4)能根据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 章动 规划 课件
限制150内