算法大全第04章 动态规划.pdf
《算法大全第04章 动态规划.pdf》由会员分享,可在线阅读,更多相关《算法大全第04章 动态规划.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-56-第四章第四章 动态规划动态规划 1 引言 1.1 动态规划的发展及研究内容 动态规划(dynamic programming)是运筹学的一个分支,是求解决策过程(decision process)最优化的数学方法。20 世纪 50 年代初 R.E.Bellman 等人在研究多阶段决策过程(multistep decision process)的优化问题时,提出了著名的最优性原理(principle of optimality),把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法动态规划。1957 年出版了他的名著Dynamic Programming,这是
2、该领域的第一本著作。动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为多阶段决策过程,也可以用动态规划方法方便地求解。应指出,动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是一种特殊算法(如线性规划是一种算法)。因而,它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必须对具体问题进行具体
3、分析处理。因此,在学习时,除了要对基本概念和方法正确理解外,应以丰富的想象力去建立模型,用创造性的技巧去求解。例 1 最短路线问题 图 1 是一个线路网,连线上的数字表示两点之间的距离(或费用)。试寻求一条由A到G距离最短(或费用最省)的路线。图 1 最短路线问题 例 2 生产计划问题 工厂生产某种产品,每单位(千件)的成本为 1(千元),每次开工的固定成本为 3(千元),工厂每季度的最大生产能力为 6(千件)。经调查,市场对该产品的需求量第一、二、三、四季度分别为 2,3,2,4(千件)。如果工厂在第一、二季度将全年的需求都生产出来,自然可以降低成本(少付固定成本费),但是对于第三、四季度才
4、能上市的产品需付存储费,每季每千件的存储费为 0.5(千元)。还规定年初和年末这种产品均无库存。试制定一个生产计划,即安排每个季度的产量,使一年的总费用(生产成本和存储费)最少。1.2 决策过程的分类 根据过程的时间变量是离散的还是连续的,分为离散时间决策过程(discrete-time -57-decision process)和连续时间决策过程(continuous-time decision process);根据过程的演变是确定的还是随机的,分为确定性决策过程(deterministic decision process)和随机性决策过程(stochastic decision pro
5、cess),其中应用最广的是确定性多阶段决策过程。2 基本概念、基本方程和计算方法 2.1 动态规划的基本概念和基本方程 一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素。2.1.1 阶段 阶段(step)是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶段,以便按阶段的次序解优化问题。阶段变量一般用nk,2,1L=表示。在例 1 中由A出发为1=k,由)2,1(=iBi出发为2=k,依此下去从)2,1(=iFi出发为6=k,共6=n个阶段。在例 2 中按照第一、二、三、四季度分为4,3,2,1=k,共四个阶段。2.1.2 状态 状态(state)表示每个阶段开始时过程所
6、处的自然状况。它应能描述过程的特征并且无后效性,即当某阶段的状态变量给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量(state variable)。变量允许取值的范围称允许状态集合(set of admissible states)。用kx表示第k阶段的状态变量,它可以是一个数或一个向量。用kX表示第k阶段的允许状态集合。在例 1 中2x可取21,BB,或将iB定义为)2,1(=ii,则12=x或2,而2,12=X。n 个阶段的决策过程有1+n个状态变量,1+nx表示nx演变的结果。在例 1 中7x取G,或定义为1,即
7、17=x。根据过程演变的具体情况,状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化;为了分析的方便有时又将离散变量视为连续的。状态变量简称为状态。2.1.3 决策 当一个阶段的状态确定后,可以作出各种选择从而演变到下一阶段的某个状态,这种选择手段称为决策(decision),在最优控制问题中也称为控制(control)。描述决策的变量称决策变量(decision variable),变量允许取值的范围称允许决策集合(set of admissible decisions)。用)(kkxu表示第k阶段处于状态kx时的决策变量,它是kx的函数,用)(kkxU表示kx的允许决策集合。
8、在例 1 中)(12Bu可取21,CC或3C,可记作3,2,1)1(2=u,而3,2,1)1(2=U。决策变量简称决策。2.1.4 策略 决策组成的序列称为策略(policy)。由初始状态1x开始的全过程的策略记作)(11xpn,即)(,),(),()(221111nnnxuxuxuxpL=.由第k阶段的状态kx开始到终止状态的后部子过程的策略记作)(kknxp,即)(,),()(nnkkkknxuxuxpL=,1,2,1=nkL.类似地,由第k到第j阶段的子过程的策略记作 -58-)(,),()(jjkkkkjxuxuxpL=.可供选择的策略有一定的范围,称为允许策略集合(set of ad
9、missible policies),用)(),(),(11kkjkknnxPxPxP表示。2.1.5.状态转移方程 在确定性过程中,一旦某阶段的状态和决策为已知,下阶段的状态便完全确定。用状态转移方程(equation of state transition)表示这种演变规律,写作 .,2,1),(1nkuxTxkkkkL=+(1)在例 1 中状态转移方程为)(1kkkxux=+。2.1.6.指标函数和最优值函数 指标函数(objective function)是衡量过程优劣的数量指标,它是定义在全过程和所有后部子过程上的数量函数,用),(11,+nkkknkxxuxVL表示,nk,2,1L
10、=。指标函数应具有可分离性,即nkV,可表为nkkkVux,1,+的函数,记为 ),(,(),(111,111,+=nkknkkkknkkknkxuxVuxxxuxVLL 并且函数k对于变量nkV,1+是严格单调的。过程在第j阶段的阶段指标取决于状态jx和决策ju,用),(jjjuxv表示。指标函数由),2,1(njvjL=组成,常见的形式有:阶段指标之和,即=+=nkjjjjnkkknkuxvxxuxV),(),(11,L,阶段指标之积,即=+=nkjjjjnkkknkuxvxxuxV),(),(11,L,阶段指标之极大(或极小),即),(min)max),(11,jjjnjknkkknku
11、xvxxuxV+=L.这些形式下第k到第j阶段子过程的指标函数为),(1,+jkkjkxuxVL。根据状态转移方程指标函数nkV,还可以表示为状态kx和策略knp的函数,即),(,knknkpxV。在kx给定时指标函数nkV,对knp的最优值称为最优值函数(optimal value function),记为)(kkxf,即),(opt)(,)(knknkxPpkkpxVxfkknkn=,其中opt可根据具体情况取max或min。2.1.7 最优策略和最优轨线 使指标函数nkV,达到最优值的策略是从k开始的后部子过程的最优策略,记作,*nkknuupL=。*1np是全过程的最优策略,简称最优策
12、略(optimal policy)。从初始状 态)(*11xx=出 发,过 程 按 照*1np和 状 态 转 移 方 程 演 变 所 经 历 的 状 态 序 列,*1*2*1+nxxxL称最优轨线(optimal trajectory)。-59-2.1.8 递归方程 如下方程称为递归方程=+1,),(),(opt)(10)(11)(11LnkxfuxvxfxfkkkkkxUukknnkkk或 (2)在上述方程中,当为加法时取0)(11=+nnxf;当为乘法时,取1)(11=+nnxf。动态规划递归方程是动态规划的最优性原理的基础,即:最优策略的子策略,构成最优子策略。用状态转移方程(1)和递归
13、方程(2)求解动态规划的过程,是由1+=nk逆推至1=k,故这种解法称为逆序解法。当然,对某些动态规划问题,也可采用顺序解法。这时,状态转移方程和递归方程分别为:nkuxTxkkrkk,1),(1L=+,=+nkxfuxvxfxfkkkkkxUukkkrkk,1),(),(opt)(10(11)(11011L或)例 3 用 lingo 求解例 1 最短路线问题。model:Title Dynamic Programming;sets:vertex/A,B1,B2,C1,C2,C3,C4,D1,D2,D3,E1,E2,E3,F1,F2,G/:L;road(vertex,vertex)/A B1,
14、A B2,B1 C1,B1 C2,B1 c3,B2 C2,B2 C3,B2 C4,C1 D1,C1 D2,C2 D1,C2 D2,C3 D2,C3 D3,C4 D2,C4 D3,D1 E1,D1 E2,D2 E2,D2 E3,D3 E2,D3 E3,E1 F1,E1 F2,E2 F1,E2 F2,E3 F1,E3 F2,F1 G,F2 G/:D;endsets data:D=5 3 1 3 6 8 7 6 6 8 3 5 3 3 8 4 2 2 1 2 3 3 3 5 5 2 6 6 4 3;L=0,;enddata for(vertex(i)|i#GT#1:L(i)=min(road(j,i
15、):L(j)+D(j,i);end 纵上所述,如果一个问题能用动态规划方法求解,那么,我们可以按下列步骤,首先建立起动态规划的数学模型:(i)将过程划分成恰当的阶段。(ii)正确选择状态变量kx,使它既能描述过程的状态,又满足无后效性,同时确定允许状态集合kX。(iii)选择决策变量ku,确定允许决策集合)(kkxU。(iv)写出状态转移方程。(v)确定阶段指标),(kkkuxv及指标函数knV的形式(阶段指标之和,阶段指标之积,阶段指标之极大或极小等)。(vi)写出基本方程即最优值函数满足的递归方程,以及端点条件。3 逆序解法的计算框图 -60-以自由终端、固定始端、指标函数取和的形式的逆序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法大全第04章 动态规划 算法 大全 04 动态 规划
限制150内