《运筹学研究生辅导课件》第二章动态规划.ppt
《《运筹学研究生辅导课件》第二章动态规划.ppt》由会员分享,可在线阅读,更多相关《《运筹学研究生辅导课件》第二章动态规划.ppt(109页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 动态规划 动态规划作为运筹学的一个重要分支是解决多阶动态规划作为运筹学的一个重要分支是解决多阶段决策过程最优化的一种非常有效的方法。段决策过程最优化的一种非常有效的方法。1951年,年,美国数学家贝尔曼(美国数学家贝尔曼(R.Bellman)等人,根据一类)等人,根据一类多阶段决策问题的特点,把多阶段决策问题变换为一多阶段决策问题的特点,把多阶段决策问题变换为一系列相互联系的单阶段决策问题,然后分阶段逐个加系列相互联系的单阶段决策问题,然后分阶段逐个加以解决。贝尔曼等人在研究和解决了大量实际问题之以解决。贝尔曼等人在研究和解决了大量实际问题之后,提出了解决这类问题的后,提出了解决这类问
2、题的所谓所谓“最优性原理最优性原理”,通常称为,通常称为“贝尔曼最优化原理贝尔曼最优化原理”,从而创建了解决,从而创建了解决最优化问题的一种新的方法最优化问题的一种新的方法 动态规划动态规划(Dynamic Programming )。)。2511214106104131112396581052C1C3D1AB1B3B2D2EC2 为了说明动态规划的基本思想方法和特点,以下图所示为例,讨论求最短路问题的方法。求从A到E的最短路径2511214106104131112396581052C1C3D1AB1B3B2D2EC2f5(E)=02511214106104131112396581052C1C
3、3D1AB1B3B2D2EC2f4(D1)=5f5(E)=02511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f4(D1)=52511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C1)=8f4(D1)=52511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C2)=7f4(D1)=5f3(C1)=82511214106104131112396581052C1C3D1AB1B3
4、B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f3(C1)=8f3(C2)=72511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B1)=20f3(C2)=7f3(C1)=82511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B2)=14f3(C2)=7f3(C1)=8f2(B1)=212511214106104131112396581052C1
5、C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f2(B1)=21f2(B2)=142511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=212511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2
6、(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B22511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1251121410610413111239658
7、1052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1 (C1,D1)D12511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态
8、 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1 (C1,D1)D1 (D1,E)E从A到E的最短路径为19,路线为AB 2C1 D1 E 1、阶段(阶段(stage)为为了了便便于于求求解解和和表表示示决决策策过过程程的的发发展展顺顺序序,而而把把所所给给问问题题恰恰当当地地划划分分为为若若干干个个相相互互联联系系又又有有区区别别的的子子问问题题,称称之之为为多多段段决决策策问问题题的的阶阶段段。一一个个阶阶段段,就就是是需需要要作作出出一一个个决决策策的的子子问问题题,通通常常,阶阶段段是是按按决决策策进进行行的的时时间间顺顺序序或或
9、空空间间特特征征上上先先后后顺顺序序划划分分的的。用用以以描描述述阶阶段段的的变变量量叫叫作作阶阶段段变变量量,一一般般以以k表表示示阶阶段段变变量量阶阶段段数数等等于于多多段段决决策策过过程程从从开开始始到到结结束束所所需需作作出出决决策策的的数数目目,例例如如上上面面的的最最短短路路问问题就是一个四阶段决策过程。题就是一个四阶段决策过程。动态规划的基本概念和基本原理动态规划的基本概念和基本原理2、状态(状态(state)每个阶段开始时过程所处的自然状况或客观每个阶段开始时过程所处的自然状况或客观条件。条件。反映状态变化的量叫做状态变量,它可以反映状态变化的量叫做状态变量,它可以用一个数,一
10、组数或一向量来描述,用一个数,一组数或一向量来描述,。状态变量。状态变量必须包含在给定的阶段上确定全部允许决策所需必须包含在给定的阶段上确定全部允许决策所需要的信息。要的信息。它应能描述过程的特征并具有它应能描述过程的特征并具有“无后无后效性效性”,即当前阶段状态给定时,这个阶段以后,即当前阶段状态给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关。用过程的演变与该阶段以前各阶段的状态无关。用sk表示状态变量表示状态变量(state variable)。)。一一般般状状态态变变量量的的取取值值有有一一定定的的范范围围或或允允许许集集合合,称称为为可可能能状状态态集集(set of ad
11、missible states)。可可能能状状态态集集实实际际上上是是关关于于状状态态的的约约束束条条件件。通通常常可可能能状状态态集集用用相相应应阶阶段段状状态态sk的的大大写写字字母母Sk表表示示,可可能能状状态态集集可可以以是是一一离离散散取取值值的的集集合合,也也可可以以为为一一连连续续的的取取值值区区间间,视视具具体体问问题题而而定定例例如如上上面面的的最最短短路路问问题题中中,第第一一阶阶段段状状态态为为A,状状态态变变量量s1的的状状态态集集合合S1=A;第第二二阶阶段段则则有有三三个个状状态态:B1,B2,B3,状状态态变变量量s2的的状状态态集集合合S2=B1,B2,B3 .
12、3、决策(决策(decision)当一个阶段的状态确定后,可以作出不同的当一个阶段的状态确定后,可以作出不同的决定决定或选择或选择,从而演变到下一阶段的某个状态,这种决定,从而演变到下一阶段的某个状态,这种决定或选择称为决策。或选择称为决策。用以描述决策变化的量称之决策变量用以描述决策变化的量称之决策变量(decision variable)。和状态变量一样,决策变量可以用一个。和状态变量一样,决策变量可以用一个数,一组数或一向量来描述,由于各阶段的决策取决数,一组数或一向量来描述,由于各阶段的决策取决于状态变量于状态变量sk,所以用,所以用 uk(sk),表示阶段,表示阶段k的状态为的状态为
13、sk时的决策变量。时的决策变量。决策变量的取值往往也有一定的允许范围,称之决策变量的取值往往也有一定的允许范围,称之允许决策集合允许决策集合(set of admissible decision)。)。决决策变量策变量uk(sk)的允许决策集用的允许决策集用Uk(sk)表示表示,允许决策集允许决策集合实际是决策的约束条件。合实际是决策的约束条件。4、策略(策略(policy)一组有序的一组有序的决策序列决策序列构成一个策略,从第构成一个策略,从第k阶阶段至第段至第n阶段的一个策略称为阶段的一个策略称为k部部子策略记为子策略记为 pk,n(sk)=uk,uk+1,un,当当k=1时的时的k部子策
14、部子策略称为全过程策略,简称策略,记为略称为全过程策略,简称策略,记为p1,n(s1)。在实际问题中,由于在各个阶段可供选择的在实际问题中,由于在各个阶段可供选择的决策有许多个,因此,它们的不同组合就构成了许决策有许多个,因此,它们的不同组合就构成了许多可供选择的决策序列多可供选择的决策序列(策略策略),由它们组成的集合,由它们组成的集合,称之允许策略集合,记作称之允许策略集合,记作P1,n,从允许策略集中,从允许策略集中,找出具有最优效果的策略称为最优策略。找出具有最优效果的策略称为最优策略。5、状态转移方程(状态转移方程(equation of state transition)反映前后反
15、映前后阶段状态之间关系的方程称为阶段状态之间关系的方程称为状状态转移方程。在确定型多阶段决策过程中,态转移方程。在确定型多阶段决策过程中,一旦某阶段的状态和决策为已知,下一阶段一旦某阶段的状态和决策为已知,下一阶段的的 状态便完全确定,用状态转移方程反映这状态便完全确定,用状态转移方程反映这种状态间的种状态间的演变规律演变规律,记作:,记作:有些问题的状态转移方程不一定存在数学表有些问题的状态转移方程不一定存在数学表达式,但是它们的状态转移,还是有一定规律达式,但是它们的状态转移,还是有一定规律可循的。可循的。6、阶段指标值(阶段指标值(objective value in a stage)阶
16、段指标值是第阶段指标值是第k阶段的状态为阶段的状态为sk和采取决策和采取决策uk时的效益,通常表示为时的效益,通常表示为 dk(sk,uk)。)。对对不不同同问问题题,阶阶段段指指标标值值可可以以是是诸诸如如费费用用、成成本本、产产值值、利利润润、产产量量、耗耗量量、距距离离、时时间间,等等等等。例例如如上上面面的的最最短短路路问问题题中中,如如果果第第二二阶阶段段地地状状态态为为B2,采采取取决决策策是是由由B2到到达达C1,则则阶阶段段指指标标值为值为6。7、指标函数(指标函数(objective function)衡量在选定某策略时,其优劣的数量指标。衡量在选定某策略时,其优劣的数量指标
17、。定义在整个过程(定义在整个过程(1到到n阶段)上的指标函数阶段)上的指标函数记为:记为:V1,n(s1,u1,s2,sn,un),),定义在定义在后部子过程后部子过程(k到到n阶段)上的指标函阶段)上的指标函数记为:数记为:Vk,n(sk,uk,sn,un)。)。Vk,n(sk,uk,sn,un)表示第表示第k阶段处阶段处于于sk状态且所作决策为状态且所作决策为uk,uk+1,un时的决策时的决策效果。效果。由此可见,由此可见,Vk,n(sk,uk,sn,un)不仅不仅跟当前状态跟当前状态sk有关,还跟该子过程策略有关,还跟该子过程策略pk,n(sk)有有关,因此它是关,因此它是sk和和pk
18、,n(sk)的函数,因此它可的函数,因此它可简记简记为:为:Vk,n(sk,pk,n)指指标标函函数数Vk,n(sk,pk,n)通通常常是是描描述述所所实实现现的的全全过过程程或或k后后部部子子过过程程效效果果优优劣劣的的数数量量指指标标,它它是是由由各各阶阶段段的的阶阶段段指指标标函函数数dk(sk,uk)累累积积形形成成的的,适适于于用用动动态态规规划划求求解解的的问问题题的的指指标标函函数数,必必须须具具有有关关于于阶阶段段指指标标的的可可分分离离形形式式对对于于后后部部子过程的指标函数可以表示为:子过程的指标函数可以表示为:式中,式中,表示某种运算,可以是加、乘等。表示某种运算,可以是
19、加、乘等。总总之之,具具体体问问题题的的目目标标函函数数表表达达形形式式需需要要视视具体问题而定。具体问题而定。多阶段决策问题中,常见的目标函数形式之一多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即是取各阶段效应之和的形式,即:有些问题,如系统可靠性问题,其目标函数是有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,如:取各阶段效应的连乘积形式,如:8、最优指标函数(最优指标函数(optimal value function)指标函数的最优值称为最优指标函数,记为指标函数的最优值称为最优指标函数,记为fk(sk),它表示,它表示从第从第k阶段状态阶段状态
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运筹学研究生辅导课件 运筹学 研究生 辅导 课件 第二 章动 规划
限制150内