第六章动态规划精选文档.ppt
《第六章动态规划精选文档.ppt》由会员分享,可在线阅读,更多相关《第六章动态规划精选文档.ppt(112页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章动态规划1本讲稿第一页,共一百一十二页 动态规划的方法,在工程技术、企业管理、工农业动态规划的方法,在工程技术、企业管理、工农业生产及军事等部门中有着广泛的应用,并且获得了显著的生产及军事等部门中有着广泛的应用,并且获得了显著的效果。在经济管理方面,动态规划可以用来解决最优路径效果。在经济管理方面,动态规划可以用来解决最优路径问题、资源分配问题、生产调度问题、库存问题、装载问问题、资源分配问题、生产调度问题、库存问题、装载问题、排序问题、设备更新问题、生产过程最优控制问题等题、排序问题、设备更新问题、生产过程最优控制问题等等,他是现代企业管理中的一种重要的决策方法。等,他是现代企业管理中
2、的一种重要的决策方法。许多实际问题采用动态规划方法去处理,常比线性规划许多实际问题采用动态规划方法去处理,常比线性规划或非线性规划更加有效。特别对于离散性的问题,由于解析数或非线性规划更加有效。特别对于离散性的问题,由于解析数学无法施展其术,而动态规划的方法就成为一种非常有效的工学无法施展其术,而动态规划的方法就成为一种非常有效的工具。具。本讲稿第二页,共一百一十二页 应特别指出的是,动态规划是解决某一类问题的一种应特别指出的是,动态规划是解决某一类问题的一种方法,是分析问题的一种途径,而不是一种特殊算法(如线方法,是分析问题的一种途径,而不是一种特殊算法(如线性规划是一种算法)。因而,它不象
3、线性规划那样有一个标性规划是一种算法)。因而,它不象线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必须对具体问题准的数学表达式和明确定义的一组规则,而必须对具体问题进行具体分析处理。因此,在学习动态规划时,除了对基本进行具体分析处理。因此,在学习动态规划时,除了对基本概念和方法正确地理解外,应以丰富的想象力去建立模型,概念和方法正确地理解外,应以丰富的想象力去建立模型,用创造性的技巧去求解。正如贝尔曼本人所说:用创造性的技巧去求解。正如贝尔曼本人所说:“由于动态由于动态规划的最优化原理仅仅是一种基本原理,正是它的某种不确规划的最优化原理仅仅是一种基本原理,正是它的某种不确定性为你提
4、供了发挥你创造性思维的巨大空间定性为你提供了发挥你创造性思维的巨大空间!本讲稿第三页,共一百一十二页 本部分我们主要研究离散决策过程,介绍动态规划的本部分我们主要研究离散决策过程,介绍动态规划的基本概念、理论和方法,在通过一些典型的应用问题来说基本概念、理论和方法,在通过一些典型的应用问题来说明它的应用。明它的应用。动态规划所研究的对象是多阶段决策问题。动态规划所研究的对象是多阶段决策问题。所谓所谓多阶段决策问题是多阶段决策问题是指一类活动过程,它可以分指一类活动过程,它可以分为若干个相互联系的阶段,在每个阶段都需要作出决策。为若干个相互联系的阶段,在每个阶段都需要作出决策。这个决策不仅决定这
5、一阶段的效益,而且决定下一阶段这个决策不仅决定这一阶段的效益,而且决定下一阶段的初始状态。的初始状态。每个阶段的决策确定以后,就得到一个决策序列,每个阶段的决策确定以后,就得到一个决策序列,称为策略。多阶段决策问题就是求一个策略,使各阶段称为策略。多阶段决策问题就是求一个策略,使各阶段的效益的总和达到最优。的效益的总和达到最优。本讲稿第四页,共一百一十二页第一节第一节 多阶段决策问题多阶段决策问题 在生产经营活动中,某些问题决策过程可以划分为若在生产经营活动中,某些问题决策过程可以划分为若干相互联系的阶段,每个阶段需要做出决策,从而使整个干相互联系的阶段,每个阶段需要做出决策,从而使整个过程取
6、得最优。当每个阶段的决策确定以后,全部过程的过程取得最优。当每个阶段的决策确定以后,全部过程的决策就是这些阶段决策所组成的一个决策序列,所以多阶决策就是这些阶段决策所组成的一个决策序列,所以多阶段决策问题也称为序贯决策问题。段决策问题也称为序贯决策问题。动态规划方法与动态规划方法与“时间时间”关系很密切,随着时间过关系很密切,随着时间过程的发展而决定各时段的决策,产生一个决策序列,程的发展而决定各时段的决策,产生一个决策序列,这就是这就是“动态动态”的意思。然而它也可以处理与时间无的意思。然而它也可以处理与时间无关的静态问题,只要在问题中人为地引入关的静态问题,只要在问题中人为地引入“时段时段
7、”因因素,就可以将其转化为一个多阶段决策问题。在本章素,就可以将其转化为一个多阶段决策问题。在本章中将介绍这种处理方法。中将介绍这种处理方法。本讲稿第五页,共一百一十二页 动态规划求解的多阶段决策问题的特点动态规划求解的多阶段决策问题的特点 通通常常多多阶阶段段决决策策过过程程的的发发展展是是通通过过状状态态的的一一系系列列变变换换来来实实现现的的。一一般般情情况况下下,系系统统在在某某个个阶阶段段的的状状态态转转移移除除与与本本阶阶段段的的状状态态和和决决策策有有关关外外,还还可可能能与与系系统统过过去去经经历历的的状状态态和和决决策策有有关关。因因此此,问问题题的的求求解解就就比比较较困困
8、难难复复杂杂。而而适适合合于于用用动动态态规规划划方方法法求求解解的的只只是是一一类类特特殊殊的的多多阶阶段段决决策策问问题题,即即具具有有“无无后后效效性性”的的多多阶阶段段决决策策过过程程。所所谓谓无无后后效效性性,又又称称马马尔尔柯柯夫夫性性,是是指指系系统统从从某某个个阶阶段段往往后后的的发发展展,仅仅由由本本阶阶段段所所处处的的状状态态及及其其往往后后的的决决策策所所决定,与系统以前经历的状态和决策决定,与系统以前经历的状态和决策(历史历史)无关。无关。本讲稿第六页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2 为了说明动
9、态规划的基本思想方法和特点,以下图所示为例,讨论求最短路问题的方法。求从A到E的最短路径本讲稿第七页,共一百一十二页 第第一一种种方方法法称称做做全全枚枚举举法法或或穷穷举举法法。它它的的基基本本思思想想是是列列举举出出所所有有可可能能发发生生的的方方案案和和结结果果,再再对对它它们们一一一一进进行行比比较较,求求出出最最优优方方案案。这这里里从从A到到E的的路路程程可可以以分分为为4个个阶阶段段。第第一一、二二阶阶段段的的走走法法有有三三种种,第第三三阶阶段段的的走走法法有有两两种种,第第四四段段的的走走法法仅仅一一种种,因因此此共共有有332118条条可可能能的的路路线线,分分别别算算出出
10、各各条条路路线线的的距距离离,最最后后进进行行比比较较,可可知知最最优优路路线线是是AB2 C1 D1 E,最短距离是最短距离是19本讲稿第八页,共一百一十二页 显显然然,当当组组成成交交通通网网络络的的节节点点很很多多时时,用用穷穷举举法法求求最最优优路路线线的的计计算算工工作作量量将将会会十十分分庞庞大大,而而且且其其中中包包含着许多重复计算含着许多重复计算 第第二二种种方方法法即即所所谓谓“局局部部最最优优路路径径”法法,是是说说某某人人从从A出出发发,他他并并不不顾顾及及全全线线是是否否最最短短,只只是是选选择择当当前前最最短短途途径径,“逢逢近近便便走走”,错错误误地地以以为为局局部
11、部最最优优会会致致整整体体最最优优,在在这这种种想想法法指指导导下下,所所取取决决策策必必是是AB2 C1 D1 E,全全程程长长度度是是25;显显然然,这这种种方方法法的的结结果果常常是是错误的错误的本讲稿第九页,共一百一十二页 第第三三种种方方法法是是动动态态规规划划方方法法。动动态态规规划划方方法法寻寻求求该该最最短短路路问问题题的的基基本本思思想想是是,如如果果A=S1 S2 Sk Sn E是是A到到E的的最最短短路路,则则Sk到到E的最短路一定是的最短路一定是Sk Sn E。首首先先将将问问题题划划分分为为4个个阶阶段段,每每次次的的选选择择总总是是综综合合后后继继过过程程的的一一并
12、并最最优优进进行行考考虑虑,在在各各段段所所有有可可能能状状态态的的最最优优后后继继过过程程都都已已求求得得的的情情况况下下,全全程程的的最最优优路路线便也随之得到。线便也随之得到。为为了了找找出出所所有有可可能能状状态态的的最最优优后后继继过过程程,动动态态规规划划方方法法总总是是从从过过程程的的最最后后阶阶段段开开始始考考虑虑,然然后后逆逆着着实实际过程发展的顺序,逐段向前递推计算直至始点。际过程发展的顺序,逐段向前递推计算直至始点。本讲稿第十页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f5(E)=0本讲稿第十一页,共一百一
13、十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D1)=5f5(E)=0本讲稿第十二页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f4(D1)=5本讲稿第十三页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C1)=8f4(D1)=5本讲稿第十四页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC
14、2f4(D2)=2f5(E)=0f3(C2)=7f4(D1)=5f3(C1)=8本讲稿第十五页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f3(C1)=8f3(C2)=7本讲稿第十六页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B1)=20f3(C2)=7f3(C1)=8本讲稿第十七页,共一百一十二页251121410610413111
15、2396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B2)=14f3(C2)=7f3(C1)=8f2(B1)=21本讲稿第十八页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f2(B1)=21f2(B2)=14本讲稿第十九页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f
16、5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21本讲稿第二十页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2本讲稿第二十一页,共一百一十二页2511214106104131112396
17、581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1本讲稿第二十二页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(
18、B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1 (C1,D1)D1本讲稿第二十三页,共一百一十二页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1 (C1,D1)D1 (D1,E)E从A到E的最短路径为19,
19、路线为AB 2C1 D1 E 本讲稿第二十四页,共一百一十二页 综综上上所所述述可可见见,全全枚枚举举法法虽虽可可找找出出最最优优方方案案,但但不不是是个个好好算算法法,局局部部最最优优法法则则完完全全是是个个错错误误方方法法,只只有有动动态态规规划划方方法法属属较较科科学学有有效效的的算算法法。它它的的基基本本思思想想是是,把把一一个个比比较较复复杂杂的的问问题题分分解解为为一一系系列列同同类类型型的的更更易易求求解解的的子子问问题题,便便于于应应用用计计算算机机。整整个个求求解解过过程程分分为为两两个个阶阶段段,先先按按整整体体最最优优的的思思想想逆逆序序地地求求出出各各个个子子问问题题中
20、中所所有有可可能能状状态态的的最最优优决决策策与与最最优优路路线线值值,然然后后再再顺顺序序地地求求出出整整个个问问题题的的最最优优策策略略和和最最优优路路线线。计计算算过过程程中中,系系统统地地删删去去了了所所有有中中间间非非最最优优的的方方案案组组合合,从从而而使使计计算算工工作作量量比比穷穷举法大为减少。举法大为减少。本讲稿第二十五页,共一百一十二页第二节第二节 动态规划的基本概念和动态规划的基本概念和基本原理基本原理多阶段决策过程:多阶段决策过程:整个决策过程可按时间或空间顺序分解成若干整个决策过程可按时间或空间顺序分解成若干相相互联系互联系的阶段,每一阶段都需作出决策,全部过程的的阶
21、段,每一阶段都需作出决策,全部过程的决策是一个决策序列。决策是一个决策序列。多阶段决策过程最优化的目标:多阶段决策过程最优化的目标:达到整个活动过程的总体效果最优,而非各单达到整个活动过程的总体效果最优,而非各单个阶段最优的简单总和。个阶段最优的简单总和。使使用用动动态态规规划划方方法法解解决决多多阶阶段段决决策策问问题题,首首先先要要将将实实际际问问题题写写成成动动态态规规划划模模型型,同同时时也也为为了了今今后后叙叙述述和和讨讨论论方方便便,这这里里需需要要对对动动态态规规划的下述一些基本术语进一步加以说明和定义:划的下述一些基本术语进一步加以说明和定义:本讲稿第二十六页,共一百一十二页1
22、、阶段(阶段(stage)为为了了便便于于求求解解和和表表示示决决策策过过程程的的发发展展顺顺序序,而而把把所所给给问问题题恰恰当当地地划划分分为为若若干干个个相相互互联联系系又又有有区区别别的的子子问问题题,称称之之为为多多段段决决策策问问题题的的阶阶段段。一一个个阶阶段段,就就是是需需要要作作出出一一个个决决策策的的子子问问题题,通通常常,阶阶段段是是按按决决策策进进行行的的时时间间顺顺序序或或空空间间特特征征上上先先后后顺顺序序划划分分的的。用用以以描描述述阶阶段段的的变变量量叫叫作作阶阶段段变变量量,一一般般以以k表表示示阶阶段段变变量量阶阶段段数数等等于于多多段段决决策策过过程程从从
23、开开始始到到结结束束所所需需作作出出决决策策的的数数目目,例例如如上上面面的的最最短短路路问问题题就就是是一一个个四四阶阶段段决决策策过过程。程。本讲稿第二十七页,共一百一十二页2、状态(状态(state)每个阶段开始时过程所处的自然状况或客观条每个阶段开始时过程所处的自然状况或客观条件。反映状态变化的量叫做状态变量,它可以用一件。反映状态变化的量叫做状态变量,它可以用一个数,一组数或一向量来描述,个数,一组数或一向量来描述,。状态变量必须包。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。它含在给定的阶段上确定全部允许决策所需要的信息。它应能描述过程的特征并具有应能描述过程的特征
24、并具有“无后效性无后效性”,即当前阶段,即当前阶段状态给定时,这个阶段以后过程的演变与该阶段以前各状态给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关。用阶段的状态无关。用sk表示状态变量表示状态变量(state variable)。)。本讲稿第二十八页,共一百一十二页 一一般般状状态态变变量量的的取取值值有有一一定定的的范范围围或或允允许许集集合合,称称为为可可能能状状态态集集(set of admissible states)。可可能能状状态态集集实实际际上上是是关关于于状状态态的的约约束束条条件件。通通常常可可能能状状态态集集用用相相应应阶阶段段状状态态sk的的大大写写字字母母
25、Sk表表示示,可可能能状状态态集集可可以以是是一一离离散散取取值值的的集集合合,也也可可以以为为一一连连续续的的取取值值区区间间,视视具具体体问问题题而而定定例例如如上上面面的的最最短短路路问问题题中中,第第一一阶阶段段状状态态为为A,状状态态变变量量s1的的状状态态集集合合S1=A;第第二二阶阶段段则则有有三三个个状状态态:B1,B2,B3,状状态态变变量量s2的的状状态态集集合合S2=B1,B2,B3 .本讲稿第二十九页,共一百一十二页3、决策(决策(decision)当一个阶段的状态确定后,可以作出不同的当一个阶段的状态确定后,可以作出不同的决定或选决定或选择择,从而演变到下一阶段的某个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 章动 规划 精选 文档
限制150内