动态规划(完整)ppt课件.ppt
《动态规划(完整)ppt课件.ppt》由会员分享,可在线阅读,更多相关《动态规划(完整)ppt课件.ppt(104页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。求解最短路问题求解最短路问题 A1 6 4 1 4 3 3 3 3 5 1 4 2 4 7 4 3 6 3 4 2 Q A2 T A3 B1 B2 C2 B3 C1 有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。分阶段的
2、最短路径 : C1T 3 - : B1C1T 4 - :A2B1C1T 7 - -: QA2B1C1T 11 Q-A3B1C1T 11 Q-A3B2C2T 11有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。最短路径最短路径 A1 6 4 1 4 3 3 3 3 5 1 4 2 4 7 4 3 6 3 4 2 Q A2 T A3 B1 B2 C2 B3 C1 34476117811有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又
3、相互信任的合作环境。最短路径解的特点 1、可以将全过程求解分为若干阶段求解;- 2、在全过程最短路径中,将会出现阶段的最优路径;- 3、前面的终点确定,后面的路径也就确定了,且与前面的路径(如何找到的这个终点)无关;- 3、逐段地求解最优路径,势必会找到一个全过程最优路径。-有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 动态规划是解决多阶段最优决策的方法动态规划是解决多阶段最优决策的方法, 由美国数学家贝尔曼由美国数学家贝尔曼(R. Bellman) 于于 1951年首先提出年首先提出; 1957
4、年贝尔曼发表动态规划方面的第一部年贝尔曼发表动态规划方面的第一部专著专著“动态规划动态规划”, 标志着运筹学的一标志着运筹学的一 个个新分支的创立。新分支的创立。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 动态规划将复杂的多阶段决策问题分解为动态规划将复杂的多阶段决策问题分解为一系列简单的、离散的单阶段决策问题一系列简单的、离散的单阶段决策问题, 采用顺序求解方法采用顺序求解方法, 通过解一系列小问题通过解一系列小问题达到求解整个问题目的达到求解整个问题目的; 动态规划的各个决策阶段不但要考虑本
5、阶动态规划的各个决策阶段不但要考虑本阶段的决策目标段的决策目标, 还要兼顾整个决策过程的还要兼顾整个决策过程的整体目标整体目标, 从而实现整体最优决策从而实现整体最优决策.有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 离散确定型离散确定型 离散随机型离散随机型 连续确定型连续确定型 连续随机型连续随机型有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。依赖分析者的经验和技巧依赖分析者的经验和技巧有利于学习和
6、创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 通常多阶段决策过程的发展是通过状态的一系列变换来通常多阶段决策过程的发展是通过状态的一系列变换来实现的。一般情况下,系统在某个阶段的状态转移除与本阶实现的。一般情况下,系统在某个阶段的状态转移除与本阶段的状态和决策有关外,还可能与系统过去经历的状态和决段的状态和决策有关外,还可能与系统过去经历的状态和决策有关。因此,问题的求解就比较困难复杂。而适合于用动策有关。因此,问题的求解就比较困难复杂。而适合于用动态规划方法求解的只是一类特殊的多阶段决策问题,即具有态规划方
7、法求解的只是一类特殊的多阶段决策问题,即具有“无后效性无后效性”的多阶段决策过程。的多阶段决策过程。具有无后效性的多阶段决策过程的特点是系统过去的历史,具有无后效性的多阶段决策过程的特点是系统过去的历史,只能通过现阶段的状态去影响系统的未来,当前的状态就是只能通过现阶段的状态去影响系统的未来,当前的状态就是后过程发展的初始条件。后过程发展的初始条件。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 动态规划在工程技术动态规划在工程技术, 企业管理企业管理, 军事部军事部门有广泛的应用门有广泛的应用;
8、可解决资源分配可解决资源分配, 生产生产调度调度, 库存管理库存管理, 路径优化路径优化, 设备更新设备更新, 投投资规划资规划, 排序问题和生产过程的最优控制排序问题和生产过程的最优控制等问题等问题有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。使用动态规划方法求解决策问题首先要将使用动态规划方法求解决策问题首先要将问题改造成符合动态规划求解要求的形式问题改造成符合动态规划求解要求的形式, ,要涉及以下概念要涉及以下概念: :(1)(1)阶段阶段 (2)(2)状态状态(3)(3)决策与策略决策与策略
9、 (4)(4)状态转移方程状态转移方程 (5)(5)指标函数指标函数 (6)(6)基本方程基本方程有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 把一个复杂决策问题按时间或空间特把一个复杂决策问题按时间或空间特征分解为若干征分解为若干(n)(n)个相互联系的阶段个相互联系的阶段(stage), (stage), 以便按顺序求解以便按顺序求解; ; 阶段变量描述当前所处的阶段位置,一阶段变量描述当前所处的阶段位置,一般用下标般用下标 k 表示表示; ;有利于学习和创新的组织管理机制,创造充满活力的创新
10、激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 每阶段有若干状态每阶段有若干状态(state), 表示某一阶段决策表示某一阶段决策面临的条件或所处位置及运动特征的量面临的条件或所处位置及运动特征的量,称为称为状态。反映状态变化的量叫作状态变量。状态。反映状态变化的量叫作状态变量。 k 阶段的状态特征可用状态变量阶段的状态特征可用状态变量 sk 描述描述; 每一阶段的全部状态构成该阶段的状态集合每一阶段的全部状态构成该阶段的状态集合Sk,并有并有sk Sk。每个阶段的状态可分为初始状态。每个阶段的状态可分为初始状态和终止状态,或称输入状态和输出状态,
11、阶和终止状态,或称输入状态和输出状态,阶段的初始状态记作段的初始状态记作sk ,终止状态记为,终止状态记为sk+1 ,也,也是下个阶段的初始状态。是下个阶段的初始状态。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 所谓决策就是确定系统过程发展的方案,所谓决策就是确定系统过程发展的方案,决策的实质是关于状态的选择,是决策者决策的实质是关于状态的选择,是决策者从给定阶段状态出发对下一阶段状态作出从给定阶段状态出发对下一阶段状态作出的选择。的选择。 用以描述决策变化的量称之决策变量,用以描述决策变化的量
12、称之决策变量,和状态变量一样,决策变量可以用一个数,和状态变量一样,决策变量可以用一个数,一组数或一向量来描述也可以是状态变量一组数或一向量来描述也可以是状态变量的函数,记以的函数,记以 ,表示于,表示于 k 阶段状阶段状态态 sk 时的决策变量时的决策变量( )kkkxx s有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 决策变量的取值往往也有一定的容许范围,决策变量的取值往往也有一定的容许范围,称之允许决策集合决策变量称之允许决策集合决策变量 xk(sk)的允许决的允许决策集用策集用 XK(SK
13、)表示,表示, xk(sk) XK(SK) , 允许决允许决策集合实际是决策的约束条件。策集合实际是决策的约束条件。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。策略策略(Policy)也叫决策序列策略有全过程也叫决策序列策略有全过程策略和策略和 k 部子策略之分,全过程策略是指具部子策略之分,全过程策略是指具有有n 个阶段的全部过程,由依次进行的个阶段的全部过程,由依次进行的 n 个个阶段决策构成的决策序列,简称策略,表示阶段决策构成的决策序列,简称策略,表示为为 。从。从 k 阶段到第阶段到第
14、n 阶段,阶段,依次进行的阶段决策构成的决策序列称为依次进行的阶段决策构成的决策序列称为 k 部子策略部子策略,表示为表示为 ,显然当,显然当 k=1时的时的 k 部子策略就是全过程策略。部子策略就是全过程策略。 1,12 , , nnpx xx,1 , , k nkknpx xx有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 状态转移确定从一个状态到另一个状态的转状态转移确定从一个状态到另一个状态的转移过程移过程, 由状态转移方程描述由状态转移方程描述: sk+1 = T (sk, xk); 状态
15、转移方程在大多数情况下可以由数学公状态转移方程在大多数情况下可以由数学公式表达式表达, 如如: sk+1 = sk + xk;有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 用来衡量策略或子策略或决策的效果的用来衡量策略或子策略或决策的效果的某种数量指标,就称为指标函数。它是定义某种数量指标,就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量在全过程或各子过程或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、耗量、
16、距离、用、成本、产值、利润、产量、耗量、距离、时间、效用,等等。时间、效用,等等。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 用用vk(sk , xk)表示第表示第 k 段处于状态段处于状态 sk且所作且所作决策为决策为 xk 时的指标,则它就是第时的指标,则它就是第 k 段指标函段指标函数,简记为数,简记为vk 。 用用f(sk , xk)表示第表示第k k子过程的指标函数。表子过程的指标函数。表示处于第示处于第 k 段段 sk 状态且所作决策为状态且所作决策为xk时,时,从从 sk 点到终点
17、的距离。由此可见,点到终点的距离。由此可见, f(sk , xk)不仅跟当前状态不仅跟当前状态 sk 有关,有关,(2 2)过程指标函数)过程指标函数(也称目标函数)(也称目标函数)(1)阶段指标函数)阶段指标函数(也称阶段效应)(也称阶段效应)有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。还跟该子过程策略还跟该子过程策略 pk(sk) 有关有关,严格说来,应严格说来,应表示为表示为 fk(sk , pk(sk) 。它是由各阶段的阶段。它是由各阶段的阶段指标函数指标函数 vk(sk , xk)累积形
18、成的,对于累积形成的,对于 k 部子部子过程的指标函数可以表示为:过程的指标函数可以表示为: ,11111( , , , )(, )(,)( , )k nk nkkkknnkkkkkknnnffs x sxs xv s xvsxv s x 式中式中 ,表示某种运算,可以是加、减、,表示某种运算,可以是加、减、乘、除、开方等乘、除、开方等有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 多阶段决策问题中,常见的目标函数形式多阶段决策问题中,常见的目标函数形式之一是取各阶段效应之和的形式,即之一是取各阶段
19、效应之和的形式,即: (,)nkkkkikfvsu有些问题,如系统可靠性问题,其目标函有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,数是取各阶段效应的连乘积形式, (,)nkkkkikfvsu有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 用用 fk* (sk) 表示第表示第 k 子过程指标函数子过程指标函数Fk(sk , pk(sk)在状态在状态 sk 下的最优值,即下的最优值,即: ()( )( ,( )1,2,kKkkkkkkkpPsfsoptF sp skn 称称 fk(
20、sk) 为第为第 k 子过程上的最优指标函数;子过程上的最优指标函数;与它相应的子策略与它相应的子策略 pk(sk) 称为状态称为状态 sk 下的最下的最优子策略,记为优子策略,记为 pk*(sk) 有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。用动态规划求解最短路问题用动态规划求解最短路问题 A1 6 4 1 4 3 3 3 3 5 1 4 2 4 7 4 3 6 3 4 2 Q A2 T A3 B1 B2 C2 B3 C1 有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向
21、,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。阶段阶段: 可分为可分为4个阶段个阶段, k = 1, ., 4。 状态状态: 可用城市编号可用城市编号, S1=Q, S2=A1,A2,A3, S3=B1,B2,B3, S4=C1,C2, S5=T 决策决策: 决策变量也可用城市编号决策变量也可用城市编号; 状态转移方程状态转移方程: sk+1= xk; 阶段指标函数:阶段指标函数: 过程指标(阶段递推)函数过程指标(阶段递推)函数:,kkkkks xvsxc11()(,)()kkkkkkkfsmin v sxfs A1 6 4 1 4 3 3 3 3 5 1 4 2 4
22、 7 4 3 6 3 4 2 Q A2 T A3 B1 B2 C2 B3 C1 有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 k = 4f4 (C1) = 3, f4 (C2) = 4 k = 3f3(B1)=min1+f4(C1)=4*, 4+f4(C2)=8=4 f3(B2)=min6+f4(C1)=9, 3+f4(C2)=7*=7 f3(B3)=min3+f4(C1)=6*, 3+f4(C2)=7=6 k = 2 f2(A1) = min7+ f3(B1), 4+ f3(B2), 6+ f3
23、(B3) = min11*, 11*, 12 = 11f2(A2) = min3+ f3(B1), 2+ f3(B2), 4+ f3(B3) = min7*, 9, 10 = 7 f2(A3) = min4+ f3(B1), 1+ f3(B2), 5+ f3(B3) = = min8*, 8*, 11 = 8 k = 1 f1(Q) = min2+f2(A1), 4+f2(A2), 3+f2(A3) = min13, 11*, 11* = 11 最短路是:最短路是:Q A2 B1 C1 T,p=A2,B1,C1,T Q A3 B1 C1 T ,p=A3,B1,C1,T Q A3 B2 C2 T
24、 ,p=A3,B2,C2,T A1 6 4 1 4 3 3 3 3 5 1 4 2 4 7 4 3 6 3 4 2 Q A2 T A3 B1 B2 C2 B3 C1 有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。 整个过程的最优策略应具有这样的性质整个过程的最优策略应具有这样的性质: 无无论过去的状态和决策如何论过去的状态和决策如何, 对前面的决策所对前面的决策所形成的状态而言形成的状态而言, 后续的诸决策必须构成最后续的诸决策必须构成最优策略;优策略; 上一条成立的条件是阶段递推函数严格单上一条成
25、立的条件是阶段递推函数严格单调。调。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。在例题中,求解最短路线的计算公式可以概在例题中,求解最短路线的计算公式可以概括写成:括写成:5511()( ) 0( )min ( ,( )()4,3,2,1kkkkkkkkkkkxXsfsfsv s x sfsk 其中,其中,vk 在这里表示从状态在这里表示从状态 sk 到由决策到由决策 xk 所决定的状态所决定的状态 sk+1 之间的距离。之间的距离。f5(s5)=0 是边是边界条件,表示全过程到第四阶段终点结束。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 动态 规划 完整 ppt 课件
限制150内