第七章 运筹学 动态规划优秀PPT.ppt
第七章 运筹学 动态规划现在学习的是第1页,共63页n教学目的与要求:使学生学会利用多阶段问题的决策思想处理一些简单的实际问题,并会用WinQSB求解动态规划.n重点与难点:重点是离散型资源分配问题;难点是动态规划建模和求解方法.n教学方法:从多阶段最短路引入基本概念和数学模型,再讲解离散型DP和连续型DP.n思考题,讨论题,作业:本章习题.n参考资料:见前言.n学时分配:6学时.现在学习的是第2页,共63页前言:动态规划是最优化的一个分支,它是解决多阶段决策过程最优化的一种方法.动态规划的创始人是美国数学家贝尔曼(R.Bellman).它在四十年代后期和五十年代初期在美国兰德公司工作,针对一些多阶段决策问题提出了解决这类问题的最优化原理,并在1957年出版了动态规划的第一本书Dynamic programming.在企业管理方面,动态规划可以解决库存问题,资源分配问题,设备更新问题,运输问题,生产过程最优控制问题.它的弱点是,根据最优化原理建立的动态规划基本方程,尚无统一的解法,而要根据其数学结构灵活处理;此外,变量个数不能太多,否则计算量太大,这称为维数问题.现在学习的是第3页,共63页第一节 多阶段决策问题及实例 所谓多阶段决策问题,是指一个大问题可以划分为若干个阶段,每个阶段形成一个子问题,各个阶段是互相联系的,每个阶段都要作出决策,并且一个阶段的决策确定以后会影响下一阶段的决策,从而影响整个过程的活动路线.各个阶段所确定的决策构成一个决策序列,称为一个策略,对于不同的策略其效果不同(效果可以用数量来衡量).多阶段决策问题就是选择一个最优策略,使在给定的标准下达到最好的效果.现在学习的是第4页,共63页典型例题:例1 多阶段网络的最短路2511214106104131112396581052C1C3D1AB1B3B2D2EC2状态1状态2状态3状态4终点现在学习的是第5页,共63页例题特点:阶段:如图的阶段,分为四段;状态:顶点;决策:选弧;转移:从一个顶点走到另一个顶点;目标:路长最短.现在学习的是第6页,共63页例2 资源分配问题设有数量x的某种资源,将它投入两种生产A,B.若以y投入生产A,剩下的x-y投入生产B,则收入函数为g(y)+h(x-y),如果生产后可以回收再生产,其回收率分别为0a,b1,则在第一阶段生产后回收的总资源为 再将 投入生产A,B,若以 分别投入生产A,B则又可得收入 因此两阶段的总收入为现在学习的是第7页,共63页如果上面的过程进行了n个阶段,而且我们希望选择 使n个阶段的总收入最大,问题变为现在学习的是第8页,共63页例题特点:阶段:年(月)状态:资金数 决策:分配给A的资金数 转移:效益:n个阶段的总收入最大现在学习的是第9页,共63页第二节 最优化原理与动态规划基本方程一.动态规划的基本概念阶段(stage):是指一个问题需要作出决策的步骤,用k表示阶段数,k称为阶段变量.通常以时间作为阶段变量.状态(state):状态表示在任一阶段所处的位置,通常一个阶段有若干个状态,描述过程状态的变量称为状态变量,第k阶段的状态变量用 表示.状态变量取值的全体称为状态空间或状态集合.现在学习的是第10页,共63页在例1中各阶段的状态变量集合如下:第一阶段状态变量第二阶段状态变量第三阶段状态变量第四阶段状态变量终点E现在学习的是第11页,共63页注意:状态变量是动态规划中最关键的一个参数,它既反映前面各阶段决策的结局,又是本阶段作出决策的出发点,状态是动态规划问题各阶段信息的传递点和结合点.决策(decision):决策是指某阶段状态给定后,从该阶段演变到下一阶段某状态的选择.决策变量 表示第k阶段状态为 时对方案的选择.表示k阶段状态为 时决策允许的取值集合.例如:例1中策略(policy)和子策略(subpolicy):动态规划问题各阶段决策组成的序列总体称为一个策略.现在学习的是第12页,共63页是n个阶段DP的一个策略.状态转移律:从 的某一状态值出发,当决策变量 的取值决定后,下一阶段状态变量 的取值也随之确定.这种从上一阶段的某一状态值到下一阶段某一状态值的转移规律称为状态转变移律.可表示为现在学习的是第13页,共63页指标函数(index function):指标函数是用来衡量实现过程优劣的一种数量指标.它是从状态出发至过程最终,当采取某种策略时,按预定标准得到的效益值,这个值既与 有关,又与 以后所选取的策略有关,它是两者的函数,称为过程指标函数,记为特别地,仅第k阶段的指标函数,可记为现在学习的是第14页,共63页最优指标函数:是指对某一确定状态选取最优策略后得到的指标函数值,也就是对应某一最优子策略的某种效益度量,这个度量值可以是成本,产量,距离等等.对应于从状态出发的最优子策略的效益值记为其中optimization是最优化的意思,在具体问题中,可以是最小化(min)也可以是最大化(max).现在学习的是第15页,共63页二.最优化原理与动态规划基本方程贝尔曼(R.Bellman)最优化原理:作为整个过程的最优策略具有这样的性质,无论过去的状态和决策如何,对先前决策所形成的状态而言,余下的诸决策必构成最优策略.根据这一原理,计算动态规划问题的递推关系式(逆序法)称为动态规划基本方程:其中,称为边界条件.现在学习的是第16页,共63页用动态规划求解例1:2511214106104131112396581052C1C3D1AB1B3B2D2EC2现在学习的是第17页,共63页动态规划基本方程为:现在学习的是第18页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f5(E)=0现在学习的是第19页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D1)=5f5(E)=0现在学习的是第20页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f4(D1)=5现在学习的是第21页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C1)=8f4(D1)=5现在学习的是第22页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C2)=7f4(D1)=5f3(C1)=8现在学习的是第23页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f3(C1)=8f3(C2)=7现在学习的是第24页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B1)=20f3(C2)=7f3(C1)=8现在学习的是第25页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B1)=20f3(C2)=7f3(C1)=8现在学习的是第26页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f2(B1)=21f2(B2)=14现在学习的是第27页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21现在学习的是第28页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1现在学习的是第29页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1 (C1,D1)D1现在学习的是第30页,共63页2511214106104131112396581052C1C3D1AB1B3B2D2EC2f4(D2)=2f5(E)=0f3(C3)=12f4(D1)=5f2(B3)=19f3(C2)=7f3(C1)=8f1(A)=19f2(B2)=14f2(B1)=21状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态A (A,B2)B2 (B2,C1)C1 (C1,D1)D1 (D1,E)E从A到E的最短路径为19,路线为AB 2C1 D1 E 现在学习的是第31页,共63页第三节 离散确定型动态规划模型的求解例2 资源分配问题:某公司有五套先进设备,需分配给下属的甲,乙,丙三个工厂,各工厂得此设备后每年为公司上缴的利润如下表,问如何分配可使公司获得最大利润?甲 乙 丙 0 1 2 3 4 5 0 0 0 3 5 4 7 10 6 9 11 11 12 11 1213 11 12现在学习的是第32页,共63页解:将问题按三个工厂分为三个阶段,即k=1,2,3.现在学习的是第33页,共63页根据最优化原理得出动态规划基本方程:动态规划的求解方法通常是采取逆序解法,即从第三阶段向前推导.现在学习的是第34页,共63页0 1 2 3 4 5 0 1 2 3 4 50 4 6 11 12 12 0 4 6 11 12 12 0 1 2 3 4 5 现在学习的是第35页,共63页0 1 2 3 4 5 0 1 2 3 4 500+4 5+00+6 5+4 10+00+11 5+6 10+4 11+00+12 5+11 10+6 11+4 11+00+12 5+12 10+11 11+6 11+4 11+0 0 5 10 14 16 2101221,22现在学习的是第36页,共63页0 1 2 3 4 5 50+21 3+16 7+14 9+10 12+5 13+0210,2最优方案一:甲厂0台,乙厂2台,丙厂3台;最优方案二:甲厂2台,乙厂2台,丙厂1台.最大盈利值为21万元.现在学习的是第37页,共63页第四节 连续确定型动态规划模型的求解例3(p208例5)现在学习的是第38页,共63页解:阶段变量是以年作为化分单位,k=1,2,3.状态变量 为k 年初可用于工作的完好机器数.决策变量 为第k年用于完成A项任务的机器数,则 为用于完成B项任务的机器数.状态转移方程是 动态规划 基本方程及边界条件为 现在学习的是第39页,共63页当k=3时,现在学习的是第40页,共63页当k=2时,现在学习的是第41页,共63页当k=1时,现在学习的是第42页,共63页 第五节 一般数学规划模型的动态规划解法用动态规划解数学规划的方法是:把依次决定各个变量的取值看成是一个多阶段决策问题,因而模型中含有几个变量,就分为几个阶段,用状态变量表示数学规划中约束条件右边常数项,它表示可分配的资源数.现在学习的是第43页,共63页例3 某投资者有40万元的固定资本,他可以在三种不同的投资机会中投资(股票,银行,土地)投资额为x,y,z.假定他做过预测,知道每项投资可获得的效益分别为问如何分配投资额,才能获得最大效益.现在学习的是第44页,共63页解:依题意,列出数学模型设为决策变量,阶段变量为k,k=1,2,3.为状态变量,即投放到第k个项目上的资金数.状态转移律为效益函数为.动态规划基本方程为现在学习的是第45页,共63页K=3,这是单增的线性函数,它在区间右端点取得最大值,显然时,上式有最大值.现在学习的是第46页,共63页K=2,设,求其极大值,为极小值点,则现在学习的是第47页,共63页当k=1时,若=为一常数,不存在极值,舍去.若设现在学习的是第48页,共63页1600.现在学习的是第49页,共63页例4 用动态规划求解非线性规划解:把确定 的值看作两个阶段的决策,即k=1,2.状态变量为k阶段初约束条件右边项的剩余值,分别用 表示,于是现在学习的是第50页,共63页动态规划的递推方程为当k=2时,现在学习的是第51页,共63页现在学习的是第52页,共63页现在学习的是第53页,共63页第六节 背包问题背包问题的提法:一个徒步旅行者,有n种物品供他选择后装入背包中,这n种物品的编号为1,2,n.已知第j种物品的重量为 公斤,这一物品对他的使用价值为 ,又知该旅行者所能承受的总重量不超过a公斤,问该旅行者如何选择这n种物品的件数,使得对他来说,使用价值最大.现在学习的是第54页,共63页建模:现在学习的是第55页,共63页动态规划解法:现在学习的是第56页,共63页现在学习的是第57页,共63页例5 设有背包问题物品1 2 3重量价值3 2 58 5 12背包的最大限制重量a=5,问三种物品各装几件使总价值最大?现在学习的是第58页,共63页现在学习的是第59页,共63页现在学习的是第60页,共63页现在学习的是第61页,共63页现在学习的是第62页,共63页现在学习的是第63页,共63页