2022年马尔可夫决策规划 .pdf
《2022年马尔可夫决策规划 .pdf》由会员分享,可在线阅读,更多相关《2022年马尔可夫决策规划 .pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2008.10 1 马尔可夫决策规划第五讲 有限阶段模型及其他有限阶段模型的目标只有有限项,即1110210100PPPPPPP)(2)(nnnfffffnffffffnrrrrV1) 当 n 充分大时,近似令n2) 用动态规划法求解注意:用 Bellmon 最优化原理可推出平稳策略优势。 5.1 向后归纳法在确定性动态规划问题求解中,向后归纳法是寻求最优策略的一种有效解法,同样也是求解有限阶段 Markov 决策规划 问题中最优策略与最优值函数的有效解法。定理 5.1 在状态集与所有行动集均为有限的有限阶段模型中,定义函数nVi,使其满足如下等式:SjniAanjVai jpairiV1*,
2、maxSjnnnjVifi jpifir1*, .(5.1) 0,.,2, 1,NNNnSi其中01*jVN。则由上述算式求出的名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 9 页 - - - - - - - - - 2008.10 2 00001 ,2 ,.,VVVVl即为有限阶段模型的最优值函数,即对每个iS,均有0sup,NViVi;与此同时求得的决策序列01,.,Nfff即为最优策略,其中1,2,., Sl。由于所有的,A iiS及1,2,., Sl均为有限集,
3、故由(5.1)式求得的nfi一定存在,且达到最优的行动可能多于一个(此时可任取一个作为nfi) 。定理 5.1 不仅解决了有限阶段模型求解最优策略的方法问题,而且还表明对任何n,iVn*表示在阶段 n,从状态i 出发,在余下1Nn 的阶段的最优期望总报酬,1,.,nnNfff也构成从 n 到阶段 N 的最优策略,这体现了Bellman 的最优化原理。例 5.1 求解例 3.1 中当 N=3 时的最优策略与最优值函数。解:由题意知,机器只有两个状态,即S=1, 2 ,对应的行动集分 别 为321,2,1aaAaA。 故 最 优 值 函 数 的 形 式 为0001 ,2VVV,其中01V与02V可
4、通过( 5.1)式分别求解得到。注意题设3N,因而根据向后归纳法的求解顺序应为iViViViViV0*1*2*3*4*,其中1,2iS。下面分别列出n=3, 2, 1, 0 时按照 (5.1)式计算的有关结果。1) n=3,有:0214*4*VVSjAajVajparV4*13*, 1, 1max110, 1, 1max11ararAa名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 9 页 - - - - - - - - - 2008.10 3 到达31V右边最大的行动为
5、a1,故令311fa ;SjAajVajparV4*23*,2, 2max222,5max,2,2max32arar到达右端最大的行动为a3,故令332fa。2) n=2,由 (5.1)式及上一步计算得到的331 ,2VV有SjAajVajparV3*12*, 1, 1max14 .1623. 0107.0, 11ar故令211fa ;SjAajVajparV3*22*, 2, 2max226 .0104 .0,2,24.0106 .0,2max32arar8 .08. 0,2.0max达到22V右端最大的行动为a3,故令232fa。3) n=1,由 (5.1)式及上一步计算得到的221 ,2
6、VV有SjAajVajparV2*11*, 1, 1max172.218.03.04.167.010故令111fa;SjAajVajparV2*21*, 2,2max28.06.04 .164.0,2,8.04.04 .166.0,2max32arar名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 9 页 - - - - - - - - - 2008.10 4 16.504.5,16. 5max达到12V右端最大的行动为2a,故令122fa。4) n=0,由 (5.1)式
7、及上一步计算得到的111 ,2VV有SjAajVajparV1*10*, 1, 1max1752.2616.53 .072.217.010故令011fa;SjAajVajparV1*20*, 2, 2max216.56 .072.214 .02,16.54.072.216.05max096.10784.9,096.10max达到02V右端最大的行动为a2,故令022fa。由 定 理5.1可 知 最 优 函 数 为2,10*0*0*VVV=(26.752, 10.096)=2,1 ,*3*3VV, 相 应 的 最 优 策 略 为*ggffffff,*3*2*1*0, 其 中111agf,22af
8、,32ag。注:本例中的最优策略不是平稳的,决策函数f2, f1, f0不同。由此可见,有限阶段问题的最优策略一般不是平稳策略。例 5.2假设一设备制造厂承接了某工程中一台关键设备的制造任务,工程对此设备的质量标准有非常严格的要求。以该厂现有的技术水准而言,每台制成的设备能通过质量检验而被接受的概率仅为 0.25。再因该工程对此设备又有一定的时限要求,所以厂名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 9 页 - - - - - - - - - 2008.10 5 方决
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年马尔可夫决策规划 2022 年马尔可夫 决策 规划
限制150内