2022年马尔可夫决策基础理论 .pdf
《2022年马尔可夫决策基础理论 .pdf》由会员分享,可在线阅读,更多相关《2022年马尔可夫决策基础理论 .pdf(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、马尔可夫决策基础理论内容提要本章介绍与研究背景相关的几类决策模型及算法。模型部分,首先是最基本的马尔可夫决策模型, 然后是在此基础上加入观察不确定性的部分可观察马尔可夫决策模型,以及进一步加入多智能体的分布式部分可观察马尔可夫决策模型和部分可观察的随机博弈模型。 算法部分, 针对上述几类模型, 我们均按照后向迭代和前向搜索两大类进行对比分析。最后,我们介绍了半马尔可夫决策模型及Option 理论, 这一理论为我们后面设计分等级的大规模多智能体系统的决策模型及规划框架提供了重要基础。2.1 MDP 基本模型及概念马尔可夫决策过程适用的系统有三大特点:一是状态转移的无后效性; 二是状态转移可以有不
2、确定性; 三是智能体所处的每步状态完全可以观察。下面我们将介绍 MDP 基本数学模型,并对模型本身的一些概念,及在MDP 模型下进行问题求解所引入的相关概念做进一步解释。2.1.1 基本模型马尔科夫决策过程最基本的模型是一个四元组S,A,T,R(Puterman M, 1994): ?状态集合 S:问题所有可能世界状态的集合;?行动集合 A:问题所有可能行动的集合; ?状态转移函数 T: S A S 0,1 : 用 T(s, a, s)来表示在状态 s,执行动作 a,而转移到状态 s 的概率( | , )P s s a ; ?报酬函数 R: S A R: 我们一般用 R(s, a)来表示在状态
3、 s执行动作 a 所能得到的立即报酬。 虽然有针对连续参数情况的MDP 模型及算法,然而本文在没有特殊说明的情况都只讨论离散参数的情况,如时间,状态及行动的参数。图 2.1 描述的是在 MDP 模型下,智能体 (Agent)与问题对应的环境交互的过程。智能体执行行动, 获知环境所处的新的当前状态,同时获得此次行动的立即名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 36 页 - - - - - - - - - 收益。图 0.1 MDP的基本模型 2.1.2 状态状态是对于
4、在某一时间点对该世界(系统)的描述。最一般化的便是平铺式表示,即对世界所有可能状态予以标号,以s1,s2,s3,这样的方式表示。这种情况下,标号状态的数目也就代表了状态空间的大小。而一种更加自然的方式是因子化表示,因子化是一种面向对象的思想,这种状态表示方式我们会在结合Robocup的高层设计章节详细讨论。不同的应用中,人们对状态的具体定义是不一样的,但一般来说,在MDP中定义的状态必须包括所有当前世界中Agent 能够掌握利用,会对 Agent 决策产生影响的信息, 这也可做为建模过程中, 某些因素要不要加入问题状态表示的依据。事实上,这些因素,又对应为一些概念,或者说状态变量。要不要将这些
5、变量加入问题的状态表示中, 再或者要不要对概念对应的状态量进行某种拆分或合并,这些问题在建模时都是需要考虑的。处理的不好,便可能引入大量冗余信息。目前,也有专门针对这些问题所作的工作,如识别无关状态(Jong N K, Stone P,2005),聚类等等 (Givan R, et al, 2003; Li L H, et al, 2006)。大多数情况,智能体对自己所处的当前世界的状态不可能有一个完整的认识。因此,我们引入概率的方法来处理这类信息的不确定性。我们引入随机变量St,随机变量从状态集合S 中取值。变量 St并非由未来时刻的状态所决定,而是由过去状态影响,如图2.2 所示。当前状态
6、环境智能体立即收益行动S0S1S2Sk-2Sk-1Sk名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 36 页 - - - - - - - - - 图 0.2 马尔可夫链 图 2.2 所表示的是一离散的、 随机的动态系统, 图中的每个节点表示在某一时刻的某一状态。对于随机变量St, 有 Pr(St|S0,S1,.,St-1) = Pr(St|St-1) ,为一条件概率。它也同时体现了马尔科夫性质,即St只是概率依赖于St-1。任何两个状态间的关系可以只用两个状态来表示。同
7、时,我们引入 吸收状态 这一概念,如果对于某一状态s,执行任何行动,过程都以概率 1 转移到 s 本身,则该状态 s 被称为吸收状态 (absorb state) 。2.1.3 行动Agent 的行动会参与改变当前世界的状态。MDP 的一个关键部分是提供给Agent 的用于做决策的行动集合。当某一行动被执行,世界状态将会发生改变,根据一个已知的概率分布转换为另一状态,这个概率分布也和所执行的动作有关。不加说明的情况下, 我们讨论的是时齐马尔可夫过程,即所有行动的执行时间是相同的, 状态转移的时间间隔一致。 这种行动有时也可以被称为系统的原子动作。在该系统内,行动已对应最小的时间划分,原子动作不
8、可再分割。比如,在一个棋盘类游戏中,每一步所有的走子方式构成了原子动作的集合。再比如,在一个实时的机器人运动控制中,离散的最小时间片内, 机器人可以选择以一定的离散的角度转向, 或者以一定的离散的加速度进行速度控制,这些也构成了在该系统下的原子动作集合。2.1.4 状态转移函数状态转移函数描述了系统的动态特性,我们可以做以下比较:图 0.3 对给定行动的状态间概率转移图 ?确定环境下的行动: T: SA S 0.2 0.31.00.50.51.00.80.60.4s1s2s3s6s5s40.50.2名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - -
9、 - - - - 名师精心整理 - - - - - - - 第 3 页,共 36 页 - - - - - - - - - 在某个状态 s 执行动作 a 可以得到一个确定的状态;?随机环境下的行动: T: SA Prob(S) 在某个状态 si下执行某一动作a,我们得到的是一状态的概率分布(|, )jiP ss a ,也记为( , )aTs s 。图 2.3 显示了一个对某给定行动, 状态间概率转移的情况。 在简单的问题中,状态转移函数也可以记为表格的形式。2.1.5 策略与值函数以上都是对模型本身的一些概念的解释,下面我们介绍在MDP 问题求解过程引入的若干概念。决策问题的解称为策略 (pol
10、icy), 是从状态集合到动作集合的一个映射, 即 : SA。按照策略解决问题的过程是,首先智能体需要知道当前所处状态s,然后执行策略对应的行动 (s) ,并进入下一状态,重复此过程直到问题结束。MDP 中假定 Agent 通过观察可以完全确定当前所处的状态。而该假设不能保证的问题属于 POMDP 模型解决的对象,将在下一章讨论。在MDP 某些材料中对策略有如下区分,若动作的选取只和当前的状态有关,而与时间无关,称作平稳策略;相应的,非平稳策略是经时间索引后的一系列状态到行动的集合,也就是说非平稳策略即使对于同样的状态,在过程的不同时刻,可能会对应不同的行动。我们希望Agent 能够按照某个准
11、则来选择动作以最大化长期的报酬。比如有现阶段最优准则, 要求最大化有限阶段期望总报酬最大,也就是k-1tt=0maxER?,其中 Rt是 Agent 在第 t 步得到的报酬。 如果我们处理的是一个无限阶段问题,考虑整个过程中的总报酬,通常会引入一个折扣因子 ,其中 0 +,我们便无法经由 (0.8)确定满足( )( )VsV s的 (s)。通常,对于一个满足一致性条件的值函数,只按Bellman 公式进行更新迭代的话,一致性条件始终保持成立。最优策略记为*,对应值函数为 V *,称为最优值函数。通常 ,当一个策略满足对状态 s,有*( )( )VsVs- 时,我们称为状态 s 处的最优策略,当
12、对问题所有状态均满足上述条件时,称其为问题的最优策略。2.2 MDP 典型算法马尔可夫决策过程将客观世界的动态特性用状态转移来描述,相关算法可以按是否求解全部状态空间进行划分.早期求解算法有值迭代和策略迭代,这些方法采用动态规划 ,以一种后向的方式同时求解出所有状态的最优策略.随后,一些利用状态可达性的前向搜索算法,如 AO*, LAO* (Hansen E A, Zilberstein, 2001) 被相继提出 ,他们的特点是只求解从给定初始状态开始的最优策略,通常可以避免大量不必要的计算 ,获得更高的效率 .与 AO* 算法比较 , LAO* 能够处理状态转移存在环的系统 .同样利用状态可
13、达性并结合动态规划的算法有: Heuristic Search/DP (HDP)(Bonet, B., Geffner, H, 2003), Envelope Propagation (EP) (Dean, T et al , 1995)以及 Focused Dynamic Programming (FP) (Ferguson D, Stentz A T, 2004). 从另一个角度 ,相关算法还可以按离线或在线划分.对于很多现实世界应用中的大规模问题 ,无论是否利用状态可达性, 解都不可能以离线的方式一次性求出,这种情况更适合使用在线算法,也称为实时算法 .实时算法的决策计算与执行交替进行,
14、且解的质量通常随给定计算时间的增加而提升.最早的基于动态规划的实时算法是 RTDP(Barto A G, et al., 1995) 。 RTDP 通过不断循环 Trail 来改进策略,每次 Trail 确定一个从初始状态到目标状态的路径然后进行反向的值迭代,然而RTDP 不处理停止问题 (Stopping Problem)( Pemberton J C, 1994) 。 停止问题指如何判断当前解的质量是否已满足要求进而停止计算并提交策略供执行.在值迭代类算法中 ,停止问题对应收敛判据 .Labeled RTDP(Bonet B, Geffner H 2003)通过标记各经历状态是否已被求解,
15、给出了一种处理停止问题的方式,同时避免已经求解过的状态处的计算进而加快收敛.最新的实时动态规划算法 ,如 BRTDP (McMahan H 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 36 页 - - - - - - - - - B, 2005)及 FRTDP (SmithT, Simmons R, 2006)使用了另外一种技术 ,求解过程记录并不断更新相关状态期望值函数的上界下界,这些信息用来指导分支选择,显著的提高了算法性能 .另一方面 ,上下界提供了最优值函数的
16、一个区间估计,当给定初始状态的值函数上下界间隔足够小时,便可认为已经获得满足精度的最优策略. 下面将分别介绍几类典型的MDP 求解算法。为了方便对比,我们针对同一类特殊 MDP 问题,随机最短路径问题 (Bertsekas D, 1995) ,它是对传统人工智能中最短路径问题的泛化。 问题存在有限个状态, 在非目标状态执行任何行动将获得一个负的立即收益,达到目标状态后过程终止,过程本身不再引入时间变量。有如下值函数:( )0( )( ,( )( , )( )ssSif sis goal stateVsR ssTs s Vsotherwise?= ?+?(0.9) 2.2.1 反向迭代类算法策略
17、迭代与值迭代是求解MDP 问题的两个最基本的方法, 均基于动态规划。2.2.1.1 策略迭代在策略迭代中 ,策略显式表示 ,可以计算得到对应 V,然后使用下列公式改进策略 : ( , )( , )( , )( )asSQs aR s aTs s Vs=+(0.10) ( )argmax( , )aAsQs a=(0.11) 其中 为折扣因子 (Discount Factor), 1。由于可能的策略数目是有限的, 而策略迭代的过程总是在改进当前的策略,算法在经过有限步的迭代后总会收敛于最优策略。Alg.1: Policy Iteration1. Start with an initial pol
18、icy 2. Evaluation policy: Compute the value function Vfor policy by solving the following set of |S| equations in | S| unknowns, ( )( )( ,( )( , )( )ssSVsR ssTs s Vs=+3. Improve policy : Use equation (0.10)(0.11), Resolve ties arbitrarily, but give preference to the currently selected action. 4. Con
19、vergence test : If is the same as , go to step 5. Otherwise, set = and go to step 2 5. Return an optimal policy . 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 36 页 - - - - - - - - - 2.2.1.2 值迭代在值迭代中 ,策略没有显式表示 ,整个过程按动态规划的Bellman 公式不断进行迭代更新来改进值函数。( )max( , )( ,
20、 ) ( )asSV sR s aTs s V s?=+?(0.12) 当值函数经由有界误差衡量接近最优时,策略可以通过(0.13)式获得。对于随机最短路径问题,误差界限可以通过Bellman误差 及平均初过时间(first passage time) 计算得到。每次迭代所有状态值函数更新前后的最大差值称为Bellman 误差 r:max( )( )s SrV sVs=-;平均初过时间指从状态s 开始,按策略 执行,到达一个目标状态的期望时间步数,记为( ) s。平均初过时间可以通过对所有 s求解线性方程组 : ( )1( , ( ), )( )sSsT ss ss= +(0.14) 给定 B
21、ellman 误差与平均初过时间 ,一个最优值函数V*的下界 VL及上界 VU可以按下式计算得到:( )( )( )( )( )( )LUVsVss rVsVss r?=-?=+? ?(0.15) 对于策略迭代, 当前的值函数是最优值函数的一个下界。上界与下界的最大差值定义为: max( )( )ULs SVsVs?-?,当该差值小于 时,策略为 最优。对给定的任意实数 0, 策略迭代与值迭代在经过有限步的迭代后都将收敛于 最优。Alg.2: Value Itertaion 1. Start with an initial evaluation function V and parameter
22、 for detecting convergence to an -optimal evaluation function. 2. Improve evaluation function by Equation(0.12)3. Convergence test: If the error bound of the evaluation function is less than or equal to , go to step 4. Otherwise, set V = V and go to step 2.4. Extract an -optimal policy from the eval
23、uation function by Equation(0.11).2.2.2 前向搜索类算法现实中有些问题并不需要求解从所有状态到达目标状态的策略,而是给定从固定的初始状态开始。 这类问题属于特例,使用策略迭代或者值迭代都可以求解。然而,这两种求解方法都没有利用初始状态的相关知识,没去尝试把计算集中在由初始状态可能达到的那些状态上。相反,无论是策略迭代还是值迭代在每次更新时都会计算所有状态。 从效果上说, 这两种算法计算的是问题所有可能初始状名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -
24、- 第 8 页,共 36 页 - - - - - - - - - 态下的策略。下面结合与或图介绍一些基于前向搜索的MDP 求解算法。2.2.2.1 结合与或图的搜索从更一般的情况来讲,一个状态空间上的搜索问题与MDP 类似,可以被定义为一系列状态 (包含了初始状态及目标状态的集合), 一系列的行动 (智能体干预状态转移 ),以及一个花费函数或者收益函数。问题的目标为找到一个从起点状态到终点状态的最小花费或者最大收益的路径。经典AI 中搜索问题为确定性搜索,如启发式 A* 算法,迭代加深的 IDA* 算法(Bonet B, Geffner H, 2006)等。而从搜索所基于的树或图的数据结构模型
25、的角度来看,不确定性搜索又有其新的特点。同时,它也是一种更一般的模型,与或图(AND/OR graph)。根据 Martelli ,Montanari(1978)及 Nilsson(1980),可以定义与或图为一个超图(hypergraph) 。区别与普通图中弧连接了一对状态,超图拥有超弧(hyperarcs)或者 k 连接(k-connectors)将一个状态与 k 个后继状态相连。图2.4 将与节点,或节点及超弧, k 连接的概念联系在一起。图2.4.(a)显示了一个或节点及两条从它出发的弧,分别对应行动a1与行动 a2。每条弧导向一个拥有两个后继或节点的与节点,后继或节点即对应了一个可能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年马尔可夫决策基础理论 2022 年马尔可夫 决策 基础理论
限制150内