基于决策理论的多智能体系统规划问题研究.pdf
《基于决策理论的多智能体系统规划问题研究.pdf》由会员分享,可在线阅读,更多相关《基于决策理论的多智能体系统规划问题研究.pdf(119页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国科学技术大学博士学位论文基于决策理论的多智能体系统规划问题研究姓名:吴锋申请学位级别:博士专业:计算机应用技术指导教师:陈小平2011-05摘要摘要不确定性环境下的决策和规划是人工智能的基本问题之一。决策论为这类问题的最优化求解提供了标准的理论框架。近年来,单智能体的决策理论取得了长足的发展,经典的 MDP 和 POMDP 算法已经能求解较大规模的问题。但多智能体的分布式决策却依然处在研究的初级阶段,通常只能求解极小规模的问题。作为马尔科夫决策理论在多智能体系统上的扩展,DEC-POMDP 模型涵盖了大多数的多智能体合作问题,但同时也具有极高的问题复杂度(NEXP 难)。因为在多智能体系统
2、中,每个智能体不仅要考虑环境的变化还需要关注其他智能体的可能行为。DEC-POMDP 的复杂度具体表现在求解上就是问题具有极大的策略空间。如何对巨大的策略空间进行表示和推理并从中找出最优的策略是DEC-POMDP 问题求解的关键。受限于问题复杂度,精确算法通常只能求解极小规模的问题。因此,本文研究的重点是为一般性的 DEC-POMDP 问题设计高效的近似算法。从求解方式上看,大体可分为在线和离线算法两类。本文在这两类算法上均有相应的工作,同时还求解了一类更具挑战的无模型规划问题。在线规划算法在智能体与环境交互的过程中进行规划,因此只需要考虑智能体当前遇到的情况。由于每次执行过程中,智能体实际遇
3、到的情况只是各种可能中很小的一部分。而且在线算法只需要为智能体当前的行动作出选择,而不需要计算完整的策略。因此在大规模问题求解上,在线算法更具有优势。同时,在线算法还能够更加方便的完成智能体之间的通讯,从而提高决策质量。但在线算法本身也有需要解决的问题。因为智能体需要实时的对环境做出反应,因此每次可用于规划的时间非常的有限。在 DEC-POMDP 问题中,每个智能体获得的是各自不同的局部观察,所有需要一个分布式的计算框架来保证智能体行为之间的协调。为了与其他智能体进行合作,每个智能体必须把握其他智能体所有可能拥有的信息,而这些信息随着时间的增加会不断的暴涨。同时由于带宽、环境和计算资源的限制,
4、智能体之间的通讯往往是受限的。因此如何最大限度的发挥通讯的效用也是在线算法需要解决的问题。为解决这些问题,本文提出的 MAOP-COMM 算法至少具有以下几点创新:一、提出了基于线性规划的快速策略搜索算法用于满足在线算法的时间需求;二、提出了基于独立维护的共享信念池的分布式规划保证了智能体之间的协调;三、提出了基于策略等价的历史信息归并方法使得智能体能在有限的存储空间中保留对后继决策更加有用的信息;四、提出了基于信念不一致性检测的通讯策略来更加有效的使用通讯确保了信念池信息的精度从而提高决策效果。从实验结果上看,MAOP-COMM 算法在各种 DEC-POMDP 的测试问题中具有相当出色的表现
5、。I摘要离线规划算法在智能体与环境进行交互前,通过给定的模型计算出完整的策略。其主要优势在于有充足的时间来进行规划,而且不需要考虑分布式决策,只要求计算出的策略能被每个智能体进行分布式的执行。其主要劣势在于需要完整的考虑整个策略空间,具有极高的计算量。当前,最为先进的离线规划算法采用的是将动态规划和启发式搜索相结合的办法来构建一套完整的策略。对于大规模问题,其主要瓶颈在于每一步迭代都会产生极其多的子策略。这些子策略会快速的耗尽所有的存储空间或者导致运算严重超时。为了解决这一问题,本文在前人工作的基础上提出了 PBPG 和 TBDP 这两个算法。PBPG 算法的主要创新点在于彻底的改变了之前先枚
6、举再选择的策略生成模式,直接构建最优化的模型为每个信念点直接生成所需的策略。因此在动态规划过程中,备选的策略不再快速的塞满内存空间,同时每一步迭代后可保留的策略数大大增加,并最终大幅度的提高了规划策略的质量。从实验结果上看,PBPG 算法在运行时间上比之前最好的算法加快了一个数量级,并随着可保留策略数的增加近似最优的求解了大部分的实验测试问题。TBDP 算法主要针对的是大状态DEC-POMDP 问题。其主要的创新点是使用基于测试的方法只为可达的状态和需要使用到的策略计算值函数。之前的算法,笼统的为所有的状态和策略计算值函数,因此带来了极高的计算量,无法求解大规模问题。TBDP 算法的另一个创新
7、点是提出了具有层次结构和随机参数的新的策略表示方法。该方法能够将策略生成转变为策略参数的最优化过程,从而进一步的提高了策略求解的效率。同时,TBDP 算法可方便的运行在多处理器的并行分布式计算资源上。在实验中,TBDP 算法首次求解了上万个状态的 DEC-POMDP 问题。无论是离线算法还是在线算法,在问题求解的时候都需要用到完整的DEC-POMDP 模型。但在大规模的现实问题中,完整的 DEC-POMDP 模型并不容易获得。主要原因:一、环境和智能体之间有复杂的物理关系,无法准确的用单一的概率函数来进行描述;二、即便可以通过相应的手段测量出概率值,太多的数据也将无法存储和表示,更无法用来计算
8、策略。因此,设计能直接与环境进行交互并获得策略的规划算法就成为求解此类问题的关键。因此本文还提出了基于展开式采样的蒙特卡罗规划算法 DecRSPI。该算法仅需要能用于采样的环境或者仿真器就能直接计算策略,而无需事先建立完整的 DEC-POMDP模型。更重要的是该算法有别于之前的算法具有相对于智能体个数的线性的时间和空间复杂度。在实验中,DecRSPI 算法顺利的求解了超过 20 个智能体的问题,而之前的算法一般只能求解 2 到 3 个智能体的 DEC-POMDP 问题。关键词:关键词:多智能体系统,马尔科夫决策模型,不确定环境下的规划,智能体间的合作与协调,分布式局部可观察马尔科夫决策过程。I
9、IABSTRACTABSTRACTPlanning under uncertainty is one of the fundamental challenges in Artificial In-telligence.Decision theory offers a mathematical framework for optimizing decisionsin these domains.In recent years,researchers have made rapid progress for decisionmaking in single-agent cases.This ena
10、bles relatively large problems to be solved bystate-of-the-art MDP and POMDP algorithms.However,research of decentralized de-cision making is still in its infancy and existing solutions can only solve very small“toy”problems.As a nature extension of Markov decision theory to multi-agent sys-tems,the
11、DEC-POMDPmodelhasveryhighcomputationalcomplexity,namelyNEXP-hard.This is not surprising given that agents in multi-agent settings not only have tokeep tracking on the state transition of the environment but also the potential behaviorsof the otheragents.As a result,the joint policy space is huge.Hen
12、ce how to search overthe joint policy space and find the best one is a key issue when solving a large DEC-POMDP.Due to the problem complexity,exact algorithms can solve tiny problems.Therefore,my thesis work focuses on developing effect algorithms for solving generalDEC-POMDPs approximately.Generall
13、y,planning in multi-agent systems can workeither in online or offline fashions.This thesis contributes to the literature by proposingboth online and offline algorithms.Furthermore,a model-free algorithm is presentedfor planning when the exact model is not available.Online algorithms do planning when
14、 interacting with the environment.During ex-ecution time,only very small region of the joint policy space can be visited.Moreover,online planning merely needs to choose an action for the current step and computingthe whole policy is not necessary.Given the reason above,online algorithm can s-cale be
15、tter when solving large real-world problems.Additionally,it is much easier foronline algorithms to take the advantage of communication and thereby improve the so-lution quality.However,online algorithms have their own constrains.The time forplanning is very limited because agents have to react to th
16、e environment immediately.In DEC-POMDP settings,each agent can only get its own local observations.Hence adistributedplanningframeworkisrequiredtoguaranteethecoordinationamongagents.Inordertocooperatewithothers,agentsmustreasonaboutallpossibleinformationheldby others and this type of information gro
17、ws exponentially over time.The communi-cation resource is often limited due to the band-width,environment and computationdevice.Therefore online algorithms must optimize the usage of communication dur-IIIABSTRACTing planning.To cope these challenges,a novel approach called MAOP-COMM wasproposed with
18、 the main contributions as follows:(1)a fast policy search method basedon linear programming to meet the online time-constraint;(2)a distributed planningframework based on a shared belief pool to guarantee coordination online;(3)a policy-basedmergingsolutionforhistoriestoidentifythemostusefulinforma
19、tionwhileboundthe usage of memory;(4)a new communication strategy by detecting the inconsistencyof the beliefs to make a better use of the communication resource.In the experiments,MAOP-COMM performed very well in a variety of testing domains.Offlinealgorithmscomputeacompleteplanpriortointeractwitht
20、heenvironment.The key advantages are:(1)there is no limit on planning time;(2)planning can takein a centralized manner as long as the outcome policy can be executed by each agentaccording its local information.The weakness is that the overall policy space must beconsidered,while leads to highly comp
21、utational cost.Currently,the leading approach-es for solving DEC-POMDPs offline combine dynamic programming with heuristicsearch to construct policies.The bottleneck is that the policies trees built at each stepgrow exponentially and run out of time and memory very quickly.To address this chal-lenge
22、,this thesis improves the existing work and proposes two novel solutions calledPBPG and TBDP.The contribution of PBPG rely on constructing the best policy foreach belief point directly instead of enumerating all candidates and selecting the bestone.Consequentially,more policy trees can be kept as bu
23、ilding blocks of the next it-eration and the total solution quality is greatly improved.In the experiments,PBPGachieved an order of magnitude improvement in runtime and get near-optimal solutionswhen the number of sub-policies is sufficiently large.TBDP is developed to addressthe challenge of the la
24、rge state space in DEC-POMDPs.The main contribution is touse trail-based evaluation for reachable states and only do the computation when neces-sary.State-of-the-art algorithms compute a value function for all states and policies andthereby cannot solve large problems due to the highly computational
25、 expense.Anothercontribution of TBDP is to introduce a new policy representation with layered structureand stochastic decision nodes.It formulates the policy construction as an optimizationover the parameter space and speeds up the policy generation process.Besides,TBDPcan be implemented in a distri
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 决策 理论 智能 体系 规划 问题 研究
限制150内