基于马尔可夫决策的穿越沙漠游戏策略研究.doc
《基于马尔可夫决策的穿越沙漠游戏策略研究.doc》由会员分享,可在线阅读,更多相关《基于马尔可夫决策的穿越沙漠游戏策略研究.doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于马尔可夫决策的穿越沙漠游戏策略研究摘要:“穿越沙漠”游戏是一款综合考虑资金、资源、天气、时间、博弈等多种因素在内的复杂策略游戏。文章将基于图论与马尔可夫决策有关模型,分析讨论玩家在未来信息已知与未来信息未知两种情形下的最优策略。该模型综合考虑了风险评估与多阶段决策理论,可为优化算法与企业决策提供一定借鉴意义。 关键词:沙漠掘金;图论;动态规划;马尔可夫决策;最优化理论 一、引言 “穿越沙漠”游戏是一款综合考虑资金、资源、天气、时间、博弈等多种因素在内的多阶段策略游戏。游戏要求玩家在沙暴天气原地停留、到达矿山当天不许挖矿并且保证在路途中不得耗尽资源。游戏允许玩家挖矿获得收益,并利用初始资金及
2、收益在村庄随时补给资源。玩家必须在截止日期之前抵达终点,并保留尽可能多的留存收益。该情景策略游戏将野外求生中多变的天气与不定的决策通过情景模拟的方式真实呈现,对于玩家的数据意识、信息搜集与灵活决策能力以及风险防控都提出了很高要求。本文将基于图论与马尔可夫决策有关模型,综合考虑玩家在两种情形下所面临的现实困境,并对该最优策略展开具体讨论。 二、问题分析与求解 (一)未来信息已知:基于多阶段决策的动态规划模型 经济学中,期望收益为根据已知信息对未来收益的预判。在游戏中,玩家期望在规定的时间内获得尽可能多的资金。由于天气数据与地图完全已知,本文首先根据地图信息建立图论模型,接着使用动态规划将沙漠掘金
3、问题划分为多阶段决策模型,从基本逻辑出发,首先规划出掘金路线,进而分析资源购置策略,在此基础上依据天气状况与资源情况求解挖矿策略,最终通过筛选期望收益的最大值来求取玩家的最优策略。 1. 图论模型 设地图共有n个区域,其中含有k个村庄,记为集合A=a1、a2ak;含有m座矿山,记为集合B=b1、b2bm。沙漠起始点记为s0,沙漠终点记为sn。w1(t)为第t日水资源基础消耗量,w2(t)为第t日食物资源基础消耗量。矿山的单日收益为r,每箱水资源的质量为m1,基准价格为p1,每箱食物资源的质量为m2,基准价格为p2。玩家在第t天的剩余水资源质量为M1(t)、剩余食物资源质量为M2(t)、剩余资金
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 马尔可夫 决策 穿越 沙漠 游戏 策略 研究
限制150内