(8.1)--PPT-博弈策略求解机器学习模型与算法.ppt
《(8.1)--PPT-博弈策略求解机器学习模型与算法.ppt》由会员分享,可在线阅读,更多相关《(8.1)--PPT-博弈策略求解机器学习模型与算法.ppt(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、博弈策略求解问题与认知目标问题:如何定制一个胜率较高的围棋或者德州扑克策略呢?认知目标:掌握遗憾最小化算法掌握虚拟遗憾最小化算法遗憾最小化算法(遗憾最小化算法(Regret Minimization):):若干定义若干定义虚拟遗憾最小化算法:虚拟遗憾最小化算法:最优反应策略最优反应策略虚拟遗憾最小化算法:虚拟遗憾最小化算法:纳什均衡纳什均衡遗憾最小化算法遗憾最小化算法 遗憾最小化算法是一种根据以往博弈过程中所得遗憾程度来选择未来行为的方法。遗憾最小化算法:遗憾最小化算法:有效遗憾值有效遗憾值遗憾最小化算法:遗憾最小化算法:有效遗憾值有效遗憾值遗憾最小化算法:遗憾最小化算法:石头石头-剪刀剪刀-
2、布的例子布的例子遗憾最小化算法:遗憾最小化算法:石头石头-剪刀剪刀-布的例子布的例子表表8.7 玩家玩家A在两轮后所得到的遗憾值在两轮后所得到的遗憾值遗憾最小化算法遗憾最小化算法在虚拟最小化算法的求解过程中,同样需要反复模拟多轮博弈来拟合最佳反应策略,算法步骤如下:1)初始化遗憾值和累加策略表为初始化遗憾值和累加策略表为02)采用随机选择的方法来决定策略采用随机选择的方法来决定策略3)利用当前策略与对手进行博弈利用当前策略与对手进行博弈4)计算每个玩家采取每次行为后的遗憾值计算每个玩家采取每次行为后的遗憾值5)根据博弈结果计算每个行动的累加遗憾值大小来更新策略根据博弈结果计算每个行动的累加遗憾值大小来更新策略6)重复重复3)到到5)步若干次,不断的优化策略步若干次,不断的优化策略7)根据重复博弈最终的策略,完成最终的动作选择根据重复博弈最终的策略,完成最终的动作选择课后题1.在遗憾最小化算法中,玩家i按照如下方法来计算其在每一轮产生的悔恨值()A 其他玩家策略不变,只改变玩家i的策略后,所产生的收益之差。B 所有玩家策略均改变,所产生的收益之差。C 至少改变1个以上玩家的策略,所产生的收益之差。D 每个玩家策略不变,只改变收益函数,所产生的收益之差。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 8.1 PPT 博弈 策略 求解 机器 学习 模型 算法
限制150内