(3.4)--PPT-蒙特卡洛树搜索机器学习模型与算法.ppt
《(3.4)--PPT-蒙特卡洛树搜索机器学习模型与算法.ppt》由会员分享,可在线阅读,更多相关《(3.4)--PPT-蒙特卡洛树搜索机器学习模型与算法.ppt(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、蒙特卡洛树搜索问题与认知目标问题:请大家想想AlphaGo在跟李世石下围棋时,是如何选择落子的,或如何落子才能获胜?认知目标:掌握上限置信区间算法掌握蒙特卡洛树搜索算法对抗搜索:蒙特卡洛树搜索对抗搜索:蒙特卡洛树搜索对抗搜索:蒙特卡洛树搜索对抗搜索:蒙特卡洛树搜索对抗搜索:蒙特卡洛树搜索l不足:忽略了其他从未摇动或很少摇动的赌博机,而失去了可能的机会。智能体错误地认为5号赌博机不如4号赌博机,因而无法做出更好的选择l上述困境体现了探索探索(exploration)和利用利用(exploitation)之间存在对立关系。贪心算法基本上是利用利用从已有尝试结果中所得估计来指导后续动作,但问题是所得
2、估计往往不能准确反映未被(大量)探索过的动作。因此,需要在贪心算法中增加一个能够改变其“惯性”的内在动力,以使得贪心算法能够访问那些尚未被(充分)访问过的空间。对抗搜索:蒙特卡洛树搜索对抗搜索:蒙特卡洛树搜索上限置信区间算法(上限置信区间算法(Upper Confidence Bounds,UCB1Upper Confidence Bounds,UCB1):为每个动作的奖励期望计算一个估计范围,优先采用估计范围上限较高的动作。图图 3.23 UCB1算法的策算法的策略示意图略示意图动作1的奖励期望取值的不确定度(估计范围)虽然最大,但是因为其均值太小,因此UCB1算法不优先考虑探索动作1。动作
3、2和3的奖励期望的均值相同,但是动作2的奖励期望取值的不确定度(估计范围)更大,于是因为置信上限更大,动作2会被UCB1算法优先考虑。对抗搜索:蒙特卡洛树搜索霍夫丁不等式(霍夫丁不等式(Hoeffdings inequalityHoeffdings inequality)对抗搜索:蒙特卡洛树搜索(3.5)对抗搜索:蒙特卡洛树搜索对搜索算法进行优化以提高搜索效率基本上是在解决如下两个问题:优先扩展哪优先扩展哪些节点以及放弃扩展哪些节点些节点以及放弃扩展哪些节点,综合来看也可以概括为如何高效地扩展搜索树。如果将目标稍微降低,改为求解一个近似最优解,则上述问题可以看成是如下探索性问题:算法从根节点开
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 3.4 PPT 蒙特卡洛树 搜索 机器 学习 模型 算法
限制150内