(13)--第16章 强化学习(下)机器学习模型与算法.ppt
《(13)--第16章 强化学习(下)机器学习模型与算法.ppt》由会员分享,可在线阅读,更多相关《(13)--第16章 强化学习(下)机器学习模型与算法.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、强化学习概述n 任务与奖赏nK-摇臂赌博机n有模型学习n免模型学习n 值函数近似n模仿学习24.免模型学习n免模型学习(model-free learning):更加符合实际情况u转移概率,奖赏函数未知u甚至环境中的状态数目也未知u假定状态空间有限n免模型学习所面临的困难u策略无法评估u无法通过值函数计算状态-动作值函数u机器只能从一个起始状态开始探索环境4.免模型学习n免模型学习(model-free learning):更加符合实际情况u转移概率,奖赏函数未知u甚至环境中的状态数目也未知u假定状态空间有限n免模型学习所面临的困难u策略无法评估u无法通过值函数计算状态-动作值函数u机器只能从
2、一个起始状态开始探索环境n解决困难的办法u多次采样u直接估计每一对状态-动作的值函数u在探索过程中逐渐发现各个状态4.免模型学习两种著名的免模型学习方法:n蒙特卡罗强化学习n时序差分学习54.1蒙特卡罗强化学习n蒙特卡罗强化学习:采样轨迹,用样本均值近似期望u策略评估:蒙特卡罗法l从某状态出发,执行某策略l对轨迹中出现的每对状态-动作,记录其后的奖赏之和l采样多条轨迹,每个状态-动作对的累积奖赏取平均l一条轨迹u策略改进:换入当前最优动作4.1蒙特卡罗强化学习4.1蒙特卡罗强化学习4.1蒙特卡罗强化学习4.1蒙特卡罗强化学习n异策略蒙特卡罗强化学习算法4.1蒙特卡罗强化学习n蒙特卡罗强化学习的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 13-第16章 强化学习下机器学习模型与算法 13 16 强化 学习 机器 模型 算法
限制150内