(精品)第06章强化学习(1).ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《(精品)第06章强化学习(1).ppt》由会员分享,可在线阅读,更多相关《(精品)第06章强化学习(1).ppt(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Automation and Control Engineering SeriesAutomation and Control Engineering Series强化学习强化学习(1)養天地正氣養天地正氣 法古今完人法古今完人2 2/33/331 介绍介绍1.1 1.1 动态规划与强化学习问题动态规划与强化学习问题动态规划与强化学习问题动态规划与强化学习问题 1.3 1.3 关于本书关于本书关于本书关于本书1.2 1.2 动态规划与强化学习中的逼近动态规划与强化学习中的逼近动态规划与强化学习中的逼近动态规划与强化学习中的逼近養天地正氣養天地正氣 法古今完人法古今完人3 3/33/33前言(前
2、言(1)动态规划(动态规划(DP)强化学习(强化学习(RLRL)解决最优控制问题解决最优控制问题需要行需要行为模型为模型不需要不需要行为模行为模型型在一段时间里,为获得预期在一段时间里,为获得预期目标目标,选择哪些,选择哪些动作动作(决策决策)应用于)应用于系统。系统。目标目标:是优化长期性能,即与环境交互过程中的累计:是优化长期性能,即与环境交互过程中的累计奖赏奖赏。奖赏奖赏:奖赏用于评价一步决策性能。:奖赏用于评价一步决策性能。自动控制自动控制人工智能人工智能运筹学运筹学医学医学经济学经济学应用:应用:養天地正氣養天地正氣 法古今完人法古今完人4 4/33/33自动控制自动控制:控制器控制
3、器接收来自过程的接收来自过程的输出指标输出指标(状态,奖赏),通过(状态,奖赏),通过控制器的决策,对控制器的决策,对过程过程采取一些采取一些动作动作,产生满足某种要求的,产生满足某种要求的行为行为。决策者决策者是控制器,是控制器,系统系统是被控制的过程。是被控制的过程。人工智能人工智能:采取动作,通过感知和影响来监测其所处的环境。:采取动作,通过感知和影响来监测其所处的环境。决策者决策者是是agent,系统系统是是agent所处的环境。所处的环境。前言(前言(2)控制器控制器过程过程动作动作输出输出智能智能agent环境环境动作动作感知感知自动控制自动控制人工智能人工智能養天地正氣養天地正氣
4、 法古今完人法古今完人5 5/33/33DP:需要系统模型。需要系统模型。优点:优点:几乎不需要对系统做任何假设,可以具有非线性和随机性。几乎不需要对系统做任何假设,可以具有非线性和随机性。构造模拟模型比衍生一个解析模型容易,特别是对随机情况。构造模拟模型比衍生一个解析模型容易,特别是对随机情况。前言(前言(3)RL:不需要系统模型。不需要系统模型。(事先对系统无法全面感知,代价太大,无法得到)(事先对系统无法全面感知,代价太大,无法得到)优点:优点:系统中得到的数据来工作,不需要行为模型。系统中得到的数据来工作,不需要行为模型。离线离线RL,在线,在线RL。如有模型,可用模型替代实际系统,产
5、生数据。如有模型,可用模型替代实际系统,产生数据。養天地正氣養天地正氣 法古今完人法古今完人6 6/33/331.1 动态规划与强化学习问题(动态规划与强化学习问题(1)DP和和RL问题的主要要素是通过它们之间的交互流联系在一起问题的主要要素是通过它们之间的交互流联系在一起:过程为控制器提供目前所处的状态。过程为控制器提供目前所处的状态。控制器根据目前的状态,为过程提供应采取的动作。控制器根据目前的状态,为过程提供应采取的动作。过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。过程给出下一状态,并根据奖赏函数,给出其获得的立即奖赏。養天地正氣養天地正氣 法古今完人法古今完人7 7/33/
6、331.1 动态规划与强化学习问题(动态规划与强化学习问题(2)目标目标:避开障碍物,从底端到达右上角的目标。:避开障碍物,从底端到达右上角的目标。控制器(控制器(agent):机器人的软件,决策算法。机器人的软件,决策算法。过程(环境)过程(环境):与机器人密切相关的环境(地面、障碍物、目标等):与机器人密切相关的环境(地面、障碍物、目标等)。用于决策的物理实体、传感器和执行器。用于决策的物理实体、传感器和执行器。goalobstacle養天地正氣養天地正氣 法古今完人法古今完人8 8/33/331.1 动态规划与强化学习问题(动态规划与强化学习问题(3)状态(状态(x):机器人的位置(直角
7、坐标)。:机器人的位置(直角坐标)。动作(动作(u):机器人走一步(直角坐标)。:机器人走一步(直角坐标)。迁移函数(迁移函数(f):从目前的位置走一步,到达下一位置,遇到障碍变复杂。:从目前的位置走一步,到达下一位置,遇到障碍变复杂。奖赏函数(奖赏函数():产生奖赏(:产生奖赏(r),评价迁移的质量。),评价迁移的质量。目标:目标:+10;障碍:;障碍:-1;其他:;其他:0,可构造带更多信息的奖赏。,可构造带更多信息的奖赏。策略(策略(h):从状态到动作的映射。从状态到动作的映射。goalobstacle養天地正氣養天地正氣 法古今完人法古今完人9 9/33/331.1 动态规划与强化学习
8、问题(动态规划与强化学习问题(4)在在DPDP和和RLRL中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构中,目标是使回报最大化,其中回报是由交互过程中的累积奖赏构成。成。主要考虑折扣无限水平回报,即累积回报开始于初始时间步主要考虑折扣无限水平回报,即累积回报开始于初始时间步k k=0=0,沿(可能),沿(可能)无限长的轨迹,对得到的奖赏值进行累积,通过一个因子无限长的轨迹,对得到的奖赏值进行累积,通过一个因子0,10,1对奖赏对奖赏加权,这个因子随着时间步的增加呈指数地减少。加权,这个因子随着时间步的增加呈指数地减少。goalobstacle“远视远视”程程度度養天地正氣養天地正氣
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精品 06 强化 学习
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内