第8章 强化学习ppt课件.pptx
《第8章 强化学习ppt课件.pptx》由会员分享,可在线阅读,更多相关《第8章 强化学习ppt课件.pptx(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、章 节 目 录8.1 8.1 强化学习概述强化学习概述8.2 8.2 马尔可夫决策过程马尔可夫决策过程8.3 Q-Learning8.3 Q-Learning8.4 8.4 强化学习应用概述强化学习应用概述8.5 8.5 案例分析案例分析什么是强化学习?什么是强化学习? 强化学习是机器学习的一个分支,与传统的机器学习方法不同,需要对情景及恰当的决策之间进行搜索,根据反馈对这种搜索策略进行奖罚,是一种序列多步决策问题。 强化学习是介于监督学习(即利用目标数据给出的正确答案来训练)和非监督学习(即算法只能探索相似的数据来逼近)之间的弱监督学习方法。发展历史发展历史 1954年,Minsky首次提出
2、“强化”和“强化学习”的概念和术语。 1957年,Bellman首次提出了离散时间马尔可夫决策过程,成为现代强化学习的理论基础。 1960年,Howard提出马尔科夫决策过程的策略迭代方法。 1989年,Watkins提出的Q-Learning进一步拓展了强化学习的应用和完备了强化学习。 1992年,Tesauro成功将强化学习应用到西洋双陆棋中。巴甫洛夫的狗巴甫洛夫的狗 狗:实验的主角。 实验者:负责操控和运转实验。 铃铛:给狗的一个刺激。 口水:狗对刺激的反应。 食物:给狗的奖励,也是改变狗行为的关键。巴甫洛夫的狗巴甫洛夫的狗 实验的主角:Agent,智能体。 实验的操控者:System
3、Environment,系统环境。 给Agent 的刺激(铃铛):State,状态。 Agent的反应(口水):Action,行动。 Agent的奖励(食物):Reward,回报或者反馈。强化学习过程强化学习过程1. 在每一个时刻,环境都将处于一种状态。2. 智能体将设法得到环境当前状态。3. 智能体根据当前状态,结合策略(Policy)做出行动。4. 这个行动使智能体得到两部分信息:新的状态和行为的回报。强化学习的核心机制:用试错强化学习的核心机制:用试错(trail-and-error)来学会在给定来学会在给定的情境下选择最恰当的行为。的情境下选择最恰当的行为。马尔可夫决策过程马尔可夫决策
4、过程策略策略( (policy) ) 策略表示智能体在状态s时采取行动a的概率 策略决定于当前状态,与历史状态无关 策略一般是固定的,不随时间变化长期回报长期回报 策略的优劣不仅仅靠当前的延时奖励决定,还要计算执行这一策略后得到的长期累计奖励,即长期回报价值函数价值函数2. 状态行动价值函数:已知当前状态s和行动a,按照策略行动产生的回报期望,即 策略的价值由价值函数进行计算,即该策略带来的期望累积奖赏,策略的价值函数可以分为两种类型:贝尔曼贝尔曼( (Bellman) )公式公式 价值函数可以以递归的形式表示,假设价值函数已经稳定,任意一个状态的价值可以由其他状态的价值表示。 类似的,可求得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第8章 强化学习ppt课件 强化 学习 ppt 课件
限制150内