32.深度学习_困知勉行者勇:深.pdf
《32.深度学习_困知勉行者勇:深.pdf》由会员分享,可在线阅读,更多相关《32.深度学习_困知勉行者勇:深.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、深度学习|困知勉行者勇:深度强化学习2018-02-08 王天一深度学习|困知勉行者勇:深度强化学习朗读人:王天一1420|6.57M在 2017 年新鲜出炉的麻省理工科技评论十大突破性技术中,“强化学习”榜上有名。如果把时钟调回到一年多之前的围棋人机大战,彼时的深度强化学习在 AlphaGo 对李世乭的横扫中就已经初露峥嵘。而在进化版AlphaGo Zero 中,深度强化学习更是大放异彩,AlphaGo Zero 之所以能够摆脱对人类棋谱的依赖,其原因就在于使用纯粹的深度强化学习进行端到端的自我对弈,从而超越了人类的围棋水平。要介绍深度强化学习就不得不先说一说强化学习的故事。相比于纯人造的监
2、督学习和无监督学习,强化学习的思想根源来自于认知科学。20 世纪初,美国心理学家爱德华桑代克在对教育过程的研究中提出了强化学习的原始理论,而作为人工智能方法的强化学习则力图使计算机在没有明确指导的情况下实现自主学习,完成从数据到决策的转变。强化学习(reinforcement learning)实质上是智能系统从环境到行为的学习过程,智能体通过与环境的互动来改善自身的行为,改善准则是使某个累积奖励函数最大化。具体来说,强化学习是基于环境反馈实现决策制定的通用框架,根据不断试错得到来自环境的奖励或者惩罚,从而实现对趋利决策信念的不断增强。它强调在与环境的交互过程中实现学习,产生能获得最大利益的习
3、惯性行为。强化学习的特点在于由环境提供的强化信号只是对智能体所产生动作的好坏作一种评价,和监督学习中清晰明确的判定结果相比,环境的反馈只能提供很少的信息。所以强化学习需要在探索未知领域和遵从已有经验之间找到平衡。一方面,智能体要在陌生的环境中不断摸着石头过河,来探索新行为带来的奖励;另一方面,智能体也要避免在探索中玩儿脱,不能放弃根据已有经验来踏踏实实地获得最大收益的策略。描述强化学习最常用的模式是马尔可夫决策过程(Markov decision process)。马尔可夫决策过程是由离散时间随机控制的过程,可以用以下的四元组来定义S:由智能体和环境所处的所有可能状态构成的有限集合A:由智能体
4、的所有可能动作构成的有限集合Pa(s,s)=Pr(st+1=s|st=s,at=a):智能体在 t 时刻做出的动作 a 使马尔可夫过程的状态从 t 时刻的 s 转移为 t+1 时刻的 s 的概率Ra(s,s):智能体通过动作 a 使状态从 s 转移到 s 得到的实时奖励除了这个四元组之外,强化学习还包括一个要素,就是描述主体如何获取奖励的规则。强化学习主体和环境之间的交互是以离散时间步的方式实现的。在某个时间点上,智能体对环境进行观察,得到这一时刻的奖励,接下来它就会在动作集中选择一个动作发送给环境。来自智能体的动作既能改变环境的状态,也会改变来自环境的奖励。而在智能体与环境不断互动的过程中,
5、它的终极目标就是让自己得到的奖励最大化。深度强化学习(deep reinforcement learning)是深度学习和强化学习的结合,它将深度学习的感知能力和强化学习的决策能力熔于一炉,用深度学习的运行机制达到强化学习的优化目标,从而向通用人工智能迈进。根据实施方式的不同,深度强化学习方法可以分成三类,分别是基于价值、基于策略和基于模型的深度强化学习。基于价值(value-based)的深度强化学习的基本思路是建立一个价值函数的表示。价值函数(value function)通常被称为 Q 函数,以状态空间 S 和动作空间 A 为自变量。但对价值函数的最优化可以说是醉翁之意不在酒,其真正目的
6、是确定智能体的行动策略没错,就是前文中“基于策略”的那个策略。策略是从状态空间到动作空间的映射,表示的是智能体在状态 st 下选择动作 a,执行这一动作并以概率 Pa(st,st+1)转移到下一状态 st+1,同时接受来自环境的奖赏 Ra(st,st+1)。价值函数和策略的关系在于它可以表示智能体一直执行某个固定策略所能获得的累积回报。如果某个策略在所有状态-动作组合上的期望回报优于所有其他策略,这就是个最优策略。基于价值的深度强化学习就是要通过价值函数来找到最优策略,最优策略的数目可能不止一个,但总能找到其中之一。在没有“深度”的强化学习中,使用价值函数的算法叫做 Q 学习算法(Q-lear
7、ning)。Q 算法其实非常简单,就是在每个状态下执行不同的动作,来观察得到的奖励,并迭代执行这个操作。本质上说,Q 学习算法是有限集上的搜索方法,如果出现一个不在原始集合中的新状态,Q 算法就无能为力了,所以这是一种不具备泛化能力的算法,也就不能对未知的情况做出预测。为了实现具有预测功能的 Q 算法,深度强化学习采用的方式是将Q 算法的参数也作为未知的变量,用神经网络来训练Q 算法的参数,这样做得到的就是深度 Q 网络。深度 Q 网络中有两种值得一提的机制,分别是经验回放和目标Q 网络。经验回放的作用就是避免“熊瞎子掰苞米,掰新的扔旧的”这种窘境。通过将以往的状态转移数据存储下来并作为训练数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 32. 深度 学习 困知勉行
限制150内