第10章_强化学习.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第10章_强化学习.pptx》由会员分享,可在线阅读,更多相关《第10章_强化学习.pptx(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023/3/27强化学习 史忠植1内容提要内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用第1页/共90页2023/3/27强化学习 史忠植2引言引言 人类通常从与外界环境的交互中学习。所谓强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。试错搜索(tr
2、ial-and-error search)和延期强化(delayed reinforcement)这两个特性是强化学习中两个最重要的特性。第2页/共90页2023/3/27强化学习 史忠植3引言引言 强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。第3页/共90页2023/3/27强
3、化学习 史忠植4引言强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律(Law of Effect):一定情景下让动物感到舒服的行为,就会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。换个说法,哪种行为会“记住”,会与刺激建立联系,取决于行为产生的效果。动物的试错学习,包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。所以,1954年,Minsky在他的博士论文中实现了计算上的试错学习。同年,Farley和Clark也
4、在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky 的论文“Steps Toward Artificial Intelligence”,此后开始广泛使用。1969年,Minsky因在人工智能方面的贡献而获得计算机图灵奖。第4页/共90页2023/3/27强化学习 史忠植5引言1953到1957年,Bellman提出了求解最优控制问题的一个有效方法:动态规划(dynamic programming)Bellman于 1957年还提出了最优控制问题的随机离散版本,就是著名的马尔可夫决策过程(MDP,Markov decision processe),1960年Howar
5、d提出马尔可夫决策过程的策略迭代方法,这些都成为现代强化学习的理论基础。1972年,Klopf把试错学习和时序差分结合在一起。1978年开始,Sutton、Barto、Moore,包括Klopf等对这两者结合开始进行深入研究。1989年Watkins提出了Q-学习Watkins 1989,也把强化学习的三条主线扭在了一起。1992年,Tesauro用强化学习成功了应用到西洋双陆棋(backgammon)中,称为TD-Gammon。第5页/共90页2023/3/27强化学习 史忠植6内容提要内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用第6页/共90页20
6、23/3/27强化学习 史忠植7主体主体强化学习模型i:inputr:reward s:statea:action状态 sisi+1ri+1奖励 ri环境环境动作动作 aia0a1a2s0s1s2s3第7页/共90页2023/3/27强化学习 史忠植8描述一个环境(问题)Accessible vs.inaccessibleDeterministic vs.non-deterministicEpisodic vs.non-episodicStatic vs.dynamicDiscrete vs.continuousThe most complex general class of environ
7、ments are inaccessible,non-deterministic,non-episodic,dynamic,and continuous.第8页/共90页2023/3/27强化学习 史忠植9强化学习问题Agent-environment interactionStates,Actions,RewardsTo define a finite MDPstate and action sets:S and Aone-step“dynamics”defined by transition probabilities(Markov Property):reward probabiliti
8、es:EnvironmentactionstaterewardRLAgent第9页/共90页2023/3/27强化学习 史忠植10与监督学习对比Reinforcement Learning Learn from interactionlearn from its own experience,and the objective is to get as much reward as possible.The learner is not told which actions to take,but instead must discover which actions yield the mo
9、st reward by trying them.RLSystemInputsOutputs(“actions”)Training Info =evaluations(“rewards”/“penalties”)lSupervised Learning Learn from examples provided by a knowledgable external supervisor.第10页/共90页2023/3/27强化学习 史忠植11强化学习要素Policy:stochastic rule for selecting actionsReturn/Reward:the function o
10、f future rewards agent tries to maximizeValue:what is good because it predicts rewardModel:what follows whatPolicyRewardValueModel ofenvironmentIs unknownIs my goalIs I can getIs my method第11页/共90页2023/3/27强化学习 史忠植12在策略下的Bellman公式The basic idea:So:Or,without the expectation operator:is the discount
11、rate第12页/共90页2023/3/27强化学习 史忠植13BellmanBellman最优策略公式最优策略公式其中:V*:状态值映射S:环境状态R:奖励函数P:状态转移概率函数:折扣因子第13页/共90页2023/3/27强化学习 史忠植14马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESS 由四元组定义。环境状态集S 系统行为集合A 奖励函数R:SA 状态转移函数P:SAPD(S)记R(s,a,s)为系统在状态s采用a动作使环境状态转移到s获得的瞬时奖励值;记P(s,a,s)为系统在状态s采用a动作使环境状态转移到s的概率。第14页/共90页2023/3/
12、27强化学习 史忠植15马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESS马尔可夫决策过程的本质是:当前状态向下一状态转移的概率和奖励值只取决于当前状态和选择的动作,而与历史状态和历史动作无关。因此在已知状态转移概率函数P和奖励函数R的环境模型知识下,可以采用动态规划技术求解最优策略。而强化学习着重研究在P函数和R函数未知的情况下,系统如何学习最优行为策略。第15页/共90页2023/3/27强化学习 史忠植16MARKOV DECISION PROCESSCharacteristics of MDP:a set of states :Sa set of acti
13、ons:Aa reward function:R:S x A RA state transition function:T:S x A (S)T(s,a,s):probability of transition from s to s using action a第16页/共90页2023/3/27强化学习 史忠植17马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESS第17页/共90页2023/3/27强化学习 史忠植18MDP EXAMPLE:TransitionfunctionStates and rewardsBellman Equation:(Greedy
14、 policy selection)第18页/共90页2023/3/27强化学习 史忠植19MDP Graphical Representation,:T(s,action,s )Similarity to Hidden Markov Models(HMMs)第19页/共90页2023/3/27强化学习 史忠植20Reinforcement Learning Deterministic transitionsStochastic transitionsis the probability to reaching state j when taking action a in state ist
15、art3211234+1-1A simple environment that presents the agent with a sequential decision problem:Move cost=0.04(Temporal)credit assignment problem sparse reinforcement problemOffline alg:action sequences determined ex anteOnline alg:action sequences is conditional on observations along the way;Importan
16、t in stochastic environment(e.g.jet flying)第20页/共90页2023/3/27强化学习 史忠植21Reinforcement Learning M=0.8 in direction you want to go 0.2 in perpendicular 0.1 left0.1 rightPolicy:mapping from states to actions3211234+1-10.7053211234+1-1 0.8120.762 0.868 0.912 0.660 0.655 0.611 0.388An optimal policy for t
17、he stochastic environment:utilities of states:EnvironmentObservable(accessible):percept identifies the statePartially observableMarkov property:Transition probabilities depend on state only,not on the path to the state.Markov decision problem(MDP).Partially observable MDP(POMDP):percepts does not ha
18、ve enough info to identify transition probabilities.第21页/共90页2023/3/27强化学习 史忠植22动态规划动态规划Dynamic Programming动态规划(dynamic programming)的方法通过从后继状态回溯到前驱状态来计算赋值函数。动态规划的方法基于下一个状态分布的模型来接连的更新状态。强化学习的动态规划的方法是基于这样一个事实:对任何策略和任何状态s,有(10.9)式迭代的一致的等式成立(as)是给定在随机策略下状态s时动作a的概率。(ssa)是在动作a下状态s转到状态s的概率。这就是对V的Bellman(19
19、57)等式。第22页/共90页2023/3/27强化学习 史忠植23动态规划动态规划Dynamic Programming-ProblemA discrete-time dynamic systemStates 1,n+termination state 0Control U(i)Transition Probability pij(u)Accumulative cost structurePolicies第23页/共90页2023/3/27强化学习 史忠植24lFinite Horizon ProblemlInfinite Horizon ProblemlValue Iteration动态规
20、划动态规划Dynamic Programming Iterative Solution 第24页/共90页2023/3/27强化学习 史忠植25动态规划中的策略迭代动态规划中的策略迭代/值迭值迭代代 policy evaluationpolicy improvement“greedification”Policy IterationValue Iteration第25页/共90页2023/3/27强化学习 史忠植26动态规划方法动态规划方法TTTTTTTTTTTTT第26页/共90页2023/3/27强化学习 史忠植27自适应动态规划自适应动态规划(ADP)Idea:use the const
21、raints(state transition probabilities)between states to speed learning.Solve=value determination.No maximization over actions because agent is passive unlike in value iteration.using DPLarge state spacee.g.Backgammon:1050 equations in 1050 variables第27页/共90页2023/3/27强化学习 史忠植28Value Iteration Algorit
22、hmAN ALTERNATIVE ITERATION:(Singh,1993)(Important for model free learning)Stop Iteration when V(s)differs less than.Policy difference ratio=2/(1-)(Williams&Baird 1993b)第28页/共90页2023/3/27强化学习 史忠植29Policy Iteration Algorithm Policies converge faster than values.Why faster convergence?第29页/共90页2023/3/2
23、7强化学习 史忠植30动态规划动态规划Dynamic Programming典型的动态规划模型作用有限,很多问题很难给出环境的完整模型。仿真机器人足球就是这样的问题,可以采用实时动态规划方法解决这个问题。在实时动态规划中不需要事先给出环境模型,而是在真实的环境中不断测试,得到环境模型。可以采用反传神经网络实现对状态泛化,网络的输入单元是环境的状态s,网络的输出是对该状态的评价V(s)。第30页/共90页2023/3/27强化学习 史忠植31没有模型的方法没有模型的方法Model Free MethodsModels of the environment:T:S x A (S)and R:S x
24、 A RDo we know them?Do we have to know them?Monte Carlo MethodsAdaptive Heuristic CriticQ Learning第31页/共90页2023/3/27强化学习 史忠植32蒙特卡罗方法蒙特卡罗方法 Monte Carlo Methods 蒙特卡罗方法不需要一个完整的模型。而是它们对状态的整个轨道进行抽样,基于抽样点的最终结果来更新赋值函数。蒙特卡罗方法不需要经验,即从与环境联机的或者模拟的交互中抽样状态、动作和奖励的序列。联机的经验是令人感兴趣的,因为它不需要环境的先验知识,却仍然可以是最优的。从模拟的经验中学习功
25、能也很强大。它需要一个模型,但它可以是生成的而不是分析的,即一个模型可以生成轨道却不能计算明确的概率。于是,它不需要产生在动态规划中要求的所有可能转变的完整的概率分布。第32页/共90页2023/3/27强化学习 史忠植33Monte Carlo方法TTTTTTTTTTTTTTTTTTTT第33页/共90页2023/3/27强化学习 史忠植34蒙特卡罗方法蒙特卡罗方法 Monte Carlo Methods Idea:Hold statistics about rewards for each state Take the average This is the V(s)Based only
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 强化 学习
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内