第10章-强化学习讲课教案.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第10章-强化学习讲课教案.ppt》由会员分享,可在线阅读,更多相关《第10章-强化学习讲课教案.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第10章-强化学习2022/12/8强化学习 史忠植2引言引言 人类通常从与外界环境的交互中学习。所谓强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-error search)和延期强化(delayed reinforcement)这两个特性是强化学习中两个最重
2、要的特性。2022/12/8强化学习 史忠植3引言引言 强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。2022/12/8强化学习 史忠植4引言l强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律(Law of Effect):一定情景下让动物感到舒服的行为,就
3、会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。换个说法,哪种行为会“记住”,会与刺激建立联系,取决于行为产生的效果。l动物的试错学习,包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。所以,1954年,Minsky在他的博士论文中实现了计算上的试错学习。同年,Farley和Clark也在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky 的论文“Steps Toward Artificial Intelligen
4、ce”,此后开始广泛使用。1969年,Minsky因在人工智能方面的贡献而获得计算机图灵奖。2022/12/8强化学习 史忠植5引言l1953到1957年,Bellman提出了求解最优控制问题的一个有效方法:动态规划(dynamic programming)lBellman于 1957年还提出了最优控制问题的随机离散版本,就是著名的马尔可夫决策过程(MDP,Markov decision processe),1960年Howard提出马尔可夫决策过程的策略迭代方法,这些都成为现代强化学习的理论基础。l1972年,Klopf把试错学习和时序差分结合在一起。1978年开始,Sutton、Barto
5、、Moore,包括Klopf等对这两者结合开始进行深入研究。l1989年Watkins提出了Q-学习Watkins 1989,也把强化学习的三条主线扭在了一起。l1992年,Tesauro用强化学习成功了应用到西洋双陆棋(backgammon)中,称为TD-Gammon。2022/12/8强化学习 史忠植6内容提要内容提要l引言引言l强化学习模型强化学习模型l动态规划动态规划l蒙特卡罗方法蒙特卡罗方法l时序差分学习时序差分学习lQ学习学习l强化学习中的函数估计强化学习中的函数估计l应用应用2022/12/8强化学习 史忠植7主体主体主体主体强化学习模型i:inputr:reward s:sta
6、tea:action状态 sisi+1ri+1奖励 ri环境环境环境环境动作动作 aia0a1a2s0s1s2s32022/12/8强化学习 史忠植8描述一个环境(问题)(问题)lAccessible vs.inaccessiblelDeterministic vs.non-deterministiclEpisodic vs.non-episodiclStatic vs.dynamiclDiscrete vs.continuousThe most complex general class of environments are inaccessible,non-deterministic,n
7、on-episodic,dynamic,and continuous.2022/12/8强化学习 史忠植9强化学习问题lAgent-environment interactionlStates,Actions,RewardslTo define a finite MDPlstate and action sets:S and Alone-step“dynamics”defined by transition probabilities(Markov Property):lreward probabilities:EnvironmentactionstaterewardRLAgent2022/1
8、2/8强化学习 史忠植10与监督学习对比lReinforcement Learning Learn from interactionllearn from its own experience,and the objective is to get as much reward as possible.The learner is not told which actions to take,but instead must discover which actions yield the most reward by trying them.RLSystemInputsOutputs(“ac
9、tions”)Training Info =evaluations(“rewards”/“penalties”)lSupervised Learning Learn from examples provided by a knowledgable external supervisor.2022/12/8强化学习 史忠植11强化学习要素lPolicy:stochastic rule for selecting actionslReturn/Reward:the function of future rewards agent tries to maximizelValue:what is go
10、od because it predicts rewardlModel:what follows whatPolicyRewardValueModel ofenvironmentIs unknownIs my goalIs I can getIs my method2022/12/8强化学习 史忠植12在策略下的Bellman公式The basic idea:So:Or,without the expectation operator:is the discount rate2022/12/8强化学习 史忠植13BellmanBellman最优策略公式最优策略公式其中:V*:状态值映射S:环境
11、状态R:奖励函数P:状态转移概率函数:折扣因子2022/12/8强化学习 史忠植14马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESS 由四元组定义。l 环境状态集Sl 系统行为集合Al 奖励函数R:SAl 状态转移函数P:SAPD(S)记R(s,a,s)为系统在状态s采用a动作使环境状态转移到s获得的瞬时奖励值;记P(s,a,s)为系统在状态s采用a动作使环境状态转移到s的概率。2022/12/8强化学习 史忠植15马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESSl马尔可夫决策过程的本质是:当前状态向下一状态转移的概率和奖励值只取
12、决于当前状态和选择的动作,而与历史状态和历史动作无关。因此在已知状态转移概率函数P和奖励函数R的环境模型知识下,可以采用动态规划技术求解最优策略。而强化学习着重研究在P函数和R函数未知的情况下,系统如何学习最优行为策略。2022/12/8强化学习 史忠植16MARKOV DECISION PROCESSCharacteristics of MDP:a set of states :Sa set of actions:Aa reward function:R:S x A RA state transition function:T:S x A (S)T(s,a,s):probability of
13、 transition from s to s using action a2022/12/8强化学习 史忠植17马尔可夫决策过程马尔可夫决策过程 MARKOV DECISION PROCESS2022/12/8强化学习 史忠植18MDP EXAMPLE:TransitionfunctionStates and rewardsBellman Equation:(Greedy policy selection)2022/12/8强化学习 史忠植19MDP Graphical Representation,:T(s,action,s )Similarity to Hidden Markov Mod
14、els(HMMs)2022/12/8强化学习 史忠植20Reinforcement Learning Deterministic transitionsStochastic transitionsis the probability to reaching state j when taking action a in state istart3211234+1-1A simple environment that presents the agent with a sequential decision problem:Move cost=0.04(Temporal)credit assig
15、nment problem sparse reinforcement problemOffline alg:action sequences determined ex anteOnline alg:action sequences is conditional on observations along the way;Important in stochastic environment(e.g.jet flying)2022/12/8强化学习 史忠植21Reinforcement Learning M=0.8 in direction you want to go 0.2 in perp
16、endicular 0.1 left0.1 rightPolicy:mapping from states to actions3211234+1-10.7053211234+1-1 0.8120.762 0.868 0.912 0.660 0.655 0.611 0.388An optimal policy for the stochastic environment:utilities of states:EnvironmentObservable(accessible):percept identifies the statePartially observableMarkov prop
17、erty:Transition probabilities depend on state only,not on the path to the state.Markov decision problem(MDP).Partially observable MDP(POMDP):percepts does not have enough info to identify transition probabilities.2022/12/8强化学习 史忠植22动态规划动态规划Dynamic Programmingl动态规划(dynamic programming)的方法通过从后继状态回溯到前驱
18、状态来计算赋值函数。动态规划的方法基于下一个状态分布的模型来接连的更新状态。强化学习的动态规划的方法是基于这样一个事实:对任何策略和任何状态s,有(10.9)式迭代的一致的等式成立的一致的等式成立(as)是给定在随机策略下状态s时动作a的概率。(ssa)是在动作a下状态s转到状态s的概率。这就是对V的Bellman(1957)等式。2022/12/8强化学习 史忠植23动态规划动态规划Dynamic Programming-ProblemlA discrete-time dynamic systemlStates 1,n+termination state 0lControl U(i)lTra
19、nsition Probability pij(u)lAccumulative cost structurelPolicies2022/12/8强化学习 史忠植24lFinite Horizon ProblemlInfinite Horizon ProblemlValue Iteration动态规划动态规划Dynamic Programming Iterative Solution 2022/12/8强化学习 史忠植25动态规划中的策略迭代动态规划中的策略迭代/值迭代值迭代 policy evaluationpolicy improvement“greedification”Policy It
20、erationValue Iteration2022/12/8强化学习 史忠植26动态规划方法动态规划方法TTTTTTTTTTTTT2022/12/8强化学习 史忠植27自适应动态规划自适应动态规划(ADP)Idea:use the constraints(state transition probabilities)between states to speed learning.Solve=value determination.No maximization over actions because agent is passive unlike in value iteration.u
21、sing DPLarge state spacee.g.Backgammon:1050 equations in 1050 variables2022/12/8强化学习 史忠植28Value Iteration AlgorithmAN ALTERNATIVE ITERATION:(Singh,1993)(Important for model free learning)Stop Iteration when V(s)differs less than.Policy difference ratio=2/(1-)(Williams&Baird 1993b)2022/12/8强化学习 史忠植29
22、Policy Iteration Algorithm Policies converge faster than values.Why faster convergence?2022/12/8强化学习 史忠植30动态规划动态规划Dynamic Programmingl典型的动态规划模型作用有限,很多问题很难给出环境的完整模型。仿真机器人足球就是这样的问题,可以采用实时动态规划方法解决这个问题。在实时动态规划中不需要事先给出环境模型,而是在真实的环境中不断测试,得到环境模型。可以采用反传神经网络实现对状态泛化,网络的输入单元是环境的状态s,网络的输出是对该状态的评价V(s)。2022/12/8强
23、化学习 史忠植31没有模型的方法没有模型的方法Model Free MethodsModels of the environment:T:S x A (S)and R:S x A RDo we know them?Do we have to know them?lMonte Carlo MethodslAdaptive Heuristic CriticlQ Learning2022/12/8强化学习 史忠植32蒙特卡罗方法蒙特卡罗方法 Monte Carlo Methods l蒙特卡罗方法不需要一个完整的模型。而是它们对状态的整个轨道进行抽样,基于抽样点的最终结果来更新赋值函数。蒙特卡罗方法不
24、需要经验,即从与环境联机的或者模拟的交互中抽样状态、动作和奖励的序列。联机的经验是令人感兴趣的,因为它不需要环境的先验知识,却仍然可以是最优的。从模拟的经验中学习功能也很强大。它需要一个模型,但它可以是生成的而不是分析的,即一个模型可以生成轨道却不能计算明确的概率。于是,它不需要产生在动态规划中要求的所有可能转变的完整的概率分布。2022/12/8强化学习 史忠植33Monte Carlo方法方法TTTTTTTTTTTTTTTTTTTT2022/12/8强化学习 史忠植34蒙特卡罗方法蒙特卡罗方法 Monte Carlo Methods lIdea:Hold statistics about
25、rewards for each state Take the average This is the V(s)lBased only on experience lAssumes episodic tasks (Experience is divided into episodes and all episodes will terminate regardless of the actions selected.)lIncremental in episode-by-episode sense not step-by-step sense.2022/12/8强化学习 史忠植35Monte
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 强化 学习 讲课 教案
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内