马尔科夫决策过程ppt课件.pptx

上传人：飞****2

文档编号：29942838

上传时间：2022-08-02

格式：PPTX

页数：16

大小：1.48MB

( 4.5 )

《马尔科夫决策过程ppt课件.pptx》由会员分享，可在线阅读，更多相关《马尔科夫决策过程ppt课件.pptx（16页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

马尔科夫决策过程（MDP）目录强化学习简介马尔科夫决策过程值迭代和策略迭代马尔科夫模型的创建简介在强化学习中，提供了一个回报函数，用于告诉learning agent的行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖励，翻到或者向后退就给予惩罚。强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择以及工厂控制等领域。马尔科夫决策过程S0(S0(始始) ) S1S1S2S2S3S4S5S6S7S8(终)马尔科夫决策过称为整个决策过程的回报为如果回报函数只与状态有关，则回报为最优回报根据Bellman equations,可以得到下式最优策略得到最优策略在知道马尔科夫五元组的情况下，可以通过两种算法得到最优策略，即值迭代和策略迭代这里只考虑有限状态和有限动作的情况。值迭代两种更新值函数的方法首先为所有状态计算新的V(s), 全部计算完成后，再一次性的替换原先旧的V(s).（同步更新）每计算出一个V(s), 就用新的V(s)值替换旧的V(s)值。（异步更新）计算出最优值函数后，就可以根据下式计算最优策略策略迭代值迭代与策略迭代的区别创建马尔科夫模型在之前的讨论中，状态转移概率和回报函数都是已知的，然而在实际情况中，这两个变量是未知的，需要经过实验得到。未知状态转移概率情况下MDP算法

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 马尔科夫决策过程 ppt 课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：马尔科夫决策过程ppt课件.pptx
链接地址：https://www.taowenge.com/p-29942838.html