制定复杂决策.pptx
《制定复杂决策.pptx》由会员分享,可在线阅读,更多相关《制定复杂决策.pptx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、延续式决策问题延续式决策问题 延续式决策问题:智能体的效用值取决于一个决策序列。效用函数不是由单一状态决定,取决于环境历史的一个状态序列。+1-1完全可观察环境随机行为一阶马尔可夫转移效用函数取决于状态序列0.80.10.1up,up,right,right,right 0.85=0.32768成功概率:成功概率:0.14*0.8+0.85=0.32776转移模型 T(s,a,s):在状态s完成行动a时到达状态s的概率第1页/共17页马尔可夫决策过程:使用马尔可夫链转移模型和累加回报的延续式决策过程(MDP)MDP不确定环境的延续式决策问题通过指定行动的概率结果的转移模型和指定每个状态回报的回
2、报函数来定义。初始状态S0,转移模型,回报函数。策略:MDP问题的解,即指定在智能体可能到达的任何状态下,智能体应当采取的行动。(s):策略为状态s推荐的行动。最优策略*:产生最高期望效用的策略.回报:智能体在一个状态s中得到的一个可正可负的有限值,即回报R(s)。延续式决策问题第2页/共17页延续式决策问题(例)延续式决策问题(例)最优策略:+1-1+1-1+1-1+1-1+1-1平衡风险和回报是MDP问题的关键。R(s)-1.63-0.43R(s)-0.09-0.02R(s)0第3页/共17页延续式决策问题中的最优化延续式决策问题中的最优化有限期决策:决策在有限时间内进行,决策应根据时间、
3、状态来决定,给定状态的最优行动会随时间变化,即最优决策是非稳态的。无限期决策:决策没有固定的时间期限,同一个状态没有必要在不同时间采用不同决策,其最优决策是稳态的。效用函数:Uh(s0,s1,sn)第4页/共17页延续式决策问题中的最优化(稳态)延续式决策问题中的最优化(稳态)假设智能体在状态序列之间的偏好是稳态的:若s0,s1,和s0,s1,以同样的状态起始,则两个序列的偏好次序和状态序列s1,s2,和s1,s2,的偏好次序是一致的。计算状态序列的效用值,稳态性假设下的两种方法:累加回报:状态序列的效用值是各状态回报的累加和。Uh(s0,s1,sn)=R(s0)+R(s1)+折扣回报:状态序
4、列的效用值是各状态回报的加权(折扣因子)累加和。折扣因子用于描述智能体对于当前与未来回报的偏好。第5页/共17页延续式决策问题中的最优化延续式决策问题中的最优化无限期决策,效用值的计算的三种方法:1、折扣回报:状态序列的效用值是各状态回报的加权(折扣因子)累加和。2、适当策略:确保能够达到终止状态的策略,可使用累积回报。3、平均回报:每一个时间步回报的平均数。策略的值是所得到的折扣回报的期望和。最优策略:第6页/共17页价值迭代价值迭代基本思想:计算每个状态的效用,以选出每个状态中的最优行动。选择使后续状态的期望效用最大的行动:*(s)=argmax a s T(s,a,s)*U(s)价值迭代
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 制定 复杂 决策
限制150内