制定复杂决策(第17章)教学资料.ppt
《制定复杂决策(第17章)教学资料.ppt》由会员分享,可在线阅读,更多相关《制定复杂决策(第17章)教学资料.ppt(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、制定复杂决策(第17章)0871-503130116 十一月 20222/信 息 学 院人工智能 一种现代方法延续式决策问题延续式决策问题 延续式决策问题:智能体的效用值取决于一个延续式决策问题:智能体的效用值取决于一个决策序列。效用函数不是由单一状态决定,取决于决策序列。效用函数不是由单一状态决定,取决于环境历史的一个状态序列。环境历史的一个状态序列。+1-1完全可观察环境完全可观察环境随机行为随机行为一阶马尔可夫转移一阶马尔可夫转移效用函数取决于状态序列效用函数取决于状态序列0.80.10.1up,up,right,right,right 0.85=0.32768成功概率:成功概率:0.1
2、4*0.8+0.85=0.32776转移模型转移模型 T(s,a,s):在状态在状态s完成行动完成行动a时到达状态时到达状态s的概率的概率0871-503130116 十一月 20223/信 息 学 院人工智能 一种现代方法0871-503130116 十一月 20224/信 息 学 院人工智能 一种现代方法0871-503130116 十一月 20225/信 息 学 院人工智能 一种现代方法0871-503130116 十一月 20226/信 息 学 院人工智能 一种现代方法延续式决策问题中的最优化(稳态)延续式决策问题中的最优化(稳态)假设智能体在状态序列之间的偏好是稳态的:假设智能体在状
3、态序列之间的偏好是稳态的:若若s0,s1,和和s0,s1,以同样的状态起始,则以同样的状态起始,则两个序列的偏好次序和状态序列两个序列的偏好次序和状态序列s1,s2,和和s1,s2,的偏好次序是一致的。的偏好次序是一致的。计算状态序列的效用值,稳态性假设下的两种方法:计算状态序列的效用值,稳态性假设下的两种方法:累加回报:状态序列的效用值是各状态回报的累加和。累加回报:状态序列的效用值是各状态回报的累加和。Uh(s0,s1,sn)=R(s0)+R(s1)+折扣回报:状态序列的效用值是各状态回报的加权(折扣因子)折扣回报:状态序列的效用值是各状态回报的加权(折扣因子)累加和。折扣因子用于描述智能
4、体对于当前与未来回报的偏好。累加和。折扣因子用于描述智能体对于当前与未来回报的偏好。0871-503130116 十一月 20227/信 息 学 院人工智能 一种现代方法延续式决策问题中的最优化延续式决策问题中的最优化无限期决策,效用值的计算的三种方法无限期决策,效用值的计算的三种方法:1、折扣回报:状态序列的效用值是各状态回报的加权、折扣回报:状态序列的效用值是各状态回报的加权(折扣因子)折扣因子)累加和。累加和。2、适当策略:确保能够达到终止状态的策略,可使用累积回报。、适当策略:确保能够达到终止状态的策略,可使用累积回报。3、平均回报:每一个时间步回报的平均数。、平均回报:每一个时间步回
5、报的平均数。策略的值是所得到的折扣回报的期望和。策略的值是所得到的折扣回报的期望和。最优策略最优策略:0871-503130116 十一月 20228/信 息 学 院人工智能 一种现代方法价值迭代价值迭代基本思想:基本思想:计计算每个状算每个状态态的效用,以的效用,以选选出每个状出每个状态态中中的最的最优优行行动动。选择选择使后使后续续状状态态的期望效用最大的行的期望效用最大的行动动:*(s)=argmax a s T(s,a,s)*U(s)价值迭代算法:把每个状态的效用与其邻接状态的效用关联起来:价值迭代算法:把每个状态的效用与其邻接状态的效用关联起来:(贝尔曼方程)(贝尔曼方程)即当智能体
6、选择最优行动,状态的效用值是在该状态得到的立即即当智能体选择最优行动,状态的效用值是在该状态得到的立即回报加上在下一个状态的期望折扣效用值。回报加上在下一个状态的期望折扣效用值。状态的效用值:可能跟随它出现的所有状态序列的期状态的效用值:可能跟随它出现的所有状态序列的期望效用值。望效用值。0871-503130116 十一月 20229/信 息 学 院人工智能 一种现代方法价值迭代价值迭代 价值迭代法总是价值迭代法总是收敛收敛到贝尔曼方程组的到贝尔曼方程组的唯一唯一解上。而对应的解上。而对应的策略是最优的。策略是最优的。贝尔曼更新贝尔曼更新迭代求解:迭代求解:+1-10871-50313011
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 制定 复杂 决策 17 教学 资料
限制150内