(本科)P3C8决策理论规划ppt课件.pptx
《(本科)P3C8决策理论规划ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)P3C8决策理论规划ppt课件.pptx(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课程主讲人:(本科)P3C8-决策理论规划ppt课件人工智能原理人工智能原理Principles of Artificial Intelligence某某大学某某学院某某某3第8章 决策理论规划人工智能原理n 上一章的时空关联规划基于如下假设条件:确定性、完全可观测、可达性目标。n 本章将讨论在上述假设之外如何进行规划的问题,即决策理论规划(Decision-Theoretic Planning)。n 决策理论规划的应用非常广泛,例如:高端机器人控制、医药治疗、灾害救援、等等。n 因为不同的行动会有不同的结果,某些动作可能更有利,因此需要对实现目标的潜力、风险、以及成本做出决策。第8章 决策理
2、论规划引言4人工智能原理第8章 决策理论规划目录5o 决策理论规划概述o 马尔科夫模型o 马尔科夫决策过程的优化控制o 动态规划人工智能原理n 决策理论n 是一种决策的理论框架,用于衡量行动方案的优劣。n 决策理论的基础n 概率论(Game theory)用于在给定的状态下求得某个行动可能结果的概率分布、以及合理性偏好函数。n 效用论(Utility theory)采用效用函数,使得智能主体偏好的规划具有更高的预期效用最大期望效用(maximum expected utility, MEU)决策理论规划概述决策理论(Decision theory)6但是,决策理论并未涉猎如何构建具有高期望效用
3、的规划。人工智能原理n 决策理论规划 = 决策理论 + 人工智能规划n形式框架:马尔科夫决策过程(Markov decision process)n优化控制:动态规划(Dynamic programming)、线性规划(Linear programming)n 决策理论规划 不确定性环境规划(planning under uncertainty)n从环境接收的信息是不完全或不完备的n动作并非总是得到同样的结果n需要在规划的不同结果之间做出权衡n 马尔科夫决策过程 马尔科夫模型(Markov models)决策理论规划概述决策理论规划(Decision-Theoretic Planning)7杰
4、罗姆费尔德曼(Jerome Feldman)和罗伯特斯普劳尔(Robert Sproull)是最早从事决策理论规划研究的学者人工智能原理第8章 决策理论规划目录8o 决策理论规划概述o 马尔科夫模型o 马尔科夫决策过程的优化控制o 动态规划人工智能原理n 概述n一种统计模型,用于对随机变化的系统进行建模。n 性质n马尔科夫模型的下一个状态只依赖于当前的状态,而与之前发生的事件无关。马尔科夫模型马尔科夫模型(Markov models)9 完全可观测(fully observable)部分可观测(partially observable)自主(autonomous)马尔科夫过程(Markov p
5、rocess)隐马尔科夫模型(Hidden Markov model)控制(controlled)马尔科夫决策过程(Markov decision process)部分可观测马尔科夫决策过程(Partially observable Markov decision process)四种马尔科夫模型以俄罗斯数学家安德烈马尔科夫(Andrey Markov)的名字命名。人工智能原理n 定义马尔科夫模型随机过程(Stochastic process, SP)10随机过程的实例细菌种群的增长、由于热噪声或气体分子的移动而导致电流波动等。随机过程的应用生物学、化学、生态学、神经科学、物理学、以及工程和技
6、术领域,如:图像处理、信号处理、信息论、计算机科学、密码学、电信等;此外,还被广泛用于金融领域。随机过程是针对随机变化的现象而建立的系统的数学模型人工智能原理n 定义马尔科夫模型马尔科夫性质(Markov property)11 所有的马尔科夫模型都具有马尔科夫性质。n 无记忆性质(memory-less property) 采用马尔科夫模型的领域:预测建模(predicate modeling)、概率预报(probabilistic forecasting)等。人工智能原理n 回置抽样 vs 无回置抽样马尔科夫模型马尔科夫性质(Markov property)12对于一个随机过程,回置抽样(
7、sampling without replacement)具备马尔科夫性质,而无回置抽样(sampling with replacement)则不具备马尔科夫性质。例:一个坛子里有三个鸡蛋,两个红皮的,一个白皮的。昨天拿出一个,今天再拿出一个,问:明天拿出的鸡蛋的颜色? 若只知道今天拿出的鸡蛋是红皮的,而不知道昨天拿出鸡蛋的颜色时,则明天拿出的最后一个鸡蛋颜色的概率是红白各占二分之一;只有既知道昨天、又知道今天拿出的鸡蛋的颜色时,才能判断明天拿出的最后一个鸡蛋的颜色。显然,这种观察鸡蛋颜色的随机过程问题不具有马尔科夫性质。 这是一个无回置抽样的实例。人工智能原理n 回置抽样 vs 无回置抽样马
8、尔科夫模型马尔科夫性质(Markov property)13对于一个随机过程,回置抽样(sampling without replacement)具备马尔科夫性质,而无回置抽样(sampling with replacement)则不具备马尔科夫性质。例:用一个操纵杆控制一个玩具车,可操控玩具车朝前、后、左、右方向行进,记录仪可显示玩具车当前的方向。当记录仪显示玩具车处于前进方向时,操纵杆向左,问:玩具车的行进方向? 这个问题的答案不言自明。 这是一个回置抽样的实例。人工智能原理n 定义马尔科夫模型马尔科夫过程(Markov process, MP)14马尔科夫过程是具有马尔科夫性质的随机过程
9、安德烈马尔科夫早在1900年就研究了马尔科夫过程,并于1906年就此发表了论文。人工智能原理n 离散时间的马尔科夫过程马尔科夫模型马尔科夫过程(Markov process, MP)15马尔科夫过程是一类重要的随机过程,是随机模拟方法的基础,例如:机动车辆的巡航控制系统、机场旅客的队列、货币兑换率、存储系统、某些物种的增长、搜索引擎、等等。人工智能原理n 离散时间的马尔科夫过程马尔科夫模型马尔科夫过程(Markov process, MP)16v 布朗运动过程(Brownian motion process)v 一维泊松过程(Poisson process)例:赌徒破产(gamblers ru
10、in)一个赌博成瘾的赌徒,每次赌博获胜时就将下一次赌注提高到固定比例的金额,但在输掉时不会减少。即使是每次下注都有赢钱的预期,但最终该赌徒不可避免地会输得精光。n 连续时间的马尔科夫过程人工智能原理n 定义马尔科夫模型马尔科夫链(Markov chain)17 吉布斯采样(Gibbs sampling)和马尔科夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC),被用于模拟具有特定概率分布的随机对象,并且已经在贝叶斯统计中得到广泛应用。 用马尔科夫链表示某股票市场一周内的牛市、熊市或停滞的市场趋势。人工智能原理n 定义马尔科夫模型马尔科夫决策过程(Markov deci
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 P3C8 决策 理论 规划 ppt 课件
限制150内