第4章 完全信息动态博弈PPT讲稿.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第4章 完全信息动态博弈PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第4章 完全信息动态博弈PPT讲稿.ppt(96页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第4章 完全信息动态博弈第1页,共96页,编辑于2022年,星期二第一节第一节 完美信息与完全但不完美信息完美信息与完全但不完美信息完全信息动态博弈可以分为两类,即完美信息与完全但不完美信息。所谓的完美信息博弈,是指博弈中的后行动者始终能够观察到前行动者的行动,因而动态博弈中不存在参与者同时行动这样的情况。而完全但不完美信息博弈,则指动态博弈中,至少存在两个参与者同时行动的情况,因而“后行动者”无法观察到“前行动者”的行动。我们不妨用两个例子来加以说明。第2页,共96页,编辑于2022年,星期二例4.1 动态囚徒困境 招供沉默囚徒1囚徒2囚徒2招供沉默 招供沉默图4-1 动态囚徒困境第3页,共
2、96页,编辑于2022年,星期二 例4.2 取消管制 维持取消进退进退1图4-3 取消管制政府2退进第4页,共96页,编辑于2022年,星期二定义定义4.1 完美信息动态博弈完美信息动态博弈就是不存在同时行动的完全信息动态博弈。显然,运用策略式来描述动态博弈会非常不便,特别是当信息不完全时更是如此,为了更简便地描述动态博弈,我们将引入一种新的博弈表达式扩展式。第5页,共96页,编辑于2022年,星期二第二节第二节 动态博弈的扩展式动态博弈的扩展式第6页,共96页,编辑于2022年,星期二第7页,共96页,编辑于2022年,星期二第8页,共96页,编辑于2022年,星期二现在我们将例现在我们将例
3、4.1和例和例4.2的扩展式表达如下:的扩展式表达如下:第9页,共96页,编辑于2022年,星期二第10页,共96页,编辑于2022年,星期二第11页,共96页,编辑于2022年,星期二第12页,共96页,编辑于2022年,星期二第13页,共96页,编辑于2022年,星期二第14页,共96页,编辑于2022年,星期二第三节第三节 策略和结果策略和结果 策略是策略是“万全之策万全之策”,而不再是单纯的行动,如何理解这句,而不再是单纯的行动,如何理解这句话呢?话呢?1、动态囚徒困境中囚徒、动态囚徒困境中囚徒2的策略的策略 表表4-1 囚徒囚徒2的四个策略的四个策略假如囚徒1选择招供假如囚徒1选择沉
4、默策略1选择招供选择招供策略2选择招供选择沉默策略3选择沉默选择招供策略4选择沉默选择沉默第15页,共96页,编辑于2022年,星期二2、蜈蚣博弈中参与者、蜈蚣博弈中参与者1的策略的策略关键是理解关键是理解DL,DR也是策略。也是策略。所以说,策略是一个所以说,策略是一个“万全之策万全之策”。定义定义4.3 对于博弈,参与者对于博弈,参与者P(h)的一个策略的一个策略sP(h)(h)就是就是一个函数,它将每一个可能的历史一个函数,它将每一个可能的历史h映射成行动空间映射成行动空间AP(h)(h)中的一个行动中的一个行动ap(h)。上述策略的定义实际上就是指当历史进行到某个阶段时,上述策略的定义
5、实际上就是指当历史进行到某个阶段时,当轮到参与者当轮到参与者i行动时,规定了他如何行动。例如,在蜈行动时,规定了他如何行动。例如,在蜈蚣博弈中,对于参与者蚣博弈中,对于参与者1而言,一个策略就是当历史为而言,一个策略就是当历史为空历史时,规定了参与者空历史时,规定了参与者1如何行动,当历史为如何行动,当历史为(C,C)时,规定了参与者时,规定了参与者1又如何行动,又如何行动,第16页,共96页,编辑于2022年,星期二因而因而DL和和DR就是参与者就是参与者1的策略,至于历史的策略,至于历史(C,C)会不会发生那是另外一个问题,策略会不会发生那是另外一个问题,策略所要求的就是一旦出现了某个历史
6、我应该如所要求的就是一旦出现了某个历史我应该如何做,而不能出现不知所措的情况。何做,而不能出现不知所措的情况。通过上面的说明我们看到,有什么样的策略通过上面的说明我们看到,有什么样的策略组合就会有什么样的历史,但历史并不等于组合就会有什么样的历史,但历史并不等于策略。为此,我们引入结果函数,即对于任策略。为此,我们引入结果函数,即对于任意意 ,存在某个,使得,存在某个,使得O(s)=h。参与。参与者的收益函数者的收益函数u就是定义在结果上的函数。就是定义在结果上的函数。第17页,共96页,编辑于2022年,星期二例如,在蜈蚣博弈中,可知参与者例如,在蜈蚣博弈中,可知参与者1有四个策略有四个策略
7、CL、CR、DL和和DR,参与,参与者者2有两个策略有两个策略C和和D,因而策略组合有,因而策略组合有8个,其相应的结果函数为个,其相应的结果函数为 O(CL,C)=(CCL)u1(O(CL,C)=1和和u2(O(CL,C)=2;O(CR,C)=(CCR)u1(O(CR,C)=0和和u2(O(CR,C)=0;O(Cx,D)=(CD)u1(O(Cx,D)=3和和u2(O(Cx,D)=1;O(Dx,x)=(D)u1(O(Dx,x)=2和和u2(O(Dx,x)=0。其中其中x代表任意行动。上面的结果函数给了我们两点启示:一是,代表任意行动。上面的结果函数给了我们两点启示:一是,要得到全历史实际上只需
8、行动计划就可以了,不一定需要去考察要得到全历史实际上只需行动计划就可以了,不一定需要去考察所谓的所谓的“完全之策完全之策”,例如,例如,O(D,x)=D=O(Dx,x)是一样的,这是一样的,这样做的好处是能够简化分析,但在观念上,我们必须牢记策略是样做的好处是能够简化分析,但在观念上,我们必须牢记策略是“万全之策万全之策”。二是,图。二是,图4-5的蜈蚣博弈实际上与图的蜈蚣博弈实际上与图4-6中的博弈中的博弈完全等价,这就更为直观地指出了策略完全等价,这就更为直观地指出了策略DL和和DR的性质。实际上,的性质。实际上,汤普森汤普森(Thompson,1952)论证了对于任意两个等价的扩展式博弈
9、,论证了对于任意两个等价的扩展式博弈,至少存在至少存在4种转换方式,通过转换,可以把复杂的扩展式博弈变成种转换方式,通过转换,可以把复杂的扩展式博弈变成最简单的形式去分析。最简单的形式去分析。第18页,共96页,编辑于2022年,星期二CD12(2,0)CD(3,1)图4-6 与蜈蚣博弈等价的博弈(1,2)(0,0)1LRDLRC(2,0)(2,0)第19页,共96页,编辑于2022年,星期二3、紧跟领导者(、紧跟领导者(follow leader)博弈的策略)博弈的策略第20页,共96页,编辑于2022年,星期二第21页,共96页,编辑于2022年,星期二第22页,共96页,编辑于2022年
10、,星期二第23页,共96页,编辑于2022年,星期二第四节第四节 纳什均衡与子博弈完美均衡纳什均衡与子博弈完美均衡一、纳什均衡一、纳什均衡纳什均衡概念的核心就在于,每一个参与纳什均衡概念的核心就在于,每一个参与者的策略都是给定其他参与者策略下的最者的策略都是给定其他参与者策略下的最优反应,并且对任意参与者成立。即便博优反应,并且对任意参与者成立。即便博弈是动态的,这一点也不会改变。那么,弈是动态的,这一点也不会改变。那么,将静态博弈中的纳什均衡概念运用到动态将静态博弈中的纳什均衡概念运用到动态博弈中应该是一个不错的思路,尽管这样博弈中应该是一个不错的思路,尽管这样做可能存在问题。做可能存在问题
11、。第24页,共96页,编辑于2022年,星期二二、承诺与威胁二、承诺与威胁动态博弈中会出现先行动,后行动的问题。动态博弈中会出现先行动,后行动的问题。承诺和威胁是否可信,是动态博弈中先行动的参与人是否该相信后行承诺和威胁是否可信,是动态博弈中先行动的参与人是否该相信后行动的参与人选择某个行动的判断的问题。后行动的参与人所选择的行动的参与人选择某个行动的判断的问题。后行动的参与人所选择的行动对先行动参与人有利的,那么,后行动参与人的这一选择对先行动动对先行动参与人有利的,那么,后行动参与人的这一选择对先行动参与人来说是一种承诺,相反,如果不利,那么,后行动参与人的这参与人来说是一种承诺,相反,如
12、果不利,那么,后行动参与人的这一选择对先行动参与人来说是一种威胁。一选择对先行动参与人来说是一种威胁。定义:一个威胁或承诺,如果发出这一信息的人执行它比不执行它定义:一个威胁或承诺,如果发出这一信息的人执行它比不执行它花费更多的成本,则称为不可置信的威胁或承诺。花费更多的成本,则称为不可置信的威胁或承诺。第25页,共96页,编辑于2022年,星期二12(2,1)(4,2)(5,2)(3,3)LRc1d1c2d2图4-7 完美动态博弈第26页,共96页,编辑于2022年,星期二参与者 2c1c2c1d2d1c2d1d2参与者1L2,12,14,24,2R5,23,35,23,3第27页,共96页
13、,编辑于2022年,星期二c1c2等表示一个向量,每个向量的第一个行动表示参与人等表示一个向量,每个向量的第一个行动表示参与人1选择选择L时,参时,参与人与人2选择的行动,第二个行动表示参与人选择的行动,第二个行动表示参与人1选择选择R时,参与人时,参与人2选择的行选择的行动。比如说:动。比如说:c1c2表示,当参与人表示,当参与人1选择选择L时,参与人时,参与人2选择选择c1,而,而当参与人当参与人1选择选择R时,参与人时,参与人2选择选择c2。根据纳什均衡的定义,易知该动态博弈存在两个纳什均衡:根据纳什均衡的定义,易知该动态博弈存在两个纳什均衡:(R,c1d2)和和(L,d1d2),分别对
14、应着扩展式的(,分别对应着扩展式的(R,d2)和()和(L,d1)。对于均衡)。对于均衡(R,c1d2),这个纳什均衡含有不合理的因素,在现实中根本不会,这个纳什均衡含有不合理的因素,在现实中根本不会出现,原因就在于参与者出现,原因就在于参与者2在历史在历史(L)“威胁威胁”出出c1是不可置信的,是不可置信的,因为出因为出d1要比出要比出c1优优(21)。之所以出现这种情况,是由于当参与者。之所以出现这种情况,是由于当参与者1的的策略为策略为R时,历史进行到时,历史进行到L的可能性为零,因此参与者的可能性为零,因此参与者2在历史在历史L下无论下无论采取什么行动都不会对他的最终收益造成影响。这意
15、味着,纳什均衡采取什么行动都不会对他的最终收益造成影响。这意味着,纳什均衡这个概念对参与者这个概念对参与者2在不可能发生的历史在不可能发生的历史L下如何选择并未做出规定,下如何选择并未做出规定,参与者参与者2就有可能乱选(像一个非理性的人一样),而纳什均衡本就有可能乱选(像一个非理性的人一样),而纳什均衡本身假设参与者是理性的,这就造成参与者身假设参与者是理性的,这就造成参与者2的策略是动态不一致的的策略是动态不一致的。一个动态不一致的策略肯定不会是一个最优的策略。一个动态不一致的策略肯定不会是一个最优的策略。第28页,共96页,编辑于2022年,星期二我们也可以这样来理解参与者我们也可以这样
16、来理解参与者2的行动,参与者的行动,参与者2之所以威胁当参与者之所以威胁当参与者1出出L时,他要选择时,他要选择c1,目的在于通过威胁使参与者,目的在于通过威胁使参与者1选择有利于参与者选择有利于参与者2的的R,因为在参与者,因为在参与者1选择选择R下,参与者下,参与者2通过选择通过选择d2,能得到,能得到3的报酬,的报酬,明显好于当参与者明显好于当参与者1选选L,参与者,参与者2选选d1时的收益时的收益2。但我们要问的是,。但我们要问的是,如果参与者如果参与者1不顾参与者不顾参与者2的威胁而选择了的威胁而选择了L,参与者,参与者2可能会出可能会出c1吗?在吗?在参与者参与者2为理性是公共信息
17、的条件下,参与者为理性是公共信息的条件下,参与者2选择选择c1的报酬为的报酬为1,而选择,而选择d1的报酬为的报酬为2。由于。由于d1要优于要优于c1,因而参与者,因而参与者1没有理由相信参与者没有理由相信参与者2会实会实施他的威胁,也就是说,参与者施他的威胁,也就是说,参与者2的策略的策略c1d2是一个不可置信的威胁。如是一个不可置信的威胁。如果威胁成真,果威胁成真,c1d2就是一个动态不一致的策略,因为参与者就是一个动态不一致的策略,因为参与者2事前事前是理性的,但在博弈进行到是理性的,但在博弈进行到(L)时,他却成了一个非理性的人(选择时,他却成了一个非理性的人(选择了了c1,而不是,而
18、不是d1)。出现上述问题的原因,在于一个纳什均衡只要)。出现上述问题的原因,在于一个纳什均衡只要求在博弈的总体上,参与者的策略须为均衡,而对博弈进行到某个求在博弈的总体上,参与者的策略须为均衡,而对博弈进行到某个部分时是否仍为均衡没有要求,这就可能导致总体和局部的冲突,部分时是否仍为均衡没有要求,这就可能导致总体和局部的冲突,产生不合理的结果。产生不合理的结果。第29页,共96页,编辑于2022年,星期二12(0,40)(0,200)(-80,-40)(80,80)OELHLH例例1:市场进入博弈的威胁:市场进入博弈的威胁参与人参与人1表示进入者,可选择行动进入表示进入者,可选择行动进入E和不
19、进入和不进入O,参与人,参与人2位位在位者,可选择行动低价在位者,可选择行动低价L和高价和高价H。在位者威胁说,如果进入者。在位者威胁说,如果进入者进入,他将选择低价。试问这一威胁是否可信?回答是否定的,进入,他将选择低价。试问这一威胁是否可信?回答是否定的,因为当进入者已经进入,在位者选择低价的支付为因为当进入者已经进入,在位者选择低价的支付为-40,而选择,而选择高价的支付是高价的支付是80,后者大于前者。,后者大于前者。第30页,共96页,编辑于2022年,星期二例例2:质量选择博弈:质量选择博弈12(1,0)(2,-0.5)(0,0)(1.5,2)低高不买买不买买参与人参与人2宣布,如
20、果参与人宣布,如果参与人1提供低质量,他就不买,这是一种提供低质量,他就不买,这是一种威胁;如果参与人提供高质量,他就买,这是一种承诺。这些威胁;如果参与人提供高质量,他就买,这是一种承诺。这些威胁和承诺是可信的。但是,如果他宣布,不管参与人威胁和承诺是可信的。但是,如果他宣布,不管参与人1提供提供什么质量,他都买,那么这种承诺是不可信的。什么质量,他都买,那么这种承诺是不可信的。第31页,共96页,编辑于2022年,星期二例例3:借贷博弈:借贷博弈12(10,20)(-5,35)(0,0)借不借还不试分析参与人试分析参与人1借给参与人借给参与人2的钱这个承诺可信吗?如不可信,如何使他的的钱这
21、个承诺可信吗?如不可信,如何使他的行动可信。行动可信。第32页,共96页,编辑于2022年,星期二要消除动态博弈中的不可置信威胁,就需要消除动态博弈中的不可置信威胁,就需一个比纳什均衡更强的均衡概念。它不仅一个比纳什均衡更强的均衡概念。它不仅在整个博弈中是均衡的,而且在局部也是在整个博弈中是均衡的,而且在局部也是均衡的;不但在现在是均衡的,在将来也均衡的;不但在现在是均衡的,在将来也应是均衡的。只有满足这个要求,博弈的应是均衡的。只有满足这个要求,博弈的参与者才能实现策略的动态一致性,这就参与者才能实现策略的动态一致性,这就导致了子博弈完美均衡概念的产生。导致了子博弈完美均衡概念的产生。第33
22、页,共96页,编辑于2022年,星期二第34页,共96页,编辑于2022年,星期二图图4-9所示博弈存在所示博弈存在5个子博弈:个子博弈:(DE),(DF),(D),(C)和原博弈和原博弈(N,H,P,u)。图图4-10则给出了不是子博弈的情况。在图则给出了不是子博弈的情况。在图4-10中,中,虚线围起来的部分不是子博弈因为它不构成一个完虚线围起来的部分不是子博弈因为它不构成一个完整的扩展式博弈。整的扩展式博弈。D1CEF21图4-9 存在着5个子博弈第35页,共96页,编辑于2022年,星期二D1C21图4-10 不是子博弈的例子不是子博弈不 是 子博弈第36页,共96页,编辑于2022年,
23、星期二定义:如果在一个完美信息的动态博弈中,各博弈方的策略构成的一定义:如果在一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为动态博弈的一个衡,那么这个策略组合称为动态博弈的一个“子博弈完美纳什均衡子博弈完美纳什均衡”。寻找子博弈完美均衡的基本方法是逆向归纳法。寻找子博弈完美均衡的基本方法是逆向归纳法。第37页,共96页,编辑于2022年,星期二定义定义4.8 逆向归纳法一般程序:逆向归纳法一般程序:第一步,从扩展式博弈的终点开始,以找到该博弈的每一个
24、最后子博第一步,从扩展式博弈的终点开始,以找到该博弈的每一个最后子博弈(它不再包含任何其他更小的子博弈),然后求出纳什均衡,并计弈(它不再包含任何其他更小的子博弈),然后求出纳什均衡,并计算出相应的收益。算出相应的收益。第二步,将每一个最后子博弈的起点变成结束点,将计算出的每一第二步,将每一个最后子博弈的起点变成结束点,将计算出的每一个最后子博弈在纳什均衡下的收益写在其下方,我们就获得了一个个最后子博弈在纳什均衡下的收益写在其下方,我们就获得了一个新的扩展式博弈(或新的博弈树),称为压缩的扩展式博弈。这样新的扩展式博弈(或新的博弈树),称为压缩的扩展式博弈。这样经过一次压缩,就剔除了最后子博弈
25、。经过一次压缩,就剔除了最后子博弈。第三步,重复第一步和第二步,并重新得到一个压缩式博弈和相应的纳第三步,重复第一步和第二步,并重新得到一个压缩式博弈和相应的纳什均衡。这个过程一直进行到最后只剩下唯一一个子博弈为止,这时在什均衡。这个过程一直进行到最后只剩下唯一一个子博弈为止,这时在逆推过程中找到的一系列子博弈的纳什均衡组合就是该扩展式博弈的一逆推过程中找到的一系列子博弈的纳什均衡组合就是该扩展式博弈的一个完美均衡。个完美均衡。第四步,如果在逆推过程中没有遇到多重均衡,那么这个策略第四步,如果在逆推过程中没有遇到多重均衡,那么这个策略组合就是唯一的完美均衡;如果遇到了多重均衡,就需要对子组合就
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第4章 完全信息动态博弈PPT讲稿 完全 信息 动态 博弈 PPT 讲稿
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内