博弈论教学课件七 不完全信息动态博弈[Ⅰ].pptx
《博弈论教学课件七 不完全信息动态博弈[Ⅰ].pptx》由会员分享,可在线阅读,更多相关《博弈论教学课件七 不完全信息动态博弈[Ⅰ].pptx(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七讲 不完全信息动态博弈()精炼贝叶斯均衡不完全信息动态博弈不完全信息动态博弈精炼贝叶斯纳什均衡基本思路在不完全信息动态博弈中,“自然”首先选择参与人的类型,参与人自己知道自己的类型,其他参与人不知道;在自然选择之后,参与人开始行动,参与人的行动有先有后,后行动者能观察到先行动者的行动,但不能观测到先行动者的类型。但是,因为参与人的行动是类型依存的,每个参与人的行动都传递着有关自己类型的某种信息,后行动者可以通过观察先行者所选择的行动来推断其类型或修正对其类型的先验信念(概率分布),然后选择自己的最优行动。先行动者预测到自己的行动将被后行动者所利用,就会设法选择传递对自己最有利的信息,避免传
2、递对自己不利的信息。因此,博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正信念的过程。精炼贝叶斯均衡是不完全信息动态博弈均衡的基本均衡概念,它是 Selten 完全信息动态博弈子博弈精炼纳什均衡和 Harsanyi 的不完全信息静态博弈贝叶斯均衡的结合。精炼贝叶斯均衡要求,给定有关其他参与人的类型的信念,参与人的策略在每个信息集开始的“后续博弈”上构成贝叶斯均衡;并且,在所有可能的情况下,参与人使用贝叶斯法则修正有关其他参与人的类型的信念。再一次考虑市场进入的例子。假定有两个时期。在业(在位者)生产,一个潜在的进入者考虑是否进入;如果进入者进入,在,两个企业进行Cournot博弈,否则
3、,在位者仍然是一个垄断者。假定在位者有两个可能的类型:高成本和低成本,进入者在博弈开始时只知道在位者是高成本的概率是,低成本的概率是1。这个概率称为进入者的先验信念(prior beliefs)。假定进入者只有一个类型:进入成本为2;如果进入的话,生产成本函数与高成本函数的在位者成本函数相同。在(或生产产量),假定只有三种可能的价格选择:。若在位者是高成本,对应三种价格选择的利润分别是:2、6或7;如果在位者是低成本,对应的利润分别是:6、9或8。因此,高成本在位者的单阶段最优垄断价格是,低成本在位者的单阶段最优垄断价格是(最优垄断价格总是边际成本的增函数,这是一个一般的结论)。在,如果进入者
4、已经进入,在位者的成本函数变成共同知识;如果在位者是高成本,两个企业的成本函数相同,对称的Cournot均衡产量下的价格为5,每个企业的利润是3,扣除进入成本2,进入者的净利润是1;如果在位者是低成本,两个企业的成本函数不同,非对称的Cournot均衡产量下的价格是4,在位者的利润是5,进入者的利润是1,扣除进入成本2,进入者的净利润是-1.如果进入者不进入,2时期在位者仍然是一个垄断者,不同价格选择下的利润水平与第一阶段相同。我们构造这些数字使得在完全信息情况下,如果在位者是高成本,进入者选择进入;如果在位者是低成本,进入者选择不进入。下图中在位者有两个单结信息集,表示在位者知道“自然”的选
5、择,即知道自己的类型;三条虚线表示进入者有三个信息集,每个信息集有两个决策结(进入或不进入,用虚线连接),表示进入者能观测到在位者的价格选择但是不能观测到在位者的成本函数。(即进入者观测到价格等于4,5或6,但是每一种价格可能是高成本在位者的选择也可能是低成本在位者的选择)。我们将第一阶段不同价格选择下的利润向量写在博弈树的终点结,尽管实际支付在进入者决定是否进入之前就已实现。注意,进入者第一阶段的利润总是零。我们省略了第二阶段博弈的扩展式,代之以Cournot均衡支付向量和垄断利润。这是因为,在博弈进入第二阶段之后,如果进入者已经进入,Cournot均衡产量和对应的价格是每个企业的最优选择;
6、如果进入者没有进入,单阶段垄断产量和价格是在位者的最优选择。1/30p=1t=2t=1,市场上有一个垄断企t=2t=1,在进入者决定进入是否进入之前,作为垄断者的在位者要决定该时期的价格p=,p=,p=6p=6p=5t=2t=第七讲 不完全信息动态博弈()精炼贝叶斯均衡N 高 低在位者P=4 进入者进不进第一阶段(2,0)(2,0)(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)(8,0)(8,0)第二阶段(3,1)(7,0)(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(5,-1)(9,0)图 1 尽管当博弈进入第二阶段后
7、,企业的行动选择是一个简单的静态博弈决策问题,但是第一阶段的选择要复杂得多。进入者是否进入依赖于它对在位者成本函数的判断:给定在位者是高成本时进入的净利润为1,低成本时进入的净利润是-1,当只当进入者认为在位者是高成本的概率大于1/2时,进入者才会选择进入。这一点与我们在上一章讨论的不完全信息静态博弈的进入决策没有什么不同。但与静态博弈不同的是,现在,在观测到在位者第一阶段的价格选择之后,进入者可以修正在位者成本函数的先验概率,因为在位者的价格选择可能包含着有关其成本函数的信息。比如说,无论在何种情况下,低成本在位者不会选择p=6(因为低成本的在位者不希望进入者认为自己是高成本),因此,如果进
8、入者观测到在位者选择了,它就可以推断在位者一定是高成本,选择进入是有利可图的。预测到选择会招致进入者进入,即使高成本的在位者也可能不会选择,尽管是单阶段的最优垄断价格。类似地,低成本在位者也可能不会选择,如果会招致进入者进入的话。这里,问题的核心是:不同的价格如何影响进入者的后验概率从而影响进入者的进入决策。一个非单阶段最优价格会减少现期利润,但如果它能阻止进入者进入,从而使在位者在第二阶段得到垄断利润而不是Cournot均衡利润,如果垄断利润与Cournot均衡利润之间的差距足够大,如果在位者有足够的耐心,选择一个非单阶段最优价格可能是最优的。我们将看到,在均衡情况下,在位者究竟选择什么价格
9、,不仅与其成本函数相关,而且与进入者的先验概率 有关;无论 为多少,单阶段最优垄断价格不构成一个均衡。为了分析上述动态博弈的均衡结果,仅仅使用上一讲定义的贝叶斯纳什均衡是不够的。这是因为,在静态贝叶斯均衡中,参与人的信念是事前给定的,均衡概念没有规定参与人如何修正自己的信念。但是,如果进入者可以任意修正自己有关在位者成本函数的信念,上述不完全信息动态博弈可以有任意的贝叶斯均衡。比如说,假定,下列策略组合是一个贝叶斯均衡:不论在位者选择什么价格,进入者总是认为在位者是高成本的概率为,总是选择不进入;高成本的在位者选择,低成本的在位者选择。这个策略组合是一个贝叶斯均衡。因为,给定信念和在位者的策略
10、,进入者选择不进入是最优的;给定进入者总是选择不进入,在位者选择单阶段垄断价格是最优的(第一阶段的选择对第二阶段的结果没有影响)。但显然,这个均衡是不合理的,因为它包含一个不可信的威胁:进入者不会修正对在位者成2/302P=6 不进P=5 进P=4 进 进不进 进 不进P=6 不进不进1-在位者P=5 进入者进p=6p=6p=6p=6p=5p=5=1/21/2p=6p=51/2第七讲 不完全信息动态博弈()精炼贝叶斯均衡本函数的信念。给定不可能是低成本在位者的最优选择,如果在位者选择了,进入者为什么仍然认为在位者是高成本的概率小于1/2呢?在第三讲,我们引入了子博弈精炼纳什均衡概念删除掉那些包
11、含不可置信威胁策略的纳什均衡。但在如上图所示的不完全信息动态博弈中,子博弈精炼纳什均衡并不能给我们直接帮助,因为不完全信息博弈只有一个子博弈(没有真子博弈),即从初始结开始的整个博弈,因此,所有的均衡都是 SPNE。在上图中,进入者的每一个信息集都包含两个决策结,除非进入者知道自己处于每个决策结上的概率,否则,他不可能做出决策。不过,尽管 SPNE 不能直接应用于上述博弈,但 SPNE 概念的逻辑是适用的。精炼纳什3均衡要求均衡策略不仅在整个博弈上构成纳什均衡,而且要求在每个子博弈上构成纳什均衡。仿照这一逻辑,如果我们将每一个信息集开始的博弈的剩余部分称为一个“后续博弈”(continuati
12、on game)(不同于子博弈,因为子博弈必须开始于单结信息集,并且不能切割信息集),一个合理的均衡应该满足如下要求:给定每一个参与人有关其他参与人类型的后验信念,参与人的策略组合在每个后续博弈上构成贝叶斯均衡。但要求策略组合在每一个后续博弈上构成贝叶斯均衡仍然没有剔除“总是认为在位者是高成本的概率为”这样的不合理行为。剔除这种不合理行为的方式是,假定参与人(在所有可能的情况下)根据修正先验信念;并且每个参与人都假定其他参与人选择的是均衡策略。精炼贝叶斯均衡(perfect Bayesian equilibrium,PBE)是贝叶斯均衡、SPNE 和贝叶斯推断的结合。它要求:在每一个信息集上,
13、决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念);给定和是从给定信息集开始的后续博弈上的完备的行动规则),参与人的行动必须是最优的;每一个参与人根据和均衡策略修正后验概率贝叶斯法则理解贝叶斯法则对理解精炼贝叶斯均衡的概念是至关重要的。在给出精炼贝叶斯均衡的正式定义之前,我们先来解释一下贝叶斯法则。在日常生活中,当面临不确定性时,在任何时点上,我们对某件事情发生的可能性有一个判断。然后,我们会根据新的信息来修正这个判断。统计学上,修正之前的判断称为“先验概率”(prior probability),修正之后的判断称为“后验概率”(posterior probability)
14、。贝叶斯法则正是人们根据新的信息从先验概率得到后验概率的基本方法。让我们以不完全信息博弈为例说明贝叶斯法则。如通常一样,我们假定参与人的类型是独立分布的。假定参与人i 有K 个可能的类型,有H 个可能的行动。我们用 和a 分别代表一个特定的类型和一个特定的行动(我们只考虑一个参与人,因此省略下标)。假定i 属于类型为,Proba=(ak=1即参与人i 选择行动a 的“总”概率是每一种类型的平均,权数是他属于每种类型的先验概率。我们现在要问的问题是:假如我们观测到了i 选择了a,属于类型多少?用代表这个后验概率,即给定3/30 的条件概率k h=1;给定i 属于,i 选择akh()=1。那么,i
15、 选择a 的边缘概率是:Kk=1hkhhKKki 的概率。根据概a()+,.,+(a)()()hk()0,)(h11hka(ah)a)a 的情况下 属于类型k kk=(a)Ki 选择 的条件概率的加权ki 的后验概率是k hp=6p=6prob(a)=相容。在动态博弈中,对应的是非均衡路径上的信息集。为了让同学们熟悉贝叶斯法则,我们举一个生活中的例子。如果我们把男生划分为人品好(G)和人品坏(B)两类,事件划分为“撒谎”(L)和“不撒谎”(H)两类,那么,一个男生撒谎的“全”概率等于他是好人品的概率乘以好人品的人撒谎的概率(LG),加上他是坏人品的概率乘以坏人品的人撒谎的概率:prob(L)=
16、(LG)(G)+(LB)(B)假定你(中心的女生)观测到了一个男生没有对你撒谎(假定你可以事后验证他是否撒了谎),那么,这个男生人品好的后验概率为:prob(GH)=为了更具体一点,假定你认为这个男生人品好的先验概率为,那么,在观测到他有一件事上没有对你撒谎(即对你诚实)之后,你如何修正他人品好的先验概率依赖于你认为在这件特定的事件上人品好(或坏)的男生不撒谎的概率。我们可以考虑三种情况。如果你认为在这件事上人品好的男生一定不会对你撒谎,而人品坏的一定会对你撒谎,即。那么,prob(GH)=122也就是说,尽管你原来认为这个男生人品好的可能性是,但是在观测到他对你诚实之后,你就会得出结论:这是
17、个人品好的男生。第二种情况是,你认为这件事很平常(不涉及利害关系),就算是人品坏的男生也会诚实,即。那么,prob(GH)=22即你对他的看法不会改变。第三种情况介于上述两种情况之间:你认为在这件事上人品好的男生一定会对你诚实(),而人品坏的男生可能撒谎也可能对你诚实,概率各为,那么,4/30)prob(a)k hhprob(aki 的后验概率。)()()a 情况下 属于hk khkh khhk(aprob(a)()()1区间取任何值,只要所取的值与均衡策略(aiakhjjk h1k 类型的参与人 的条件概率。或者等于 选择 的总概率乘以给定hprob(ahprob(a)012)i 属于 的先
18、验概率乘以ha)hK0,即参与人i 必须以正的概率选择a,否则,后验概率没有定义。如果0,我们允许在h1211211hk hk kak(ahhprob(a)=0(G)(B)(LB)(HG)(G)prob(H)1/2(HG)=1;(HB)=011+1/2(HG)=1;(HB)=1111+(HG)=1;(LG)=01/2第七讲 不完全信息动态博弈()精炼贝叶斯均衡prob(GH)=222即你认为他人品好的可能性增加了,但他仍有的可能性是人品不好的男生。如果你在与这位男生的继续交往中发现他又一次地在某件事上对你诚实,那么,prob(G=【注意,这时】323也就是说,你对他的印象比以往更好了。如果在与
19、他之后的交往中你发现他从不对你撒谎,那么你最后一定会认为他是个绝对的好男生。如果你认为,那么无论这个男生对你多少次保持诚实,他都无法改变你对他的印象。假如你观测到了一个男生对你撒了谎,你将如何改变对他的看法呢?如果你相信,人品好的男生绝不会撒谎,只有坏人品的才会撒谎,那么你就可以肯定,他绝对不可能是人品好的男生:prob(GL)=这里,是坏人品男生撒谎的概率。或者说,他肯定人品坏:prob(BL)=“穆念慈的困惑”如果你原来认为某个男生一定是人品好的(),却忽然发现他对你撒了次谎。这时由于:prob(L)=(LG)(G)+(LB)(B)=01+p0=0,贝叶斯法则由于分母为0而不能应用,不过你
20、在这时可以认为(规定)他就是人品差的,即。但是,只要,那么贝叶斯法则就可以适用了,这时。从上述例子中可以看到,我们如何改变对一个人的看法不仅依赖于我们认为他是好人品或坏人品的先验概率,而且依赖于我们如何认为“好人品”的人保持诚实和坏人品的人撒谎的条件概率。这一点对于理解精炼贝叶斯均衡概念是非常重要的。我们当然不能任意的“认为”。特别地,在精炼贝叶斯均衡中,参与人的“认为”必须是正确的,也就是说,当我们认为人品坏的人撒谎的概率为时,在给定信息情况下(包括该人知道我们如何修正对他的看法),如果这个人确实是坏人品的,那么是他的最优选择,或者说(LB)就是均衡策略。精炼贝叶斯均衡定义:精炼贝叶斯均衡由
21、一个策略组合定义:精炼贝叶斯均衡由一个策略组合s()=(s(),.,s()和一个后验概率组合p=(p,.,p(P P)对于所有的参与人)对于所有的参与人i,在每个信息集h上,s()是下述最优化问题的解:Max(B B)p(运用贝叶斯法则(在可能的情况下)得到的。Notes:条件(P)是精炼条件(Perfectness Condition)。精炼条件表明,给定其他参与人的策略组合5/30i=,2,.,ni=);,)(G)ii233(s(),s(hiii=iii和参与者i 的后验概率p(a),每个参与人i 的策5=1aua以及最优策略sn11=012ihiihiiii,.,s)42+12p1p()
22、是基于先验概率p()通过所观察到的i1 i+1323211=Sihi i(s,.,ss1211111=22)122)构成,满足下列两个条件:i iai1121+1/3H)5(G)=0(LG)(G)0(LG)(G)+(LB)(B)0+pp 0(LB)(B(LB)(B)+(LG)(G)0+pprob(G)=;prob(B)=0(GL)=0(G)=10(G L)=0(LB)(LB)1n1nsis=第七讲 不完全信息动态博弈()精炼贝叶斯均衡略在每个信息集h 开始的后续博弈上都是最优的。精炼条件指出所有参与人都是序贯理开始的后续博弈上都是最优的。精炼条件指出所有参与人都是序贯理性的(Sequentia
23、l Rationality)。显然,这个条件是 SPNE 在不完全信息动态博弈上的扩展。在完全信息动态博弈中,SPNE 要求均衡策略在每一个子博弈上都构成纳什均衡;类似地,在不完全信息动态博弈中,精炼贝叶斯均衡要求均衡策略在每一个后续博弈上都构成贝叶斯均衡。条件(B)是贝叶斯法则的运用。值得注意的是,策略是一组行动的计划安排。它是不可观察的,而行动组合是最优策略 下的行动组合,这时信息集 处在均衡路径之上,这就是条件(处在均衡路径之上,这就是条件()中指出的“在可能的情况下”,这时运用贝叶斯法则,可以计算出后验概率。如果不是最优策略 下的行动组合,这时,信息集信息集h 处在非均衡路径之上),这
24、就表明均衡依博弈进程进行时肯定不会达到信息集h,因 此 就 有(a)=0,。根 据 贝 叶 斯 法 则,p种情况就不属于条件(B)中指出的“在可能的情况下”。上述定义的要点是,精炼贝叶斯均衡是均衡策略和均衡信念的结合:给定信念p=(p,.,p),策 略s(观测到的行动得到的。因此精炼贝叶斯均衡是一个对应的不动点(fixed point of correspondence):;。因为精炼贝叶斯法则是一个不动点,后验概率依赖于策略,策略依赖于后验概率,因此,完全信息博弈中用逆向归纳法求解精炼均衡的办法在不完全信息博弈中并不适用(如果我们不知道先行动者如何选择,我们就不可能知道后行动者应该如何选择)
25、。我们必须使用前向法(forward manner)进行贝叶斯修正。精炼贝叶斯均衡的等价定义 定义:定义:一个精炼贝叶斯均衡由满足以下条件一个精炼贝叶斯均衡由满足以下条件1 R R 的均衡策略组合的均衡策略组合s(条件条件有一个信念。对于非单结信息集,信念是信息集中各个结上的概率分布;对于单结信息集,信念是到达此单一决策结的概率为 1。条件:对于给定信息集上的推断和其他参与人的后续策略动计划),参与人的策略条件:博弈按照均衡策略进行时,如果以正的概率到达信息集,则称此信息集处于均衡路径之上。处于均衡路径之上的信息集的推断(后验概率 及贝叶斯法则确定。条件:博弈按照均衡策略进行时,如果肯定不会到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈论教学课件七 不完全信息动态博弈 博弈论 教学 课件 不完全 信息 动态 博弈
限制150内