《博弈论第五讲.ppt》由会员分享,可在线阅读,更多相关《博弈论第五讲.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、作者:朱怀念经贸学院经贸学院经贸学院School of Economics & commerce第五章 不完全信息动态博弈- 精练贝叶斯纳什均衡n一 精练贝叶斯纳什均衡基本思路贝叶斯法则精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡n二 信号传递博弈及其应用举例n三 博弈论概念简要总结不完全信息动态博弈引例引例:古玩市场的讨价还价问题特征: (1)买卖双方对对方的得益(类型)都不完全清楚,信息是不完全的; (2)双方常常都要从“漫天要价,着地还价”开始,慢慢地进行讨价还价,通过讨价还价过程不断获得更多关于对方估价和成交得益的信息,修正自己的决策以争取更大的利益,也就是说该过程是多阶段的,因此
2、是动态的。对这样类型的动态博弈,以前的博弈均衡概念是否还适用?如果不适合,应如何重新定义新的均衡解、又如何求解?成语故事:黔驴技穷n毛驴刚到贵州时,老虎见它是个庞然大物,不知有多大本事,感到很“神奇”。给定这个“信念”,老虎躲在树林偷偷地瞧毛驴就是一种最优选择。过了一阵子,老虎走出树林,逐渐接近毛驴,想获得有关这个庞然大物的真实本领的信息。有一天,毛驴突然大叫一声,老虎吓了一跳,急忙逃走,这也是最优选择,因为毛驴的叫声是老虎意料之外的。又过了一些天,老虎又来观看,发现毛驴并没有什么特别的本领,对毛驴的叫声也习以为常了,但老虎仍不敢下手,因为它对毛驴的真实本领还没有完全了解。再后来,老虎对毛驴挨
3、得更近,往毛驴身上挤碰,故意冒犯它。毛驴在忍无可忍的情况下,就用蹄子去踢老虎。这一踢向老虎传递的信息是“毛驴不过这点本事而已”,所以老虎反倒高兴了。到这时,老虎对毛驴已有了完全的了解,所以就扑过去把它吃了。n在这个例子中,老虎通过不断试探来修正对毛驴的看法,每一步行动都是给定它的信念下最优的,毛驴也是如此。最终老虎将毛驴吃掉。不完全信息的表现之一n不完全信息是指博弈参与人有多种类型,参与人自己知道,其他参与人不知道。参与人类型是由其支付函数的结构来区分的。不同类型的参与人有不同的支付函数。因此,其他参与人哪怕知道他的行动但也不能确切知道他的收益。 但是,其他参与人也不是一无所知!他知道有多少种
4、类型,以及他分别属于这些类型的先验概率。同时由于参与人是类型依存型的,每个参与人的行参与人是类型依存型的,每个参与人的行动都传递有关自己类型的信息动都传递有关自己类型的信息,后行动者可以通过观察先行动者的行动来推断自己的最优行动。先行动者预测到自己的行动被后行动者利用,就会设法传递对自己最有利的信息。不完全信息动态博弈n“自然”首先行动,选择参与人的类型,参与人自己知道,其他参与人不知道。-不完全信息n在“自然”选择之后,参与人开始行动,参与人的行动有先有后,后行动者能观测到先行动者的行动,但不能观测到其类型。-动态博弈 n博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正信念的过程。n
5、那么,如何定义这种“新均衡”呢?又如何求这种“新均衡”?不完全信息动态博弈n新均衡是:精练贝叶斯均衡。n精练贝叶斯均衡:是泽尔腾完全信息动态博弈子博弈精练纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡、以及条件概率推断法则(即贝叶斯法则)的结合。n这既点出了“新均衡”的定义思路又给出了求解“新均衡”的方法论条件概率推断的贝叶斯法则。在不完全信息动态博弈中,由于信息不完全,故子博弈的概念不能精确细致地描述动态博弈中的各个阶段,从而就不能剔除那些包含不可置信威胁的Nash均衡。但是其推理逻辑可用,即“新均衡”不仅在整个博弈上构成Bayes均衡,而且从每一个信息集开始的“后续博弈”上也构成Bayes均
6、衡。但还不能剔除“总是认为先验概率不变”这样的不合理行为。而实际上,参与人都是依据他们的观测信息对自己的先验概率进行修正的-这需要用精练Bayes均衡。给定别人的战略,自己的战略是最优的,即没人愿独自偏离不仅是整个博弈的Nash均衡,而且是每个子博弈的Nash均衡不完全信息静态博弈动态不完美信息博弈贝叶斯纳什均衡Nash均衡子博弈精练Nash均衡精练Bayes均衡在完全信息动态博弈中无法剔除不可置信威胁战略对不完全信息动态博弈,子博弈的概念不总是适用海萨尼转换对先验概率进行修正基本思路图示基本思路图示基本思路-不完全信息动态博弈n精练贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯概率推断法则的
7、结合。它要求:1、在每个信息集上,决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念);2、给定该信息集上的概率分布和其他参与人的后续战略,参与人的行动必须是最优的;3、每一个参与人根据贝叶斯法则和均衡战略修正后验概率。基本思路-市场进入博弈例子:市场进入博弈例子:n参与人:在位者,进入者;n背景:市场上只有一个垄断企业在位者,一个潜在进入者考虑是否进入;如果进入者进入,两个企业进行库诺特博弈;否则,在位者获得垄断利润。n类型:在位者有两种类型:高成本或低成本,进入者在博弈开始时只知道在位者高成本的概率是,低成本概率是1- 。称为先验概率。进入者只有一种类型:进入成本为2,如
8、果进入,生产成本函数与高成本在位者的成本函数相同。nt=1,在位者先决策:要决定该时期的价格p,假定只有如下三种可能价格价格p=4p=5p=6在位者高成本时的利润在位者高成本时的利润267在位者低成本时的利润在位者低成本时的利润698nt=2,进入者决策:选择是否进入市场。如果进入者已进入,在位者成本函数成为共同知识,若在位者为高成本,两个企业成本函数相同,对称库诺特均衡产量下,每个企业利润为3,扣除进入成本2,进入者净利润为1。若在位者为低成本,两个企业成本函数不同,非对称库诺特均衡产量下,在位者利润是5,进入者利润为1,扣除进入成本2,进入者净利润为-1。价格价格p=4p=5p=6在位者高
9、成本时的利润在位者高成本时的利润267在位者低成本时的利润在位者低成本时的利润698进入者进入进入者进入在位者在位者进入者进入者在位者高成本时,均衡在位者高成本时,均衡p=5=531在位者低成本时,均衡在位者低成本时,均衡p=4=45-1基本思路-市场进入博弈例子:市场进入博弈例子:N高 低在位者p=5p=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)p=4进入者进入 不进入(2,0)(2,0)进入不进入(8,0)(8,0)1-在位者p=5p=6p=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0) (5,-1
10、)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)进入者进入者进入者进入者进入者 进入者只有一种类型:进入成本为2,如果进入,生产成本函数与高成本在位者成本函数相同。t=2,如果进入者已进入,在位者成本函数成为共同知识,若在位者为高成本,每个企业利润为3,扣除进入成本2,进入者净利润为1。若在位者为低成本,在位者利润是5,进入者利润为1,扣除进入成本2,其净利润为-1。市场进入博弈-2阶段不完全信息动态博弈在位者基本思路-市场进入博弈例子市场进入博弈例子nt=2, 企业的行动选择是一个简单的静态博弈决策问题,但在第一阶段,情况要复杂得多:n进入者是否进入依赖于它对在位
11、者成本函数的判断:给定在位者是高成本时,进入者进入的净利润是1,低成本时进入者的净利润是-1,因此当且仅当进入者认为在位者是高成本的概率大于1/2时,进入者才选择进入。n与静态博弈不同的是,在观测到在位者第一阶段的价格选择后,进入者可以修正对在位者成本函数的先验概率,因为在位者的价格可能包含其成本函数的信息。价格价格p=4p=5p=6在位者高成本时的利润在位者高成本时的利润267在位者低成本时的利润在位者低成本时的利润698基本思路-市场进入博弈例子市场进入博弈例子n比如:无论在何种情况下,低成本的在位者不会选择p=6(因为低成本在位者不希望进入者认为自己是高成本),因此,如果进入者观察到在位
12、者选择了p=6,就可以推断在位者一定是高成本,选择进入是有利可图的。预测到p=6会招致进入者进入,即使是高成本的在位者也可能不会选择p=6,尽管p=6是高成本在位者单阶段最优垄断价格。n问题的核心是在位者必须考虑价格选择的信息效应:不同的价格如何影响进入者的后验概率从而影响进入者的进入决策。价格价格p=4p=5p=6在位者高成本时的利润在位者高成本时的利润2 26 67 7在位者低成本时的利润在位者低成本时的利润6 69 98 8基本思路-市场进入博弈例子市场进入博弈例子n一个非单阶段最优价格会减少现期利润,但如果它能一个非单阶段最优价格会减少现期利润,但如果它能阻止进入者进入,从而使在位者在
13、第二阶段得到的是阻止进入者进入,从而使在位者在第二阶段得到的是垄断利润而不是库诺特均衡利润,如果垄断利润与库垄断利润而不是库诺特均衡利润,如果垄断利润与库诺特均衡利润的差距足够大,如果在位者有足够的信诺特均衡利润的差距足够大,如果在位者有足够的信心,选择一个非单阶段最优价格可能是最优的。心,选择一个非单阶段最优价格可能是最优的。n在后面的分析中我们可以看到:在均衡情况下,在位者究竟选择什么价格,不仅与成本函数有关,而且与进入者的先验概率有关。而不管为多少,单阶段最优垄断价格都不构成一个均衡。基本思路-市场进入博弈例子市场进入博弈例子n为了分析上述动态博弈的均衡结果,仅仅使用贝叶斯纳什均衡是不够
14、的。因为在静态贝叶斯均衡中,参与人的信念是事前给定的,均衡概念没有规定参与人如何修正自己的信念。但是,如果进入者可以任意修订自己有关在位者成本函数的信念,上述不完全信息动态博弈可以有任意的贝叶斯均衡:n比如说,假定=*1/2,下列战略组合是一个贝叶斯均衡:不论在位者选择什么价格,进入者总认为在位者是低成本的概率为*0是坏人干这件坏事的概率。或者说,他肯定是一个坏人: 如果我们原来认为他是个好人,但突然发现他干了一件好事,我们如何看待呢?显然,我们对他的看法会有一个彻底的改变:嗨,原来他是个坏人。 从这个例子可以看出,我们如何改变对一个人的看法不仅依赖于我们认为他是好人或坏人的先验概率,而且依赖
15、于我们如何“认为”好人干坏事和坏人干好事的条件概率。这一点对于理解精炼贝叶斯均衡概念非常重要。02/12/102/10PrpBTGPob1/2Pr10 1/21/2pob BP BTpn一 精练贝叶斯纳什均衡基本思路贝叶斯法则精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡n二 信号传递博弈及其应用举例n三 博弈论概念简要总结目录导航精练贝叶斯纳什均衡的定义假定博弈中有n个参与人,参与人i的所属类型是ii,i=1, 2, , n,i是参与人i的私人信息,其他参与人不知道且观察不到。记除了参与人i之外的所有其他参与人的所属类型为-i,即-i=(1, , i-1, i+1, , n),条件概率pi
16、(-ii)是参与人i认为除自己外其他参与人所属类型的信念,即先验概率。设Si是参与人i的战略空间,它包含参与人i所有的可能的战略;siSi是i的一个特定战略,它依赖于参与人i的类型i。 是在第h个信息集上参与人i观测到的其他参与人的行动组合,它是战略组合s-i=(s1, , si-1, si+1, , sn)的一部分,s-i是除参与人i之外的所有参与人的战略组合。条件概率 是在观测到行动 的情况下参与人i认为其他n-1参与人属于类型-i的后验概率, 是上述的所有后验概率 的集合,ui(si, s-i; -i)是属于类型i的参与人i在选择战略si、其他参与人选择战略s-i的情况下的效用函数。那么
17、,精炼贝叶斯均衡可以定义如下: ()hiiipahia111(,.,.,)hhhhhiiinaaaaaip ()hiiipa精练贝叶斯纳什均衡的定义*11( )( ),()nnsssn1p= pp定义:精炼贝叶斯均衡是一个战略组合 和一个后验概率组合 ,满足:(P)对于所有的参与人i,在每一个信息集h,(B) 是使用贝叶斯法则从先验概率 、观测到的 和最优战略 得到的(在可能情况下)。(,)argmax() ( ,)iihiiiiiiiiiiss spau s s()hiiipa()iiip hia*()is精练贝叶斯纳什均衡的要点n精练贝叶斯均衡是均衡战略和均衡信念的结合:给定信念 ,战略
18、是最优的;n给定战略 ,信念 是使用贝叶斯法则从均衡战略和所观测到的行动得到的。n求解精炼贝叶斯均衡的过程中,有一点需要注意的是:在完全信息博弈中,我们习惯用逆向归纳法(backward induction)求解精炼均衡;但是,在不完全信息博弈的情况下,后验概率与战略是相互依存的关系,两者互相依赖,这样,如果我们不清楚先行动者的行动选择,我们就不可能知道后行动者应该如何选择。因此,逆向归纳发在不完全信息博弈求解中是不适用的,取而代之,我们必须使用前向法(forward manner)进行贝叶斯修正。*1( ,)nsss1(,)nppp1(,)nppp*1( ,)nsssN高 低在位者p=5p=
19、6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)p=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)1-在位者p=5p=6p=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)市场进入博弈-2阶段不完全信息动态博弈 1/2时,精练贝叶斯均衡为:不论是高成本还是低成本,在位者选择p=5;进入者进入,当且仅当进入者观察到p=6(基于 (6)=1)。 混同均衡混同均衡1/2时,精练贝叶斯均衡为:低成本在位者选择p=
20、4,高成本在位者选择p=6;进入者选择不进入,如果观测到p=4;进入者选择进入,如果观测到p=6或p=5(基于 (6)=1, (5)1/2)。 分离均衡分离均衡在位者精练贝叶斯纳什均衡高-在位者p=6进入者进入在位者利润:7+31/2高-在位者p=5进入者不进入在位者利润:6+7牺牲1单位换取4单位利润是合算的在位者p=5给定进给定进入者的入者的后验概后验概率和战率和战略略低-在位者p=5进入者不进入在位者利润:9+9最优选择给定两类在位者都选p=5,进入者不能从观测到价格中得到任何信息,即 (5)=(1*)/(1*+1*(1-)=1/2,进入的期望利润*1+(1-)*(-1)=2-10,不进
21、入的期望利润为0,因此不进入是最优的。混同均衡价格价格p=4p=5p=6在位者高成本时的利润在位者高成本时的利润267在位者低成本时的利润在位者低成本时的利润698精练贝叶斯纳什均衡n混同均衡n因为两类在位者选择同样的价格,直观地讲,因为l-p,参与人2一定会选择U。给定参与人l知道参与人2将选择U,参与人1的最优选择是M。但给定M是参与人1的最优战略,当参与人2观测到参与人l没有选择L时,他知道参与人l一定选择了M,即p=1。因此,这个博弈的唯一的精炼贝叶斯均衡是(M, U; p=l)。 目录导航n一 精练贝叶斯纳什均衡基本思路贝叶斯法则精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡n二
22、信号传递博弈及其应用举例n三 博弈论概念简要总结信号传递博弈及其应用举例n信号传递博弈是一种比较简单的但有广泛应用意义的不完全信息动态博弈。n参与人:两个,i=1,2。 参与人1为信号发送者,参与人2为信号接收者;参与人1的类型是私人信息,参与人2 的类型是公共信息(即只有一个类型)。n博弈的顺序如下:1“自然”首先选择参与人1的类型,这里=1,2,K是参与人1的类型空间,参与人1知道,但参与人2不知道,只知道参与人1属于的先验概率是p=p();2、参与人1观测到类型后发出信号mM,其中M的信号空间,定义为M=m1,m2,mJ ;3、参与人2观测到参与人1发出的信号m ,使用贝叶斯法则从先验概
23、率p=p()得到后验概率 ,然后选择行动aA,这里,A=a1,a2,aH是参与人2的行动空间,它包括参与人2所有可能的行动;4、参与人1和参与人2的支付函数分别为u1(m,a,)和u2(m,a,)。 ()ppmn下图是一个简单的信号传递博弈的扩展式表述,这里,定义K=J=H=2, , 并且省略支付向量。 11()ppm12()qpmn不难看出,信号传递博弈实际上是Stackelberg模型的变形,是Stackelberg模型在不完全信息情况下的应用。这里,信号发送者类似于领头人(leader),信号接收者则类似于尾随者(follower)。当参与人1发出信号时,他预测到参与人2将根据他发出的信
24、号修正对自己类型的判断,因而参与人1会选择一个最优战略,这个最优战略是与参与人1的类型相关的(或者说相互依存的);同样,参与人2知道参与人1的选择是与参与人1自身的类型相关并且考虑到信息效应的情况下的最优战略,因此使用贝叶斯法则修正对参与人1 的类型判断,选择自己的最优行动。 N高 低在位者p=5p=6进入不进入进入不进入进入不进入进入不进入(6,0)(6,0)(7,0)(7,0)(6,0)(6,0)(9,0)(9,0)p=4进入者进入不进入(2,0)(2,0)进入不进入(8,0)(8,0)在位者p=5p=6p=4第一阶段第二阶段(3,1)(7,0)(3,1)(7,0)(5,-1)(9,0)(
25、5,-1)(9,0)(3,1)(7,0)(5,-1)(9,0)参与人?参与人?博弈顺序?博弈顺序?博弈结果?博弈结果?市场进入博弈1-精练贝叶斯纳什均衡n信号传递博弈的所有可能的精练贝叶斯均衡可以划分为3类:分离均衡:不同类型的发送者(参与人1)以1的概率选择不同的信号,或者说,没有任何类型选择与其他类型相同的信号。在分离均衡下,信号准确地揭示出类型。混同均衡:不同类型的发送者(参与人1)选择相同的信号,或者说,没有任何类型选择与其他类型不同的信号,因此,接收者(参与人2)不修正先验概率(参与人1的选择没有信息量) 。准分离均衡:一些类型的发送者(参与人1)随机地选择信号,另一些类型的发送者选
26、择特定的信号。练习n下图是一个信号传递博弈:下图是一个信号传递博弈:“自然自然”首先选择参与人首先选择参与人1的类型,的类型,参与人参与人1知道知道“自然自然”的选择,参与人的选择,参与人2 不知道,只知道参与人不知道,只知道参与人1属于类型属于类型t1和和t1的可能性相等;参与人的可能性相等;参与人1然后选择信号然后选择信号L或或R,参与,参与人人2选择行动选择行动U或或D,博弈结束,支付向量如图所示,给出这个博,博弈结束,支付向量如图所示,给出这个博弈所有纯战略分离均衡和混同均衡。弈所有纯战略分离均衡和混同均衡。Nt1 t21LRUDUDUDUD(1,1)(2,0)(2,2)(0,0) (
27、0,0)(0,1)(1,0)(1,1)0.50.51RL参与人?参与人?博弈顺序?博弈顺序?博弈结果?博弈结果?22目录导航n一 精练贝叶斯纳什均衡基本思路贝叶斯法则精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡n二 信号传递博弈及其应用举例n三 博弈论概念简要总结占优均衡DSE重复剔除占优均衡IEDE纯战略纳什均衡PNE混合战略纳什均衡MNE请各对每种均衡举个例子完全信息静态博弈-纳什均衡占优战略均衡-8,-80,-10-10,0-1,-1囚徒A囚徒 B坦白抵赖坦白抵赖抵赖是A的严格劣战略抵赖是B的严格劣战略重复剔除的占优均衡5,14,49,-10,0等待小猪大猪按等待按案例2-智猪博弈“
28、按”是小猪的严格劣战略-剔除4大于10大于-1“按”是大猪的占优战略,纳什均衡:大猪按,小猪等待纳什均衡n寻找纳什均衡0,44,05,34,00,45,33,53,56,6C2R1R2C1C3R3参与人B参与人A(R3,C3)是纳什均衡)是纳什均衡混合战略纳什均衡n社会福利博弈3,2-1, 3,-1,10, 0流浪流浪汉政府救济不救济寻找工作政府:救济的概率1/2 ;不救济的概率1/2流浪汉:寻找工作的概率0. 2;流浪的概率0.8每个参与人的战略都是给定对方混合战略时的最优选择完全信息动态博弈 子博弈精炼纳什均衡n强盗分金1UDL(1,1)22,0RU(3,0)(0,2)1D 子博弈精练纳什
29、均衡(U,U),L). U和L分别是参与人1和参与人2在非均衡路径上的选择。 逆向归纳法求解子博弈精练纳什均衡的过程,实质上是重复剔除劣战略的过程:从最后一个决策结依次剔除每个子博弈的劣战略,最后生存下来的战略构成精练纳什均衡。不完全信息静态博弈 贝叶斯纳什均衡n贝叶斯纳什均衡:n人不完全信息静态博弈的纯战略均衡是一个类型依存战略组合a*=(a1*(1),an*(n) ,其中每个参与人i在给定自己的类型i和其他参与人类型依存战略a-i*(-i)的情况下,最大化自己的期望效用vi 。即 ai*(i) argmaxpi(-ii) ui(ai(i),a-i(-i);i,-i) n空城计ai*11( )( ),()nnsss1(,)nppp精炼贝叶斯均衡是一个战略组合 和一个后验概率组合 ,满足:(P) 对于所有的参与人i,在每一个信息集h,(B) 是使用贝叶斯法则从先验概率 、观测到的 和最优战略 得到的(在可能情况下)。(,)arg max()( ,)iihiiiiiiiiiissspau s s()hiiipa()iiip hia*()is不完全信息动态博弈 精练贝叶斯纳什均衡n黔之驴
限制150内