子博弈精炼纳什均衡+贝叶斯法则+信号博弈.docx
子博弈精炼纳什均衡+贝叶斯法 则+信号博弈为了使读者熟悉贝叶斯法则,让我们举一个生活中的例f .如果我们把所有 的人划分为好人(GP和坏人(1卬)两类.所有的事划分为处事(GT)和坏事(BT)网 类,那么.一个人好事的概率等于他是好人的被率队GP)乘以好人干好事的收 率MGTIGP),加上他是坏人的概率MBP)乘以坏人干好事的概中(GTIBP):ProbGTH/><GT|GP)p(GP)+(GT|BP)/>(BP)的观溯到 卜人下了一件好事,那么,这个人是好人的后a率为: Pi回=嘲罂普为了更具体- 3 ,让我们假定,我认为这个人是好人的先会徽率为1/2.那么. 在观测到他干了好事之后我们如何修正他是好人的先验概率依忡于我们认为这 件好事好到什么程度.让我仰考虑三种极端的情况.第一种怕况是,这是一件非 常好的好*,好人一定干,坏人绝不可能F.即/>(Gr|GP)-l,p(GT|BP)=O.解PM反贵赣R就是说,尽管我盯里来认为这个人是好人的可能性是"2,但在观测到他T 了这件 好事后,我们会得出结论谟,他肯定是个好人.第二种情况是.这是一件4常一般的好耶,好人会干,坏人也会干即A(GI |GP)«h/>(GT|BP)-L 群么,ProMGPIGTf 用弃1/2即我们对他的看法不会改变.第三种情况介于上述网伸精况之同;这件好事”人肯定会r 但坏人可能干也 可能不干,概率各为1/2,那么,根bSIGT、列用装17r2/3即我侑认为他是好人的可能性堆加了,但他仍有"3的可能性足坏人.便如我仰观测到这个人干了一件坏事,我倒将如何改变对他的看法呢?如果 我«)相信好人绝不会干垢事只有坏人才会干坏小那么我勺可以肯定.他绝不 可能是一个好人卜P 岫 1GPIBT、5n17ro这甲为了忸I读者记忆.残伤使用了 M义郴号如“GPrtK-ood person-,另外要说明幽是,我 军这个傍子只般为了手殄日名并不支轴石ii解的外分布什么科*依岷.这里,P>0是坏人干这件坏事的概率,或者说,他肯定是一个坏人:如果我们原来认为一个人100%地是好人,但突然发现他干了 件坏事.我们该如 何改变对他的看法呢?显然,我们对他的百法会有一个彻底的改变:嗨,原来他是 个坏人.尽管此时我们不能使用贝叶斯法则.但我们的这个改变与贝叶斯法剜并 不矛盾如果我们原来认为他肯定是一个坏人,突然发现他干了一件好事,我们乂该如 何看待这个人呢7如果我们认为坏人干好事的目的仅仅是为了假装好人,如果这 个人是在知道我们认为他是坏人的情况下干了好事,那么,我们认为这个人是坏人 的后垃概率可以是0,1区间的任何数(不过,一般来说,我们不会马上认为这个人 一定是好人,除非这件好事非常非常地好,因为否则的话,坏人总是有枳极性干一 件好事以使我们认为他是一个好人).当然,如果我们认为坏人干好事并不仅仅是 为了假装好人,我们对他的看法就不会改变,因为根据贝叶斯法则:PebBP|GT)-qX;xi=l这里”>0是坏人干好事的微车,g>0是好人干好事的概率从上述例子中可以看到,我们如何改变对一个人的看法不仅依赖于我们认为 但是好人或坏人的先叁假率,而且依赖于我仃如何“认为“好人干好事和坏人T好 事的条件戳率.这一点对于理解精炼贝叶斯均衡概念是非常用要的.我们当然不 能任意地.认为: 特别地,在精炼贝叶斯均衡中,参与人的“认为”必须是正确的; 就是说,当我们认为坏人干好事的概率为P(GTIBP)时.在给,定信息怙况下(包括 这个人知遒我们如何修正对他的看法)如果这个人确实是坏人.那么”(GTIBP) 是他的最优选择或者说,(GTIBP)是均衡故略(极端地,当P«GT|BP)m1,干好 事一定是能的最优选择).自张维迎博弈论与信息经济学P182P183三:信号博弈及贝叶斯法则的运用信号博弈(Signaling game),是一种由一个 发送者(S)和另一个接收者(R)所组成的动 态博弈。一开始这个发送者有一个给定的类型(t),接着发送者会观察这个没有其他人(好比说接收者)知道的类型,去从讯息堆M = ml, m2, m3,mj中选择送出一个讯息(m),接着接收者会观察这个讯息后从他可行的动作中A=al, a2, ak选一个作为反应动作(a), 这里要注意的是接收者除了讯息之外其他都无 法得知(如发送者的类型t),接着根据(t, m, a)的组合来决定双方会获得的报酬或回报。用贝叶斯法则求解精炼贝叶斯纳什均衡最 典型的例子应该是用在信号博弈上。可以参考罗云峰主编的博弈论教程,第十三 章1、2小节。我觉得这本书相对讲的清楚些。这是之前上课用到的一个例子,把它放在下面。(o,i)1 p L Sender R 1 q(1.2)首先,在这个博弈中,有三个参与者,分别是N、S、Ro Sender有两种类型,他是哪种类型是其私有信息。也就是说,receiver不知道sender是 哪种类型,知道的是1/2的可能性是”,另外1/2 的可能性是t2,同时Receiver可以根据Sender 的行动来修正自己的判断。Sender有两个行动的可能性,L或者R; Receiver 有两个行动的可能性,11或者d。1 .假设无论是Sender tl,还是Sender t2,都会选择Lo 这一假设条件可以表示为p(L | tl) = p (LI t2) = lo又知Sender 1/2的可能性是tl,另外 1/2的可能性是t2,即p ( tl) =p (t2) = 0.5那么这个时候,根据贝叶斯法则。他选择U,受益 是1/2*3+1/2*4=35。如果他选择d,收益是1/2*0+1/2*1=05。所以,在 Sender 选 L 的情况 下,Receiver 会选 u。在Receiver选U的情况下,Sender tl选L的收益是1, Sendert2选L的收益是2.以上结论,建立在“无论是Sender tl,还是Sender t2,都会选择L,这一假设上,那么要使 上述结论成立,首先这个假设要成立。如何让这 个假设成立呢?就需要保证,如果Receiver选 择U,那么无论对哪种类型的Sender来说,选L 一定比选R好。因此,当Sender选择R时,Receiver做出的反 应使得任何类型Sender得到的收益,都小于其 选择L得到的收益。当Sender选择R时,只有Receiver选择d才能保证任何类型的Sender收益都小于其选择L的收益。所以,必须保证当Sender选择R时,Receiver 一定选择do要想保证Receiver 一定选择d呢, 则一定要使Sender选R时,Receiver选u的预 期收益小于其选d的预期收益。即q+ (1吗)*0 < 0*q + 2(1- q), BP q< 2/3.所以,这种情况下的精炼贝叶斯均衡是 无论是 Sender tl,还是 Sender t2,都会选择L;当 Sender 选择L时,Receiver选u,当Sender选R时, Receiver 选 d; p=0.5; q <2/32 .假设无论是Sender tl,还是Sender t2,都会选择R这一假设条件可以表示为p (R I tl) = p (R I t2) =lo又知Sender 1/2的可能性是tl,另外1/2的可能性是t2,即p ( tl) =p (t2) = 0.5那么这个时候,根据贝叶斯法则。他选择U,受益是1/2*1+1/2*0=05。如果他选择d,收益是172*0+1/2*2=1。所以,在sender选L的情况下,Receiver 会选 do在Receiver选d的情况下,sender tl选R的收益是0, sendert2选R的收益是1。如果Sender选择L,那么Receiver选择u总是 优于其选择d,所以Receiver 一定会选择uo而 当 Receiver 选择 u 是,sender tl 收益是 1, sender t2的收益是2o所以这种情况,Sender选L总是优于其选R。与假设相悖,不存在均衡。3 .如果是Sender tL会选择L:如果是Sender t2, 会选择Ro在这种情况下,根据贝叶斯法则,p=l q=0 (如 果Receiver发现Sender的选择是L,就会知道 是Sender tl,如果发现选择的是R就能判断出是R)在Sender tl选择L时,Receiver会选择u,Sender获得收益1;当Sender t2选择R时,Receiver会选择d, Sender获得收益1。需要检验,当确定Receiver选择u>d时,Sender 做出与假设不一样的选择是否会得到更高的收in当Receiver会选择u9 Sender tl选择R收益少于选L (可以);当Receiver会选择d9 Sender t2选择L收益大于Ro因此,Sender t2会选择L,与假设相悖。所以,这种均衡不存在4 .如果是Sender tL会选择R:如果是Sender t2, 会选择Lo在这种情况下,根据贝叶斯法则,p=0 q=l在Sender tl选择R时,Receiver会选择u,Sender获得收益2;当Sender t2选择L时,Receiver会选择u, Sender获得收益2。再次检验,当确定Receiver选择(u | L, u | R) 时,两类型Sender做出与假设不一样的选择是 否会得到更高的收益。当Receiver会选择u,Sender tl选择L收益少于选R (可以);当Receiver会选择u, Sender t2选择R收益小于L (可以)。所以,这种均衡存在:(R | tl, L | t2), (u I L, u | R), p=0, q=l三:贴现因子及其在重复博弈中的运用一般来说,当利率为r时,承诺T年之后支付R美元的现值是R美元/ (1+r)八T。因此,即使没有通货膨胀,将来1美元的价值也小于现在1美元的价值,必须按某一数额贴现,该数额取决于利率的高低和收到货币的时间长短。其中1/ (1+r)八T被称为未来T时期的货币的贴现因子 (discount factor)。贴现因子(discount factor),也称折现系数、 折现参数。所谓贴现因子,就是将来的现金流量折算成现值 的介于01之间的一个数。贴现因子在数值上 可以理解为贴现率,就是1个份额经过一段时间 后所等同的现在份额。这个贴现因子不同于金融 学或者财务学的贴现率之处在于,它是由参与人 的“耐心”程度所决定的。“耐心”实质上是讲参与人的心理和经济承受能力,不同的参与人在谈判 中的心理承受能力可能各不相同,心理承受能力 强的可能最终会获得更多的便宜;同样,如果有 比其他参与人更强的经济承受能力,也会占得更 多的便宜。贴现因子6=l/(l+rT 0<6vl,r是利率。贴现值 为 1/(1+6)AT(注:AT表示T次方)学者在博弈论对贴现因子的定义:贴现因子是 讨价还价博弈中的一个很重要的概念,Gibbons 将贴现因子定义为“货币的时间价值”,实际上就 是贴现率=l/l+r;张维迎的博弈论中将贴现因子解释为参与人的 耐心程度,贴现因子表示一个参与人的耐心程 度,取值在0, 1,越大说明参与人的耐心越好,若是等于0则说明参与人完全没有耐心。由 于贴现因子是由公式l/1+r定义的,那么可以看 到,收益率越大,则贴现因子越小,则参与人的 耐心程度越小;反之,如果收益率越小,则贴现 因子越大,参与人越有耐心。令贴现因子为d,d=(l-p)/(l+r),其中p为博 弈立即结束的概率,r为利率.这样贴现因子中就涵盖了货币的时间价值和博弈将要结束的可能性.而当p=l时,表示博弈立即结束,此时d=0, 当p=o时,博弈继续,d=l/(l+r).这里的p也可以表 示为人的耐心(吉本斯,1999).一:子博弈精炼纳什均衡在给出子博弈精炼Nash均衡的正式定义之前,我们需要先介绍“子博弈”这个概念。子博弈(sub game):由一个单结信息集X开始 的与所有该决策结的后续结(包括终点结)组成 的,能够自成一个博弈的原博弈的一部分。即给 定“历史”,每一个行动选择开始至博弈结束构 成了的一个博弈,称为原动态博弈的一个“子博 弈”。子博弈可以作为一个独立的博弈进行分析, 并且与原博弈具有相同的信息结构。为了叙述方 便,一般用表示博弈树中开始于决策结的子博 弈。譬如图3.5,该博弈存在3个子博弈:除了 原博弈自己以外,还存在两个子博弈图3.6a子 博弈和图3.6b子博弈。图3. 6a子博弈图3. 6b子博弈在静态博弈分析时,我们所说的战略是指参与人声明他将做出何种选择,而他们往往也是 按照声明做出实际选择的;在动态博弈中,战略 尽管仍然具有这种含义,但博弈在行动选择上参 与人具有选择行动的先后顺序情况下,参与人有 了一种额外的选择一一事后机会主义,后动的局 中人完全可以根据博弈进行到此时对局中人最 为有利的方式选择行动,而放弃事前所声明的战 略所规定的行动选择选择其行动。这意味着,在 动态博弈中,即使参与人人按事前所声明的战略 组合构成一个纳什均衡,而这些均衡战略又规定 了各个参与人在其所有信息集上的行动选择,这 些行动选择也可能并非参与人在对应信息集上 的最优行动选择。而当博弈实际进行到那些由纳 什均衡战略规定的行动并非最优行动选择的信 息集时,按照理性人假设,可以想象参与人届时 并不会按纳什均衡战略所规定的方式去选择行 动,而是机会主义地选择最优的行动。这样,具 有这种特点的纳什均衡就是不可信的,即不能作 为模型的预测结果,按照“精炼”纳什均衡的思 想,应当将其消掉。定义3.1:子博弈精炼纳什均衡(SPNE):扩展式博弈的策略组合S*=(S1*,,Si*,,Sn* )是一个子博弈精炼 纳什均衡当且仅当:如果它是原博弈的纳什均 衡;它在每一个子博弈上也都构成纳什均衡。如果一个完美信息的动态博弈中,各博弈方的 策略构成的一个策略组合满足:在整个动态博弈 及它的所有子博弈中都构成纳什均衡,那么这个 策略组合称为该动态博弈的一个“子博弈完美纳 什均衡”。这也意味着原博弈的Nash均衡并不一 定是子博弈精炼Nash均衡,除非它还对所有子 博弈构成Nash均衡。例如前文的煤电博弈,(提 价,接受)和(不提价,接受)均为纳什均衡, 但后者并未满足在整个动态博弈及它的所有子 博弈中都构成纳什均衡这一要件,因而理性的煤 炭企业一定会选择提价。博弈:一个扩展式表示博弈的子博弈G是由 一个单结信息集x开始的与所有该决策结的后 续结(包括终点结)组成的能自成一个博弈的原博 弈的一部分。对于扩展式博弈的策略组合S*=(S1*,Si*,Sn*),如果它是原博弈的纳什均衡;它在每一个子博弈上也都构成纳什均衡,则 它是一个子博弈精炼纳什均衡。博弈论专家常常使用“序贯理性(Sequential rationality):指不论过去发生了什么,参与人应 该在博弈的每个时点上最优化自己的策略。子博 弈精炼纳什均衡所要求的正是参与人应该是序 惯理性的。对于有限完美信息博弈,逆向归纳法 是求解子博弈精炼纳什均衡的最简便的方法。因 为有限完美信息博弈的每一个决策结都开始一 个子博弈。求解方法:最后一个结点上的子博 弈(纳什均衡)一倒数第二个(纳什均衡) 一一初始结点上的子博弈(纳什均衡)。 ill WI实的分类及对应的均衡概念行动顶件信息饰套当 事完全信息克金信息A本海* 第什均Ah 代表人物;培什H95O.1951)完全信亮悔年 子*春精愫纳什均 代表人窃,译家携(1965)不完全信急不完金信2外岳博弗】 贝叶斯第什均衡 代表人也,!尼(I967-IM8)不完全琉总劫毒194b 招炼狈叶斯妫什均所,代表人物;洋尔烤“D753 克瑞普斯和威尔逊39823 弗登伯咯(Fudcnbefg)和奉勒尔。的D上图摘自张维迎的博弈论与信息经济学(P 7)在此图中,我们可以看出博弈论大概分为四类, 每种类别都有固定的纳什均衡。这道题中所问的,如何分辨子博弈”,是求解子博弈精炼纳什均衡的基础。而“贝叶斯法则”是求解 精炼贝叶斯均衡的基础。所以,如果扩展一下是属于如何求解完全信息动 态博弈的子博弈精炼纳什均衡,以及如何求解不 完全信息动态博弈的精炼贝叶斯纳什均衡。在下 面分开讨论。、完全信息动态的子博弈精炼纳什均衡 完全信息动态一般用扩展式表述。子博弈精炼纳什均衡要求(1)它在原博弈上是 纳什均衡(2)它在每一个子博弈上都是纳什均 衡。所以,如何分辨一个扩展式有几个子博弈,关键 在于看一个扩展式表述的博弈中有几个单节信 息集。同时,子博弈不能切割原博弈的信息集。通过下面几个图来解释:(4.4) (SX) (-3,-3) ( 1.0) (0,8) (0,0) (0,1) (0.0)在此博弈中,有三个参与者,分别是A、N (自 然)、Bo 共有七个决策点,A有一个。N有两个,B有四 个。这七个决策点分割成七个信息集,每个信息 集都只包括一个决策点。(表示,所有参与者在 参与时准确知道自己处于哪个决策结。) 子博弈由每个决策结及其后续结构成,所以在图 一中,共有七个子博弈。(注意:任何博弈本身成为其自身的一个子博弈。)图2与图1相同,也有三个参与者,A、N (自 然)、Bo不同的是,B在选择时并不知道N的选择,也就 是说B知道A选择了开发或者不开发,但是不 知道N选择了大还是小。因为B不知道自己处 在N选择了大还是小的决策结上,用虚线表示。此时,b有两个信息集,但是每个信息集有两个 决策点。总结来说,在图2中,A有一个信息集,只包含 一个决策结;N有两个信息集,各包含一个决策 结;B有两个信息集,各包含两个决策结。所以, 图2共有三个单节信息集,那么也就可以判断图 2有三个子博弈。图3在同样三个参与者的图中,图3代表A决策时 不知道N决策的结果;B知道自然的选择,但是 不知道A的选择。在图3中,根据“子博弈不能 切割原博弈信息集”的规则,图3只有一个子博 弈就是原博弈本身。图3的博弈还可以用另外的方式来表达,可能更容易理解。图4图4和图3代表的完全是同一个博弈。A决策时 不知道N决策的结果;B知道自然的选择,但是 不知道A的选择。在这个图中,根据之前的“有 几个单节信息集就有几个子博弈”的判断方法, 可以知道只有一个子博弈就是原博弈本身。或者 说,只有一个子博弈,即N有一个信息集只包 含一个决策点。二、贝叶斯法则的理解如何理解贝叶斯法则在博弈论中的应用,我觉得 张维迎博弈论与信息经济学中举的一个例子 很好,我先把这部分截图放在下面。