子博弈精炼纳什均衡+贝叶斯法则+信号博弈.docx
《子博弈精炼纳什均衡+贝叶斯法则+信号博弈.docx》由会员分享,可在线阅读,更多相关《子博弈精炼纳什均衡+贝叶斯法则+信号博弈.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、子博弈精炼纳什均衡+贝叶斯法 则+信号博弈为了使读者熟悉贝叶斯法则,让我们举一个生活中的例f .如果我们把所有 的人划分为好人(GP和坏人(1卬)两类.所有的事划分为处事(GT)和坏事(BT)网 类,那么.一个人好事的概率等于他是好人的被率队GP)乘以好人干好事的收 率MGTIGP),加上他是坏人的概率MBP)乘以坏人干好事的概中(GTIBP):ProbGTH/(BP)的观溯到 卜人下了一件好事,那么,这个人是好人的后a率为: Pi回=嘲罂普为了更具体- 3 ,让我们假定,我认为这个人是好人的先会徽率为1/2.那么. 在观测到他干了好事之后我们如何修正他是好人的先验概率依忡于我们认为这 件好事
2、好到什么程度.让我仰考虑三种极端的情况.第一种怕况是,这是一件非 常好的好*,好人一定干,坏人绝不可能F.即/(Gr|GP)-l,p(GT|BP)=O.解PM反贵赣R就是说,尽管我盯里来认为这个人是好人的可能性是2,但在观测到他T 了这件 好事后,我们会得出结论谟,他肯定是个好人.第二种情况是.这是一件4常一般的好耶,好人会干,坏人也会干即A(GI |GP)h/(GT|BP)-L 群么,ProMGPIGTf 用弃1/2即我们对他的看法不会改变.第三种情况介于上述网伸精况之同;这件好事”人肯定会r 但坏人可能干也 可能不干,概率各为1/2,那么,根bSIGT、列用装17r2/3即我侑认为他是好人
3、的可能性堆加了,但他仍有3的可能性足坏人.便如我仰观测到这个人干了一件坏事,我倒将如何改变对他的看法呢?如果 我)相信好人绝不会干垢事只有坏人才会干坏小那么我勺可以肯定.他绝不 可能是一个好人卜P 岫 1GPIBT、5n17ro这甲为了忸I读者记忆.残伤使用了 M义郴号如“GPrtK-ood person-,另外要说明幽是,我 军这个傍子只般为了手殄日名并不支轴石ii解的外分布什么科*依岷.这里,P0是坏人干这件坏事的概率,或者说,他肯定是一个坏人:如果我们原来认为一个人100%地是好人,但突然发现他干了 件坏事.我们该如 何改变对他的看法呢?显然,我们对他的百法会有一个彻底的改变:嗨,原来他
4、是 个坏人.尽管此时我们不能使用贝叶斯法则.但我们的这个改变与贝叶斯法剜并 不矛盾如果我们原来认为他肯定是一个坏人,突然发现他干了一件好事,我们乂该如 何看待这个人呢7如果我们认为坏人干好事的目的仅仅是为了假装好人,如果这 个人是在知道我们认为他是坏人的情况下干了好事,那么,我们认为这个人是坏人 的后垃概率可以是0,1区间的任何数(不过,一般来说,我们不会马上认为这个人 一定是好人,除非这件好事非常非常地好,因为否则的话,坏人总是有枳极性干一 件好事以使我们认为他是一个好人).当然,如果我们认为坏人干好事并不仅仅是 为了假装好人,我们对他的看法就不会改变,因为根据贝叶斯法则:PebBP|GT)
5、-qX;xi=l这里”0是坏人干好事的微车,g0是好人干好事的概率从上述例子中可以看到,我们如何改变对一个人的看法不仅依赖于我们认为 但是好人或坏人的先叁假率,而且依赖于我仃如何“认为“好人干好事和坏人T好 事的条件戳率.这一点对于理解精炼贝叶斯均衡概念是非常用要的.我们当然不 能任意地.认为: 特别地,在精炼贝叶斯均衡中,参与人的“认为”必须是正确的; 就是说,当我们认为坏人干好事的概率为P(GTIBP)时.在给,定信息怙况下(包括 这个人知遒我们如何修正对他的看法)如果这个人确实是坏人.那么”(GTIBP) 是他的最优选择或者说,(GTIBP)是均衡故略(极端地,当PGT|BP)m1,干好
6、 事一定是能的最优选择).自张维迎博弈论与信息经济学P182P183三:信号博弈及贝叶斯法则的运用信号博弈(Signaling game),是一种由一个 发送者(S)和另一个接收者(R)所组成的动 态博弈。一开始这个发送者有一个给定的类型(t),接着发送者会观察这个没有其他人(好比说接收者)知道的类型,去从讯息堆M = ml, m2, m3,mj中选择送出一个讯息(m),接着接收者会观察这个讯息后从他可行的动作中A=al, a2, ak选一个作为反应动作(a), 这里要注意的是接收者除了讯息之外其他都无 法得知(如发送者的类型t),接着根据(t, m, a)的组合来决定双方会获得的报酬或回报。
7、用贝叶斯法则求解精炼贝叶斯纳什均衡最 典型的例子应该是用在信号博弈上。可以参考罗云峰主编的博弈论教程,第十三 章1、2小节。我觉得这本书相对讲的清楚些。这是之前上课用到的一个例子,把它放在下面。(o,i)1 p L Sender R 1 q(1.2)首先,在这个博弈中,有三个参与者,分别是N、S、Ro Sender有两种类型,他是哪种类型是其私有信息。也就是说,receiver不知道sender是 哪种类型,知道的是1/2的可能性是”,另外1/2 的可能性是t2,同时Receiver可以根据Sender 的行动来修正自己的判断。Sender有两个行动的可能性,L或者R; Receiver 有两
8、个行动的可能性,11或者d。1 .假设无论是Sender tl,还是Sender t2,都会选择Lo 这一假设条件可以表示为p(L | tl) = p (LI t2) = lo又知Sender 1/2的可能性是tl,另外 1/2的可能性是t2,即p ( tl) =p (t2) = 0.5那么这个时候,根据贝叶斯法则。他选择U,受益 是1/2*3+1/2*4=35。如果他选择d,收益是1/2*0+1/2*1=05。所以,在 Sender 选 L 的情况 下,Receiver 会选 u。在Receiver选U的情况下,Sender tl选L的收益是1, Sendert2选L的收益是2.以上结论,建
9、立在“无论是Sender tl,还是Sender t2,都会选择L,这一假设上,那么要使 上述结论成立,首先这个假设要成立。如何让这 个假设成立呢?就需要保证,如果Receiver选 择U,那么无论对哪种类型的Sender来说,选L 一定比选R好。因此,当Sender选择R时,Receiver做出的反 应使得任何类型Sender得到的收益,都小于其 选择L得到的收益。当Sender选择R时,只有Receiver选择d才能保证任何类型的Sender收益都小于其选择L的收益。所以,必须保证当Sender选择R时,Receiver 一定选择do要想保证Receiver 一定选择d呢, 则一定要使Se
10、nder选R时,Receiver选u的预 期收益小于其选d的预期收益。即q+ (1吗)*0 0*q + 2(1- q), BP q 2/3.所以,这种情况下的精炼贝叶斯均衡是 无论是 Sender tl,还是 Sender t2,都会选择L;当 Sender 选择L时,Receiver选u,当Sender选R时, Receiver 选 d; p=0.5; q d时,Sender 做出与假设不一样的选择是否会得到更高的收in当Receiver会选择u9 Sender tl选择R收益少于选L (可以);当Receiver会选择d9 Sender t2选择L收益大于Ro因此,Sender t2会选择
11、L,与假设相悖。所以,这种均衡不存在4 .如果是Sender tL会选择R:如果是Sender t2, 会选择Lo在这种情况下,根据贝叶斯法则,p=0 q=l在Sender tl选择R时,Receiver会选择u,Sender获得收益2;当Sender t2选择L时,Receiver会选择u, Sender获得收益2。再次检验,当确定Receiver选择(u | L, u | R) 时,两类型Sender做出与假设不一样的选择是 否会得到更高的收益。当Receiver会选择u,Sender tl选择L收益少于选R (可以);当Receiver会选择u, Sender t2选择R收益小于L (可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈 精炼 均衡 贝叶斯 法则 信号
限制150内