《(精品)第四章博弈分析.ppt》由会员分享,可在线阅读,更多相关《(精品)第四章博弈分析.ppt(86页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 博弈分析方法博弈分析方法博弈分析的目的博弈分析的目的l找出博弈的均衡解,以促使博弈各方导向更优的决策l博弈分析包括:一,博弈的表达二,基本的博弈分析方法三,复杂博弈的转化及分析博弈的表达博弈的表达 l策略式:常用于表示静态博弈l扩展式:常用于表示动态博弈l两种表达方式具有等价性博弈的策略式l博弈的“标准式”,也称正则式或矩阵式l 例,5,50,88,01,1囚徒乙坦白 抵赖收益:(囚徒甲,囚徒乙)坦白抵赖囚徒甲l当博弈有两个以上的参与者时,博弈的策略式可以用参与者、策略、收益来表达:GS1,S2,Sn:U1,U2,Un,或简写为GS,U,其中,(1)参与者集合。用N1,2,n来表
2、示有n个参与者;(2)行动集合。用Sisij来表示第i个参与者的行动集合,其中sij表示第i个参与者的第j个行动;(3)收益函数。用Uisij,spm,i=1,2,n,j=1,2,m,表示对应于博弈参与者i的某一行动sij与其它参与者p的m个可选行动组合下参与者i的收益。l例,囚徒困境可以表达为:lGS1,S2;U1,U2,(1)参与者集合。N1,2;表示有两个参与者:囚徒1和2;(2)行动集合。S1s11,s12,S2=s21,s22;分别表示囚徒1有两个可选行动:坦白,抵赖;囚徒2有两个可选行动:坦白,抵赖;(3)收益函数。U1(s11,s21)5,u1(s11,s22)0,u1(s12,
3、s21)8,u1(s12,s22)1;u2(s11,s21)5,u2(s11,s22)8,u2(s12,s21)0,u2(s12,s22)1。故U1(5,0,8,1),U2(5,0,8,1)。博弈的扩展式l也称博弈的展开式l把一个有n个参与者的博弈用一株有根的树来表示,根表示选择的始点,是最初的决策结点,从根出发,参与者顺次做出决定,每一个选择形成一个方案枝,直到博弈结束。每一条从根出发到达终结点的路线都是一个参与者方案的排列组合,对应一个含各参与者的收益集合。扩展式表达形成了一个有始点、定向无循环的树型图,因而也被称为博弈树。LR2221c1425233d1c2d21策略式与扩展式描述的等价
4、性l每一个扩展式博弈都可以用策略式来表达,而每一个策略式博弈也可以表达成扩展式l CSCSCS-5-50-8-80-1-1囚徒1囚徒2囚徒25,50,88,01,1囚徒乙坦白 抵赖收益:(囚徒甲,囚徒乙)坦白抵赖囚徒甲LR2221c1425233d1c2d21(2,1)(2,1)(4,2)(4,2)(5,2)(3,3)(5,2)(3,3)L R参与者1 c1c2c1d2d1c2d1d2参与者2l例:A、B玩游戏报数,从1至10,每次报1个或2个数,报30的输。试试看,写出其扩展型。简单博弈分析方法l严格占优策略均衡解l重复剔除严格劣策略均衡解重复剔除严格劣策略均衡解l划线法划线法l箭头法箭头法
5、严格占优策略均衡解(Dominant-strategy Equilibrium)l在博弈中,如果在其他参与者任意的策略组合下,参与者i存在一个策略si*,使得对于任意的siSi,si*si,均有i的收益 ui(s1,si*,sn)ui(s1,si,sn)成立,则称为si*参与者i的严格占优策略严格占优策略。严格优策略是在其他参与者任意策略组合下,参与者i优于其它策略收益的策略。l在一个博弈中,如果每个参与者都有严格占优策略,则由严格占优策略组成的策略组合一定是该博弈的唯一均衡解,称为该博弈的严格占优策略均衡解严格占优策略均衡解l例,l对于囚徒甲,对应于囚徒乙的坦白与抵赖选择,坦白时的收益为5,
6、0,抵赖时的收益为8,1。因而无论对方的选择是什么,坦白总是优于抵赖,坦白是囚徒甲的严格占优策略。对囚徒乙也是如此。因而,(坦白,坦白)就是囚徒困境的严格占优策略解。5,50,88,01,1囚徒乙坦白 抵赖收益:(囚徒甲,囚徒乙)坦白抵赖囚徒甲重复剔除严格劣策略均衡解(IEDS)l在博弈中,如果参与者i有两个可行策略si,si,对于任意其他参与者的策略组合,有lui(s1,si,sn)ui(s1,si“,sn)成立,则si”就称为相对于策略si的严格劣策略严格劣策略。即参与者i的策略si“的收益总是劣于策略 si的收益,则称si”为参与者i的严格劣策略。l性的博弈参与者绝不会选择严格劣策略,因
7、而,可以通过不断剔除博弈参与者的严格劣策略得到博弈的均衡解。这种方法称为重复剔除严格劣策略均衡解重复剔除严格劣策略均衡解(Iterative Elimination of Dominated Strategy)的方法。逐步剔除严格劣策略均衡逐步剔除严格劣策略均衡(IEDS)l严格劣策略:如果参与者i的策略si所带来的收益总少于其他任何策略,则称si为严格劣策略。lIEDS过程:参与者1知道参与者2是理性的,将不选择严格劣策略,故先划去对2来说的严格劣策略;再分析并找出自己的严格劣策略,划去;直至找出逐步剔除严格劣策略均衡解。l重复剔除严格劣策略求均衡解的方法不能运用到弱劣策略中l如果我们通过这
8、样的过程求得惟一的策略组合,则这个策略组合为逐步剔除严格劣策略均衡,并称博弈是逐步剔除严格劣策略可解的。l试分析:参与者2左 中 右 上参与者1下收益收益:(参与者:(参与者1,参与者,参与者2)1 1,0 01 1,2 20 0,1 10 0,3 30 0,1 12 2,0 0参与者2左 中 右 上参与者1下1 1,0 01 1,2 20 0,1 10 0,3 30 0,1 12 2,0 0 上参与者1下1 1,0 01 1,2 20 0,3 30 0,1 1参与者2左 中 参与者1上1 1,0 01 1,2 2参与者2左 中 参与者1上1 1,2 2参与者2中划线法l博弈参与者之间的策略具
9、有相互依存性,但策略之间不一定会出现严格优或严格劣策略,可能只是相对优劣关系。而划线法是一种通过分析博弈中的相对较优策略,找出对各博弈参与方来说均相对较优的策略组合的方法。收益:(参与者A,参与者B)参与者B左 中 右上参与者A下(1,2)(1,0)(0,1)(0,1)(0,3)(2,1)箭头法l箭头法是以博弈各参与者在追求个人收益最大化过程中不断调整行动、最终达到一个相对稳定状态的过程为基础提出的求解博弈均衡的方法。l选取博弈中的任一个策略组合、任一参与者作为始点进行分析,考察在该策略组合处参与者能否通过单独改变自己的策略而增加收益。如能,则从所分析的策略组合对应的收益组合引一箭头到改变策略
10、后策略组合对应的得益组合;在此收益组合下,分析其他参与者能否通过改变策略增加收益,如能,则以箭头导向新的组合,直至各个参与者不能通过单方改变策略获得更多收益为止。此时,只有指向的箭头而没有指离的箭头的收益组合对应的策略组合即为博弈的均衡解。后退归纳法l后退归纳法(backward induction),又称逆推法,是求解用扩展式表达的有限多次动态博弈均衡的方法子历史与子博弈l历史:动态博弈中,所有从开始到结束的行动序列称为全历史全历史,全历史的子集构成子历史,博弈开始前的历史定义为一个空历史l子博弈:从一个行动选择开始至给定的“历史”构成的博弈。子博弈是原博弈的一部分,但子博弈本身又是一个完整
11、的博弈l该博弈存在着四个全历史:(招供,招供)(招供,沉默)(沉默,招供)(沉默,沉默)。而(招供,招供)这个全历史有三个子历史:空历史,(招供),(招供,招供)。囚徒2囚徒2招供沉默招供沉默囚徒1沉默招供l博弈有三个子博弈:历史L后为一个子博弈,历史R后为一个子博弈,整个博弈(即空历史后)为一个子博弈 LR2221c1425233d1c2d21后退归纳法的求解步骤后退归纳法的求解步骤l第一步,从扩展式博弈的终点开始,找到该博弈的每一个最后子博弈,然后求出每个子博弈的纳什均衡,并计算出相应的收益;l第二步,将每一个最后子博弈的起点变成结束点,将计算出的每一个最后子博弈在纳什均衡下的收益写在其下
12、方,得到的新的扩展式博弈。这个新的扩展式博弈被称为压缩的扩展式博弈。经过一次压缩,就剔除了最后子博弈;l第三步,重复第一步和第二步,则会得到一个无法再压缩的博弈,求出相应的纳什均衡。则在逆推过程中找到的一系列子博弈的纳什均衡组合就是该动态扩展式博弈的一个完美均衡。l第四步,如果在逆推过程中没有遇到多重均衡,那么这个策略组合就是唯一的完美均衡;如果遇到了多重均衡,就需要对子博弈中的每一个可能的均衡重复以上步骤,从而得出所有的完美均衡 小蜈蚣博弈小蜈蚣博弈l假设有两个参与者1,2。可选行动为C进行游戏,D终止游戏。扩展式博弈如下。121212(4,3)(1,5)(3,2)(0,4)(2,1)(-1
13、,3)(1,0)CDDDDDDCCCCC121212(4,3)(1,5)(3,2)(0,4)(2,1)(-1,3)(1,0)CDDDDDDCCCCC121212(4,3)(1,5)(3,2)(0,4)(2,1)(-1,3)(1,0)CDDDDDDCCCCC(1,5)(3,2)(0,4)(2,1)(-1,3)(1,0)小蜈蚣博弈有唯一的完美均衡:参与者1一开始就选择D结束游戏。否则,是参与者2选择D结束游戏。即每一个参与者都选择D结束游戏。l试分析下图扩展式博弈的子博弈完美均衡。(4,0)(1,1)(2,1)(2,2)(1,3)(1,0)1222CDEFGHJKL复杂博弈的分析l严格占优策略均衡
14、解、重复剔除严格劣策略均衡解、划线法、箭头法以及后退归纳法用于分析一些简单的博弈。对于复杂的博弈,需要进行转化后再分析博弈的均衡。完全信息静态博弈l完全信息静态博弈是博弈论中最简单的博弈类型,也是博弈论最早研究的一种模型,是博弈论产生和发展的基础。1950年约翰纳什基于二人零和博弈,用数学的方法证明了非合作博弈中均衡解的存在,即纳什均衡。纳什均衡是完全信息静态博弈的均衡解。纳什均衡纳什均衡l对于一个策略组合,如果保持其他参与者的策略不变,而任意一个参与者的策略都是最优的,那么该策略组合就是纳什均衡。l纳什均衡是判断一个策略组合是否为均衡的充要条件。严格优策略均衡一定是纳什均衡,重复剔除严格劣策
15、略所得到的均衡解也一定是纳什均衡,但纳什均衡不一定是严格优策略均衡和重复剔除严格劣策略的均衡解。因而,一个可以用策略式表达的完全信息静态博弈可以用求严格优策略均衡解或重复剔除严格劣策略、划线法、箭头法等方法进行求解。l在完全信息静态博弈中,如果参与者的策略选择是离散的,则称为离散型策略博弈;如果参与者的策略是连续的,则称为连续型策略博弈。离散型策略的博弈分析离散型策略的博弈分析 l在完全信息静态博弈中,参与者的策略选择是离散的、并且不能用策略式表达的多人博弈或复杂博弈,可以通过穷举法,穷举策略组合,并用纳什均衡的定义来判定其均衡l例,在某个人数为奇数的乡村,村民要投票选举该村的村长,每人一票,
16、获得多数选票的候选人获得村长职务。村长候选人有两位:A和B。分析该博弈的均衡。l假设投票成本为0,自己喜欢的候选人获胜收益为v0,自己不喜欢的候选人获胜收益为0。则:博弈的基本式GS,u为:参与者集合:N1,2,k,k=2n+1,n为自然数;行动集合:Si=A,B,iN;收益函数:自己喜欢的人获胜,ui=v0;自己不喜欢的人获胜,ui=0。l在这个博弈中,所有村民投票给一个候选人是纳什均衡;l其次,每一个村民投票给自己喜欢的候选人也是纳什均衡;l在k3的情况下,如果一个候选人A,得到的选票数大于或等于(k-1)/2+2,此时,无论第i个村民如何投票都不会改变投票结果,因而当一个候选人获得的票数
17、大于或等于(k-1)/2+2时,所有策略组合都是纳什均衡;如果一个候选人A,得到的选票数等于(k-1)/2+2,那么第i个村民如何投票就要看情况。如果每一个村民都把票投给了自己喜欢的候选人,那么第i个村民如果改变投票,将不会使自己的收益变好。因为,如果他喜欢A,并且投了A的票,而现在改变投票,投给B,就会使B获胜,这显然要比投A要差;如果他喜欢B,并投票给B,而现在改变投票,投给A,那么结局不变。因而,在这种情况下,纳什均衡只能是每一个村民都投票给自己喜欢的候选人。如果存在着村民把票投给了自己不喜欢的候选人这种情况,那么第i个村民就有积极性改变投票,因为改变投票能使自己喜欢的人获胜,因而其不可
18、有是纳什均衡。l因而投票博弈的纳什均衡有:任何情况下,所有村民都投票给一个候选人是一个纳什均衡;任何情况下,每一个村民投票给自己喜欢的候选人也是一个纳什均衡;当k3时,如果一个候选人获得的票数大于等于,那么相对应的所有策略组合都是纳什均衡。连续型策略的博弈最优反应函数连续型策略的博弈最优反应函数 l如果参与者的行动选择是连续的,由于博弈中参与者之间的策略具有相互依存性,因而存在某一参与者对其他参与者策略的反应函数,可以运用最优反应函数来寻找纳什均衡l例,建桥博弈。某山区有一村庄,村庄与外界唯一的联系是一座桥。但近期桥断了,需要修复。修桥需要一定的成本:时间、金钱、物资或劳动。分析该博弈的均衡。
19、l假设村庄只居住着两户人家A、B(与居住n户人家分析相同),修桥的成本为ci(i=1,2),桥修复后的相应效用vi(c1+c2),i=1,2,效用是由修桥所带来的便利和价值,是居民投资成本的函数,满足边际效用递减规律。则两户人家的收益为:lui(c1,c2)=vi(c1+c2)-ci,i=1,2l修桥的博弈基本式为:l参与者集合:N1,2;l策略集合:两户人家的行动是一个连续的策略空间Si0,+),i=1,2;l收益函数:ui(c1,c2)=vi(c1+c2)-ci,i=1,2。l在这个博弈中,A、B的策略相同。先分析A,假定B的成本为0,则A的最优反应函数为:lb1(0)=c1*,使得u1(
20、c1,0)或v1(c1+0)-c1最大l由边际效用递减规律知:随着参与者A的成本增加,效用u1先增加后下降,因而一定存在最大值,并且最大值唯一。其形态如图 所示。kku1(c1,k)u1(c1,0)b1(k)b1(0)uc1O修桥博弈的收益l从图中可以看出,当c2=0时,由于v1(c1)满足边际效用递减规律,因而随着c1的增加,u1先增后减,所以一定存在一个c1*,使得u1最大。l其次,考虑当c2从0增加到k时的情况,这时收益函数等于lu1(c1,k)=v1(c1+k)-c1=u1(c1+k,0)+kl这表明收益函数u1(c,k)的曲线实际上就是u1(c1+k,0)的曲线向上移动一个数k。由于
21、c1*b1(0),所以c1#c1*k将使u1(c1,k)达到最大,即b1(k)=c1*-k。这表明当参与者B增加一单位成本时,参与者A的最优策略是减少一单位成本,当参与者B的成本增加到c1*时,A的最优策略是成本为0。混合策略博弈分析混合策略博弈分析l混合策略是纯策略空间上的概率分布,因而混合策略可以分解为纯策略。例,石头、剪刀、布游戏中的参与者不会选择单纯出石头、剪刀或布的纯策略,而是采取按照某种概率(来自于对对手策略的判断)出石头、剪刀、布的策略。纯策略可看作是混合策略的特例:选择某一行动的概率为100%,而选择其他行动的概率为0%。l关于混合策略博弈与纯策略博弈下纳什均衡的关系,有以下定
22、理:l纳什均衡的等价性。在不允许混合策略下得到的纯策略纳什均衡,在混合策略下仍然是纳什均衡;反之,在混合策略下,如果存在纯策略纳什均衡,那么它同样是不允许混合策略下的纯策略纳什均衡。l纳什定理。如果完全信息静态博弈的参与者是有限的,每个参与者的策略空间是有限的,那么一定存在至少一个(混合策略)纳什均衡。l例,猜硬币游戏。甲、乙两个人玩猜硬币的游戏。乙抛甲猜,猜对甲赢乙一枚硬币,猜错了,乙赢甲一枚硬币。试求该博弈的纳什均衡。l先写出纯策略下甲、乙博弈的策略式 1,11,11,11,1参与者乙正面 背面收益:(甲,乙)正面背面参与者甲l该博弈的基本式为:参与者:参与者甲定义为1,参与者乙定义为2。
23、N1,2混合策略空间:令pi(pi1,1-pi1),0pi11表示参与者i选择正面的概率,则参与者i选择背面的概率为pi;则混合策略空间为:Pi=pi:0pi11,i=1,2。收益函数:参与者i的伯努利收益函数为ui(s1,s2),v-N-M收益函数为vi(p1,p2)=l分析参与者甲,l给定参与者乙的混合策略为(p21,1-p21),参与者甲猜正面的期望值为:p211+(1-p21)(-1)=;参与者甲猜背面的期望值为:p21(1)+(1-p21)1=1-2p21;l如果参与者甲的混合策略为:(p11,1-p11),则参与者甲的期望收益为:lv1(p1,p2)=p11(2p21-1)+(1-
24、p11)(1-2p21)=4p11p21-2p11-2p21+1=(2p11-1)(2p21-1)l显然,当p211/2时,p11越大,期望收益越大;当p211/2时,p11越小,期望收益越大,当p11=0时,期望收益最大。即如果乙出正面的概率大于1/2,则甲最优的策略是增加猜正面的概率;如果乙出正面的概率小于1/2,则甲最优的策略是增加猜背面的概率。参与者之间的策略是相互依存的,即甲的p11是p21的函数,记作:B1(p21)=p11=0 p211/20,1p211/21p211/2p11p21正面 1背面背面正面11/2l参与者乙的最优反应函数图 p11p21正面 1背面背面正面11/2l
25、混合策略组合(p1*,p2*)为纳什均衡,则必须同时既是甲的最优反应,同时也是乙的最优反应。则如图所示,两个最优反应曲线的交点即是猜币博弈的纳什均衡点。p11p21正面 1背面背面正面11/21/2纳什均衡重复博弈重复博弈l相同的博弈G在长期中不断地重复进行l重复博弈在博弈的任意一个阶段,都会产生相应的收益,从而形成一个收益流l当前的收益与未来的收益对于博弈者的效用是不同的,存在一个贴现的问题。l用R1,R2,R3表示未来的收益序列,用表示贴现因子,则:完全信息动态博弈l完全信息动态博弈是指参与者拥有决策相关的全部信息、参与者行动有先后顺序的博弈 l完全信息动态博弈可以分为两类:完美信息动态博
26、弈与完全但不完美信息动态博弈l如果参与者拥有决策的全部信息,并且博弈中的后行动者始终能够观察到先行动者的行动,则是完美信息动态博弈,否则是不完美信息动态博弈 完全信息动态博弈的描述完全信息动态博弈的描述l完全信息动态博弈的描述需要四个要素:参与者集合,全历史集合,参与者函数,收益:=N,H,P,ul(1)参与者集合:N=1,2,n,表示有n个参与者;l(2)全历史集合:H=(a1,a2,ak),其中k为博弈从开始到结束依次发生的行动次数,行动序列中的每一个a都为向量;l(3)参与者函数:P(h)=i:iN;l(4)收益:u为收益函数,是各参与者在特定偏好下的收益。l例,进入博弈。在一个垄断行业
27、,已经存在一个垄断企业,现在有一个新的企业决定是否进入该行业。新企业有两个行动选择:进入,不进入;如果新企业选择进入,则在位者要决定是和平共处还是抵制。如果不进入,则在位者收益3,新企业收益;如果新企业进入而在位者选择和平共处,则新企业收益为2,在位者收益为1;如果新企业进入而在位者选择抵制,则新企业收益为-1,在位者收益为。l=N,H,P,u参与者集合:N=1,2;全历史集合:(Q),(E,A),(E,F);参与者函数:P()=1,P(E)=2;收益:u1(Q)=0,u2(Q)=3;u1(E,A)=2,u2(E,A)=1;u1(E,F)=-1,u2(E,F)=0。1QE(0,3)(-1,0)
28、2AF(2,1)完全信息动态博弈的分析完全信息动态博弈的分析l完全信息静态博弈的分析方法引入完全信息动态博弈,会产生两个问题:一是不可置信的威胁;二是动态不一致性不可置信的威胁不可置信的威胁l在动态博弈中,由于参与者的行动顺序有先后,因而,后行动者为了让先行动者选择有利于他的行动而威胁将采取不利于双方的行动,而事实上,由于这种策略也不利于自己,因而作为理性博弈参与者是不应该选择这种策略的。因而,这种威胁被称为不可置信的威胁。21(2,1)(4,2)(5,2)(3,3)LRc1d1c2d2动态不一致性动态不一致性 l在动态博弈中,由于博弈有历史,因而,存在参与者的行动选择在某一时刻是理性的、最优
29、的,但随着博弈的进行,又有新的最优的行动选择。即,存在局部最优的理性选择但整个看来不一定最优的博弈状况,这是动态博弈不同于静态博弈的动态不一致性。l1965年泽尔腾发表论文需求减少条件下寡头垄断模型的对策论描述,将纳什均衡概念引入动态分析,提出“子博弈完美纳什均衡”的概念,从而消除博弈中的不可置信威胁,并保证博弈策略的动态一致性。l在动态博弈中,如果一个策略组合在所有该博弈的子博弈中是都是纳什均衡,则该策略组合是子博弈完美均衡;子博弈完美均衡一定是纳什均衡,但纳什均衡不一定是子博弈完美博弈。l在完全信息动态博弈中,只要博弈是有限的,即参与者有限、运动空间有限、博弈的阶段有限(不是无穷进行下去)
30、,那么动态博弈至少存在一个子博弈完美均衡。l在动态博弈中,子博弈完美均衡与逆推法是完全等价的。因而可以通过逆推求解子博弈均衡的方法(后退归纳法)来寻找动态博弈的均衡。在动态博弈中,如果每一个全历史对应的参与者的收益都不相等,那么存在唯一的子博弈完美均衡。KL(2,2)(1,3)2FG(4,0)(1,0)2HJ(1,1)(2,1)21CDEl子博弈(C)的纳什均衡为F,G;子博弈(D)的纳什均衡为H,J;子博弈(E)的纳什均衡为L;由此可得参与者2的4个均衡策略:(FHL),(FJL),(GHL)和(GJL)。回到原博弈,寻找原博弈的纳什均衡,分四种情况:给定参与者2的策略(FHL),参与者的最
31、优策略为C,因而(C,FHL)为完美均衡;给定参与者2的策略(FJL),参与者1的最优策略为C,因而(C,FJL)为完美均衡;给定参与者2的策略(GHL),参与者1的最优策略有三个:C、D、E。因而完美均衡有三个:(C,GHL),(D,GHL和(E,GHL);给定参与者2的策略(GJL),参与者1的最优策略为D。因而,完美均衡为(D,GJL)。综上所述,该博弈存在6个完美均衡。不完全信息静态博弈不完全信息静态博弈 l在博弈中,如果参与者知道其他参与者的可能类型,但不知道其他参与者的特征,这样的博弈被称为不完全信息博弈,又称贝叶斯博弈。信息不完全的静态博弈即不完全信息静态博弈,不完全信息博弈的均
32、衡被称为贝叶斯纳什均衡。信念信念l信念是参与者定义在状态类上的概率分布。例,银行相信客户有80%的概率是诚信的,20%的概率是不诚信的。l由于信念不同,即使是相同的策略,也会出现不同的博弈格局及其结果 海萨尼转换海萨尼转换l1967年经济学家海萨尼提出了一种处理不完全信息博弈的方法:在博弈中,虽然其他参与者不知道某一参与者的特征,但知道参与者可能的类型,因而可以在博弈中引入一个虚拟的局中人“自然N”,由自然N以某种概率选择不同行动来表示对参与者类型的判断。“自然N”首先行动,博弈参与者再选择己方的行动。这种方法将不完全信息静态博弈变成一个完全但不完美的动态博弈。这种转换被称为海萨尼转换。l例,
33、进入博弈。在一个垄断行业,已经存在一个垄断企业,现在有一个新的企业决定是否进入该行业。新企业有两种选择:进入和不进入;而在位企业可能选择打击或不打击。在位者打击与否,取决于在位企业的打击成本,即为了阻止新企业进入,需要支付的成本。如果新企业不进入,则收益为0;在打击成本高的情况下,新企业不进入,在位企业的收益为300,若新企业进入,在位企业选择打击,则新企业和在位企业的收益分别为10、0,在位企业选择不打击,则新企业和在位企业的收益分别为40、50。在打击成本低的情况下,新企业不进入,在位企业的收益为400;若新企业进入,而在位企业不打击,则新企业和在位企业的收益分别为30、80;在位企业打击
34、,则新企业和在位企业的收益分别为10、100。但在位企业的打击成本高或者低,新企业并不知道。l引入自然N,以概率P和1P对打击成本的高、低进行描述。进入博弈的海萨尼转换 40,5010,00,3000,0在位企业(打击成本高)不打击 打击收益:(新企业,在位企业)进入不进新企业30,8010,1000,4000,0在位企业(打击成本低)不打击 打击进入不进(0,300)(0,400)P1P自然N新企业在位者新企业在位者打击不进进打击不打击不进进不打击(40,50)(10,0)(30,80)(10,100)不完全信息动态博弈不完全信息动态博弈 l不完全信息动态博弈也称动态贝叶斯博弈,是博弈参与者
35、信息不完全、行动有先后的博弈l在不完全信息动态博弈中,各参与者的行动选择不仅基于“理性自利”的追求,还基于对其他参与者类型的主观猜测,此外,由于信息是不完全的、行动有先后,因而在分析中,不仅要考虑理性可到达的历史,还必须分析在其他参与者“失误”的行动选择下所产生的历史。因而,在不完全信息动态博弈分析中,序贯均衡仍包含不合理的均衡,往往还需要对序贯均衡进行再精炼l序贯均衡是不完全信息动态博弈的核心概念,是克瑞普斯(Kreps)和威尔逊(Wilson)于1982年提出。l不完全信息动态博弈的参与者i的一个行为策行为策略略是参与者i函数在每一个信息集Ii中的行动A(Ii)的概率分布,并且各概率分布在
36、各信息集中彼此独立。l不完全信息动态博弈是参与者在博弈过程中,不断根据其他参与者行动调整、优化已方的行动的过程,是基于信念系统的万全策略,也称为“审时度势”。参与者的审时度势(assessment)是其行为策略加上信念系统,记为(i,i),其中i是表示行为策略,i是一个定义在每一个信息集IikIi之上的概率分布函数。泛子博弈泛子博弈l泛子博弈指不完全信息动态博弈中,满足条件从一个信息集开始,并包含该信息集其后所有的历史;不能“分割”信息集的子集。泛子博弈的起始点为一个信息集。l例,从信息集R出发的是子博弈,而从信息集L,M出发的博弈不是一个子博弈,而是泛子博弈。l12r2(1,2)(2,3)2
37、l1r1(1,1)(3,2)2l1r1(1,0)(3,2)21LMR完美贝叶斯均衡完美贝叶斯均衡 在不完全信息动态博弈N,H,P,I,u中,如果一个审时度势组合(*,*)满足:若某个信息集I走到的概率大于0,那么*在I上的值一定是从*经由贝叶斯法则计算出来的。若某个信息集I走到的概率为0,那么*在I上的值无法从*经贝叶斯法则计算出来,则*在I上的值可以任意设定;对每一个参与者i的任一行动策略i,不等式i(i*,-i*,*(I)i(i,-i*,*(I)对每一个泛子博弈(I)成立。则我们称这样的审时度势组合(*,*)为一个完美贝叶斯均衡序贯均衡序贯均衡l1975年泽尔腾指出,在博弈中存在一种概率极
38、小但不为零的状况,即博弈参与者在选择行动策略时,会偶尔出错,即“颤抖手”,因而,在均衡过程中,一个参与者的均衡策略是考虑其他参与者可能会“颤抖”的情况下的最好的策略。序贯均衡是对完美贝叶斯均衡的再精炼,它要求即使某个信息集在策略下走到的概率为0,参与者的猜测也不能任意设定。l在不完全信息动态博弈下,若一个审时度势(*,*)满足下列条件,则称为一个序贯均衡:l对每一参与者i的任一行动策略i,不等式li(i*,-i*,*(I)i(i,-i*,*(I)对每一个泛子博弈(I)成立;l存在一个序列(t,t),使得(t,t)(t,t),其中每一个t都是行为策略组合,且t是由t经贝叶斯法则计算得来。l第一条
39、被称为序贯理性序贯理性,考虑参与者会犯错误、并在错误发生之后应当如何处理的思想是序贯均衡的核心。序贯理性在本质上是“即使出错,仍然理性”;第二条被称为信念与策略的一致性信念与策略的一致性,它表明信念与策略是你中有我、我中有你、相互依存、相互决定的。例:如图所示的序列均衡例:如图所示的序列均衡(3,2)kr(4,2)(2,3)2kr(2,3)(4,1)21LMR1t2t1-1t-2tl如果参与者1选择R,则信息集L,M走到的概率为0。设参与者2在信息集L,M的信念为2(L)s,0s1,则2(M)1s,参与者2选择k的期望收益为:22(L)+32(M)3s,选择r的期望收益为:32(L)+2(M)
40、1+2s,则当选择k的期望收益大于选择r的期望收益,即s2/3时,参与者2的最优反应是k;当选择k的期望收益小于选择r的期望收益,即s2/3时,参与者2的最优反应是r;当选择k的期望收益等于选择r的期望收益,即s2/3时,参与者2的最优反应是随机选择k或r。l如果参与者1随机选择L或M,则L或M的收益相等并都高于选择R的收益。设参与者2以概率p选择k,概率1-p选择r,则参与者1选择L的期望收益为:4p+2(1-p)=2+2p,选择M的期望收益为:2p+4(1-p)=4-2p。参与者1在L和M下的期望收益相等,则:p=1/2;期望收益为:3。3的收益满足参与者1选择L或M不低于选择R的收益这个
41、要求。即,当参与者2以1/2的概率选择k或r的行动时,参与者1选择L、M和R的期望收益都为3。而参与者2是否以随机概率选择k和r,取决参与者1对L和M的概率选择所带来的收益是否相等。设参与者1选择L的概率为s、选择M的概率为1s,则参与者2选择k的期望收益为2s+3(1-s),选择r的期望收益为3s+(1-s),令2s+3(1-s)3s+(1-s),则s=2/3。l博弈的所有序列均衡为:l1()(0,0,1),当2(L)2/3时,2(L,M)=k;当2(L)2/3时,2(L,M)=r;当2(L)2/3时,2(L,M)=(p,1-p),0p1。l1()(2/3,1/3,0),2(L)2/3,2(
42、L,M)(1/2,1/2)。l序贯均衡忽视了参与者会考虑他的对手为什么会背离原先的均衡这样的问题,因此常会产生一些不合理的均衡外猜测。l序贯均衡的再精炼就是对已求解出来的均衡提出一些更强的要求和限制,从而达到强化均衡的目的。l序贯均衡的再精炼通常依据三种精炼准则:优势准则、直观准则和重复直观准则。优势准则优势准则l优势准则指在信号博弈中,给定一组序贯均衡(*S,R*,*),对于任何均衡外信号m,如果存在类型tT和mM,m=m,使得lmin us(m,a;t)max us(m,a;t),aAR,即信号接收者的行动空间。l那么一个合理的均衡应该使*(tm)=0。如果一个序贯均衡符合上述限制,那它就
43、满足优势准则。优势准则优势准则l优势准则在博弈中的含义是:一个类型为t的人,如果他背离均衡而发出m这个均衡外信号,那么他能得到最好的收益为max us(m,a;t),如果这个类型的人有另外一个信号m可供选择,而他发出m这个信号后,所能得到的最差收益min us(m,a;t)都比发送信号m所能得到的最大收益还高,那么发信者的类型不可能为t,因为理性的人不会做这种违反理性的事。因而如果上式成立,那么在原先的序贯均衡下,在收信者收到m这个均衡外信号时,他的猜测*(tm)=0,否则用优势准则的标准来看,原来的均衡就是一个不合理的均衡,必须删除。直观准则直观准则 l直观准则是指,在博弈中,给定一组序列均
44、衡(*S,R*,*),任何均衡外信号m,如果既满足 S(m)=tT|us*(t)max us(m,a;t),aAR(T,m),又满足us*(t)(m,a;t),那么一定有*(tm)=0。如果*(tm)0,则该序列均衡应该剔除。重复直观准则重复直观准则 l对于有些博弈,运用一次直观准则并不能把所有的非理性(均衡外策略)序贯均衡都剔除掉,而是需要反复运用直观准则。l如果一个序列均衡的猜测*能够通常第k次的检验,那么称它为一个通过k次重复直观准则的均衡解。l直观准则及重复直观准则反映了聪明的博弈者会剔除明显不利的策略,从而减少考虑的策略集合。合作博弈的分析合作博弈的分析l强调团体理性,整体最优l核l
45、夏普利值:所得与贡献相等l约克和汤姆结对旅游。约克和汤姆准备吃午餐。约克带了3块饼,汤姆带了5块饼。这时,有一个路人路过,路人饿了。约克和汤姆邀请他一起吃饭。路人接受了邀请。约克、汤姆和路人将8块饼全部吃完。吃完饭后,路人感谢他们的午餐,给了他们8个金币。路人继续赶路。l约克和汤姆为这8个金币的分配展开了争执。汤姆说:“我带了5块饼,理应我得5个金币,你得3个金币。”约克不同意:“既然我们在一起吃这8块饼,理应平分这8个金币。”约克坚持认为每人各4块金币。l为此,约克找到公正的夏普里。l夏普里说:“孩子,汤姆给你3个金币,因为你们是朋友,你应该接受它;如果你要公正的话,那么我告诉你,公正的分法是,你应当得到1个金币,而你的朋友汤姆应当得到7个金币。”l约克不理解。ll夏普里说:“是这样的,孩子。你们3人吃了8块饼,其中,你带了3块饼,汤姆带了5块,一共是8块饼。你吃了其中的1/3,即8/3块,路人吃了你带的饼中的3-8/3=1/3;你的朋友汤姆也吃了8/3,路人吃了他带的饼中的5-8/3=7/3。这样,路人所吃的8/3块饼中,有你的1/3,汤姆的7/3。路人所吃的饼中,属于汤姆的是属于你的的7倍。因此,对于这8个金币,公平的分法是:你得1个金币,汤姆得7个金币。你看有没有道理?”l约克听了夏普里的分析,认为有道理,愉快地接受了1个金币,而让汤姆得到7个金币。
限制150内