《博弈论理和对策行为usb.pptx》由会员分享,可在线阅读,更多相关《博弈论理和对策行为usb.pptx(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十一章 博奕论和对策行为 博弈论和对策行为 q概论 博奕论(the Game Theory)也就是运筹学中的对策论。对策思想最早产生于我国古代。早在两千多年的春秋时期,孙武在孙子兵法中论述的军事思想和治国策略,就蕴育了丰富和深刻的对策论思想。孙武的后代孙膑,为田忌谋划,巧胜齐王,这个著名的“田忌赛马”,就是典型的对策思想的成功运用。博弈论和对策行为 q概论 对策思想明确地应用于经济领域,始于Cournot(1838),Bertrand(1883),Edgeworth(1925)等人关于寡头竞争、产量与价格垄断、产品交易行为的研究。然而,作为一门学科的创立,则是以美国数学家冯.诺依曼(John
2、 Von Neumann)和经济学家奥斯卡.摩根斯坦(Oskar Morgenstern)合著的博奕论与经济行为(The Game Theory and Economic Behavior)(1944)一书出版为标志,他们奠定和形成了这门学科的理论与方法论基础。博弈论和对策行为 q概论 博奕论是一门内容广泛且复杂的学科,不仅是经济学,政治学、军事、外交、国际关系、公共选择,还有犯罪学等,都涉及到博奕论。实际上,很多人把博奕论看成数学的一个分支,博奕论的一个重要代表人物-纳什(Nash,曾获1994年诺贝尔经济学奖,该年度的诺贝尔经济学奖授与了三位博奕论专家),在1951年的一篇奠基性的文章就是
3、发表在数学杂志上,而非在经济学杂志上。但是,本书只是介绍博奕论的最基本的内容,且限于博奕论在经济学中的应用。博弈论和对策行为 q基本概念 本书讨论博奕论模型的最基本表述方式-策略型表述,它主要用于表现静态对策。这里介绍策略型表述中的基本概念,明确有关术语的准确含义。博弈论和对策行为 q基本概念在策略型博奕中,一个对策有以下几种基本要素:一局中人(players):即博奕的参与者,他们是博奕的决策主体行为。根据自己的利益要求决定自己的,记局中人为i,局中人集合为1,2,I,即共有I个局中人。我们将某个局中人以外的其它局中人称为“i的对手”,记为-i。博弈论和对策行为 q基本概念在策略型博奕中,一
4、个对策有以下几种基本要素:一局中人(players):即指每个局中人在对策中可以选择采用的行动方案,但这个方案必须是一个完整的行动,而不是行动的某一步。每个局中人均有可供选择的多种策略。二策略(strategies):博弈论和对策行为 q基本概念在策略型博奕中,一个对策有以下几种基本要素:一局中人(players):记局中人i的策略为siSi,Si为局中人i可供选择的策略组成的策略集,又称策略空间。n个局中人各选择一个策略形成的向量s=(s1,s2,sn)被称为策略组合(strategy profile),策略组合的集合为S=iSi。二策略(strategies):记s-i=(s1,s2,si
5、-1,si+1,sn)为所有别的局中人的策略,si则是局中人i面对所有别的局中人的策略s-i时所选择的策略。三支付或收益(payoffs):二策略(strategies):一局中人(players):在策略型博奕中,一个对策有以下几种基本要素:博弈论和对策行为 q基本概念 是指一局博奕的得失。或者说是局中人从各种策略组合中获得的效用,它是策略组合的函数。记局中人的支付函数为ui(s)。如果局中人得失的总和为零,即对任何的s,有 =0,则称这种对策为零和对策;把零和策略的概念扩展一下,如果 =常数,也称为零和博奕。否则,称为非零和博奕。例1.囚徒困境(prisoners dilemma)博弈论和
6、对策行为 q 策略型博弈的实例和解(囚徒困境)囚徒囚徒B B坦白坦白抵赖抵赖囚徒囚徒A A坦白坦白-8-8,-8 80 0,-1010抵赖抵赖-10-10,0 0-1-1,-1 1例1.囚徒困境(prisoners dilemma)博弈论和对策行为 q 策略型博弈的实例和解(囚徒困境)这个例子可以看作是非合作博奕现象的一个抽象概括。它讲的是两个嫌疑犯被隔离审讯。他们面临的处境是:如果两人都坦白,各判刑8年;如果两人都抵赖,各判刑1年(或许证据不足);如果一人坦白另一人抵赖,则坦白的放出去,不坦白的判刑10年,(“坦白从宽、抗拒从严”)。这里,两个囚徒就是两个局中人,每个局中人都有两个策略可供选
7、择:坦白或抵赖。表中每一格的一对数字分别表示局中人不同策略组合的收益,第一个数字是囚徒A的收益,第二个数字是囚徒B的收益。这种有限对策(局中人是有限个,每个局中人的策略数也是有限的)往往用矩阵形式表示。例1.囚徒困境(prisoners dilemma)博弈论和对策行为 q 策略型博弈的实例和解(囚徒困境)在对博奕局势进行描述后,博奕论分析就是要求出局中人进行策略选择的理性结局,或者说找出博奕问题的解。在非合作博奕中,有两种解的技术:一种是纳什均衡,一种是优超解。定义1:给定其它局中人的策略s,局中人i的最优反应 记为s,是指能给他带来最大收益的策略,即 博弈论和对策行为 q纳什均衡 当每个局
8、中人都选择了自己的最优反应策略,并且这些最优反应形成一个策略组合,便形成了纳什均衡。定义2:一个策略组合s*=(s1*,s2*,sn*)被称为纳什均 衡是指,对于所有 的 i,博弈论和对策行为 q纳什均衡 纳什均衡的思想就是,博奕的理性结局是这样一种策略组合,其中每个局中人选择的策略都已是对其它局中人所选策略的最优反应,所以,谁也没有积极性去选择其它策略。因为每一个局中人均不能因为单方面改变自己的策略而获利,于是谁也没有兴趣主动打破这种均衡。在囚徒困境中,考虑囚徒A对他人的最优反应。如果给定囚徒B的策略是“坦白”,那么对囚徒A来说,采取“坦白”策略得到的收益是-8,采取“抵赖”策略得到的收益是
9、-10,显然“坦白”为好;同理,如果给定囚徒B的策略是“抵赖”,对囚徒A来说,“坦白”也比“抵赖”好。因此,囚徒A对囚徒B的最优反应是“坦白”。对囚徒B作同样分析:如果囚徒A的策略是“坦白”,则他采取“坦白”策略为好;如果囚徒A的策略是“抵赖”,他还是采取“坦白”策略好,所以囚徒B对囚徒A的最优反应也是“坦白”。两个最优反应形成了一个策略组合(坦白,坦白),这就是一个纳什均衡。博弈论和对策行为 q纳什均衡 两个寡头企业选择产量的博奕就是一个囚徒困境问题。回想一下古诺均衡的含义:古诺均衡是指存在这样一对产量组合(q1*,q2*),使得:假定企业2的产量为q2*时,q1*是企业1的最优产量;假定企
10、业1的产量为q1*时,q2*是企业2的最优产量。按照纳什均衡的定义,古诺均衡(q1*,q2*)也就是博奕论中的纳什均衡。纳什均衡只说明博奕的稳定性结局。博弈论和对策行为 q囚徒困境在经济学上的应用 让我们再回到囚徒困境本身。纳什均衡(坦白,坦白)表明两人共同的集体选择,但是这个选择是否是理性的?理性选择是指使收益最大化的选择。如果两人都抵赖,各判刑1年,显然比坦白各判刑8年好。所以,纳什均衡(坦白,坦白)并不是一个集体理性选择。但它却是个人理性选择的一个组合。囚徒困境正是反映了一个深刻的问题,这就是个人理性与集体理性的矛盾。博弈论和对策行为 q囚徒困境在经济学上的应用博弈论和对策行为 q囚徒困
11、境在经济学上的应用 一个非集体理性选择,如纳什均衡(坦白,坦白),用经济学术语说,其中存在“帕累托改进”的机会。所谓帕累托改进就是说,它在不使另一部分人的境况变得更坏的前提下,至少能改进一部分人的境况。如果不存在帕累托改进的情况,便达到“帕累托最优”。这里,如果两人都选择抵赖,两人的境况都有所改进。所以,(坦白,坦白)不是帕累托最优。集体的理性选择应该是大家都抵赖。但是这个帕累托改进办不到。为什么?因为我们已经验证,(坦白,坦白)这个策略组合正是一个纳什均衡。在一个纳什均衡中,不会有人主动去打破这种格局的。博弈论和对策行为 q囚徒困境在经济学上的应用 那么,两个囚徒事先订好攻守同盟,两人都采取
12、抵赖的策略,不是可以改善两人的境遇吗?但问题是,这个攻守同盟有没有意义?没有。原因在于(抵赖,抵赖)这个策略组合不是一个纳什均衡,没有人有积极性去遵守这个协议。一般地,假设博奕中的每个局中人事先达成一项协议,规定了各自的行为规则。如果局中人会自觉遵守这个协议,等于说这个协议构成了一个纳什均衡:给定别人遵守协议的情况下,自己的最好选择就是也遵守协议。相反,一个协议不构成纳什均衡时,它就不可能自动实施,因为至少有一个局中人会违背这个协议。所以,不满足纳什均衡要求的协议是没有意义的。博弈论和对策行为 q囚徒困境在经济学上的应用 以上的分析告诉我们,用经济学的观点来看,只有由满足个人理性选择的策略组成
13、的集合才是均衡的,或者说只有纳什均衡才是稳定的。博弈论和对策行为 q囚徒困境在经济学上的应用 看两个寡头合谋与价格卡特尔的情形,它也存在个人理性与集体理性的冲突。在两个寡头合谋条件下的产量与价格决定,是基于两个寡头利润总和的最大化目标,而不是每个企业自己的利润最大化。因此这种最大化目标下的产量分配符合两家企业的共同利益,却不是使每家企业自己的利润最大化的产量,换言之,并不是每家企业自己的“最优反应”。所以,卡特尔产量分配不是一个纳什均衡。正因为此,卡特尔下一定会有违约冲动,卡特尔具有不稳定性。博弈论和对策行为 q囚徒困境在经济学上的应用 在军备竞赛中,人们年复一年的谈判,试图签订一个限制军备的
14、条约。但是这种条约也存在个人理性与集体理性的冲突。签订条约对世界和平有利,但履行条约未必是各国行动的“最优反应”:试想,如果我减少军备开支,而你增加军费支出,我不是受到威胁了吗?所以,这种条约不构成纳什均衡,各国都有违约的冲动。纳什均衡是各国都大量增加军费预算,结果军备竞赛就只好继续下去。冷战时期前苏联和美国之间的军备竞赛就是典型一例,两国都在导弹上花了几万亿美元,如果把资源用于民品生产,两国的社会福利就会变得更好。博弈论和对策行为 q囚徒困境在经济学上的应用 企业竞争而产生的广告资源浪费也是典型例子。如两家寡头竞争,经理们可选择策略是“多做广告”和“少做广告”,各种策略组合的盈利矩阵如下表,
15、企业1最优反应是多做广告,企业2最优反应也是多做广告,因此(多做广告,多做广告)是一个纳什均衡。这个纳什均衡的结果是大量资源消耗在广告上。企业企业2 2少做广告少做广告多做广告多做广告企业企业1 1少做广告少做广告3030,30301010,4040多做广告多做广告4040,10102020,2020博弈论和对策行为 q囚徒困境在经济学上的应用 纳什均衡概念的局限性在于,在博奕中有可能纳什均衡不是唯一的。例:两家寡头价格竞争,经理可选择的策略是价格不变或涨价,收益矩阵如下所示:企业企业2 2价格不变价格不变涨价涨价企业企业1 1价格不变价格不变1010,1010100100,-30-30涨价涨
16、价-20-20,3030140140,3535 结果发现纳什均衡有两个:(价格不变,价格不变)、(涨价,涨价)。博奕中的实际结果取决于首先采取什么行动。如果先前的情况是价格不变,那么这一博奕的预期结果就是价格不变。另外,对有的博奕来说,也可能不存在纳什均衡。博弈论和对策行为 q策略型博弈的实例和解(性别战)例2.性别战(battle of the sexes)一男一女恋爱,有些业余活动要安排,或者去看足球比赛,或者去看芭蕾舞演出。男的偏好足球,女的则更喜欢芭蕾舞,但他们都宁愿在一起,不愿分开。下表给出收益矩阵:女女足球足球芭蕾芭蕾男男足球足球2 2,1 10 0,0 0芭蕾芭蕾0 0,0 01
17、 1,2 2博弈论和对策行为 q策略型博弈的实例和解(性别战)例2.性别战(battle of the sexes)这个博奕中有两个纳什均衡:(足球,足球)和(芭蕾,芭蕾)。就是说,一方去足球场,另一方也会去足球场;类似地,一方去看芭蕾,另一方也会去看芭蕾。在实际生活中,也许是这一次看足球,下一次看芭蕾,如此循环,形成一种默契。这在实际生活中是指,两种互补的活动应该配合,尽管配合的方式可能有很多种。比如,两家工厂生产的产品可能是互补的,一家为另一家提供零配件,这里有一个标准的选择问题,由于种种原因,很可能在产品标准的选择上,生产成品的厂家与生产零配件的厂家之间有冲突。这就需要相互妥协,但妥协的
18、结果有两种可能,或者是生产零配件的厂家适应生产成品的厂家,或者是生产成品的厂家适应于生产零配件的厂家。博弈论和对策行为 q策略型博弈的实例和解(性别战)例2.性别战(battle of the sexes)博弈论和对策行为 q策略型博弈的实例和解(性别战)例2.性别战(battle of the sexes)性别战的例子中有两个纳什均衡,那么,究竟那一个纳什均衡会实际发生?我们不知道。这里还有一个先动优势(first-mover advantage),比如说,若男的先买票,两人就会出现在足球场,若女的买票,两人就会出现在芭蕾舞剧院。博弈论和对策行为 q策略型博弈的实例和解(性别战)例2.性别战
19、(battle of the sexes)在囚徒博奕中,我们隐含地假定双方下奕者是同时实施其策略的。性别战中的先动优势表明了另一种类型的博奕,称为顺序性博奕(sequential game)。在顺序性博奕中,有一名下奕者先博奕行动,然后另一名下奕者要做出反应。先下奕者有先动优势。性别战的例子也有很多应用。企业进入新的市场就是一种顺序性博奕。新企业首先决定是否进入,然后现有企业决定是不管它,还是阻止它的进入。博弈论和对策行为 q性别战在经济学上的应用 设想有一家垄断企业已在市场上(称为“在位者”),另一家新企业虎视眈眈想进入(称为“进入者”)。在位者想保持自己的垄断地位,所以就要阻挠进入者的进入
20、。在这个博奕中,进入者有两种策略可以选择:进入还是不进入;在位者也有两种策略:默许还是斗争。各种策略组合的收益矩阵如下表:例:市场进入阻挠(entry deterrance)在位者在位者默许默许斗争斗争进入者进入者进入进入4040,5050-10-10,0 0不进入不进入0 0,3003000 0,300300博弈论和对策行为 q性别战在经济学上的应用 博奕也有两个纳什均衡,即(进入,默许),(不进入,斗争),相应的收益为(40,50),(0,300)。就是说如果新企业首先进入,在位者的最优反应是默许;类似地,如果在位者默许,新企业的最优策略是进入。尽管在新企业不进入时,默许和斗争对在位者是一
21、样的效果,但在在位者选择斗争时,新企业的最优选择是不进入,所以,(不进入,斗争)是一个纳什均衡,而(不进入,默许)不是纳什均衡。博弈论和对策行为 q性别战在经济学上的应用 一家企业率先推出一种新产品,其它企业跟进也是一种顺序性博奕。把新产品率先推向市场的先动企业的成功可能性要大一些,跟进者面临的困难是消费者对先动企业的品牌有了一定的忠诚度,并在头脑中有了先动企业的形象;而且,如果消费者在学习使用先动企业的新产品时花费了学习时间,往往不愿意再花时间或改动设备去使用另一家企业的类似产品。文字处理和数据库软件就是很好的例子。对一种程序或一种输入方法已很熟练者,一般不愿意更换,除非后者有很多优点。博弈
22、论和对策行为 q性别战在经济学上的应用 下表是两个竞争企业是否推出新产品的利益矩阵。这个博奕中有两个纳什均衡:一家推出新产品,一家无新产品。推出新产品的企业赢利为10,无新产品的企业赢利为-5。究竟是企业1还是企业2赢利,要看是哪一家企业首先行动。假定企业1具有较高的研究和开发优势,率先在市场上推出新产品,那么企业2的最佳反应就是不跟进,因为跟进的损失是7,不跟进的损失只有5。企业企业2 2无新产品无新产品推出新产品推出新产品企业企业1 1无新产品无新产品2 2,2 2-5-5,1010推出新产品推出新产品1010,-5-5-7-7,-7-7博弈论和对策行为 q优超解 如果一个局中人在任何情况
23、下从某种策略中得到的收益均大于从其它策略中得到的收益,那么对他而言,这个策略称为优超策略或支配性策略(dominant strategy)。其它的策略称为被优超策略或被支配策略(dominated strategy)。博弈论和对策行为 q优超解定义3:对局中人I而言,策略si为被优超的策略是指存 在sii,使得对所有的s-iS-i,有 利用优超概念,我们可以通过迭代剔除被优超策略的方法对博奕局势求解。当局中人都有优超策略,这些优超策略形成一个策略组合,就称为优超策略均衡。博弈论和对策行为 q优超解 在囚徒博奕中,对囚徒A来说,“抵赖”被“坦白”优超,对囚徒B也同样,所以,(坦白,坦白)就是一个
24、优超策略均衡。在这个例子中,优超策略均衡也就是纳什均衡。当有一名局中人具有优超策略时,博奕总会有一个纳什均衡,因为当该局中人采取优超策略时,另一局中人就会据此做出自己的最优反应。但纳什均衡不一定是优超策略均衡。博弈论和对策行为 q优超解 在市场进入阻挠博奕中,在位者有一个优超解“默许”,进入者对默许的最优反应是“进入”,所以,(进入,默许)是一个纳什均衡。在表11-2表示的企业价格博奕中,企业2有一个优超策略“价格不变”,企业1对此的最优反应也是价格不变,所以,(价格不变,价格不变)是一个纳什均衡。但在表11-1表示的博奕中,局中人都没有优超策略,但这个博奕有两个纳什均衡:(价格不变,价格不变
25、)和(涨价,涨价)。大多数的博奕局势中利用优超概念只能够对博奕问题进行简化,得不到对策解。博弈论和对策行为 q优超解例2:考虑由下表给出的策略性博奕:局中人局中人B Bu uv vx x3 3,6 67 7,1 1局中人局中人A Ay y5 5,1 18 8,0 0z z6 6,0 06 6,2 2博弈论和对策行为 q优超解 对于局中人A来说,策略x被y优超了,所以,可以删去x使问题简化为:局中人局中人B Bu uv v局中人局中人A Ay y5 5,1 18 8,0 0z z6 6,0 06 6,2 2 但是,对这个简化了的博奕,我们仍然无法找到对策解。有些博奕问题既没有优超均衡解,也没有纳
26、什均衡解。博弈论和对策行为 q最大最小策略(Max-min strategy)冯.诺依曼和摩根斯坦认为策略的选择与决策者的性格有关。某些决策者可能认为,冒失行动容易造成重大失误,最好还是从最不利的情况出发,向最好的方向努力,力求做到有备无患。这样的决策者属于风险厌恶型的,他首先想到的是各种不利因素和风险,所以他先要考虑各种最坏的结果,然后从最坏结果中选出一个最好结果。按这种原则选取的策略可以称为最大最小策略。博弈论和对策行为 q最大最小策略(Max-min strategy)例:在P285表11-4中,假如企业1的决策者是求稳型的,他会这样考虑:不管对方采取什么策略,我不推出新产品最少可以得到
27、收益3,推出新产品最少可以得到收益2,比较这两种策略,还是不推出新产品为好。假如企业2的决策者也是风险厌恶型的,他也有同样的思维方式:先从无新产品的决策中找出最小收益3,再从有新产品的决策中找出最小收益2,然后从两个最小收益中找最大收益为3,相应的策略为无新产品。如果两家寡头企业的决策者都是这种风险厌恶型的,市场就没有新产品推出了。但是,(无新产品,无新产品)不是纳什均衡,所以,这种对策结构是不稳定的。博弈论和对策行为 q最大最小策略(Max-min strategy)按最大最小原则选择的策略是一种求稳型策略,它不保证利润最大化,却能保证风险最小化。在表11-2表示的企业价格博奕中,假如企业1
28、按最大最小原则选择策略,它的最大最小策略是“价格不变”,企业2的最大最小策略也是“价格不变”。(价格不变,价格不变)正是纳什均衡。博弈论和对策行为 q混合策略和重复性博弈 策略有两种概念,前面我们所说的策略,都是纯策略,另一种策略概念为在纯策略基础上形成的混合策略(mixed strategy)。局中人I的混合策略i是他的纯策略空间Si上的一种概率分布,表示局中人实际对策时根据这种概率分布在纯策略中随机选择加以实施。博弈论和对策行为 q混合策略和重复性博弈 为了叙述问题方便,下面我们主要讨论二人零和博奕。零和对策是策略型对策的最基本模式,其中局中人得失的总和为零(或为一常数)。二人零和博奕是指
29、零和博奕中有且只有两个局中人,一人的所得正是另一人的所失。二人零和对策在博奕论的早期发展中曾占有过重要地位。二人零和博奕的支付矩阵可以记为:局中人局中人B Bb b1 1b b2 2a a1 1 1111 1212a a2 2 2121 2222 如果支付矩阵的数值 ij ij为正时,表示局中A的赢得值,若支付矩阵的数值 ij ij为负时,表示局中A的损失或输掉的值。博弈论和对策行为 q混合策略和重复性博弈 例:二人零和博奕的收益矩阵如下表,局中人A的收益值均为正,而局中人B的收益值均为负,即表示局中人B的损失值。局中人局中人B Bb b1 1b b2 2局中人局中人A Aa a1 11 1,
30、-1-14 4,-4-4a a2 23 3,-3-32 2,-2-2博弈论和对策行为 q混合策略和重复性博弈 如果每个局中人完全清楚地知道对手将会采取什么样的策略,会是什么情况呢?A如果知道B会选择b1,则会选择a2;当A连续使用策略a2时,B必定会察觉,便会选择b2;当B连续使用b2时,A也会察觉,从而改为选择a1;B如果知道A选择了a1,则又会选择b1;如此反复,以至无穷,所以,双方如果使用纯策略进行博奕时,就会出现不稳定状态,不会有最终的均衡结果。这说明双方都不能连续不变地使用某种纯策略,都必须考虑如何随机地使用自己的策略,使对方捉摸不到自己使用何种策略。这就需要混合策略的对策。博弈论和
31、对策行为 q混合策略和重复性博弈定义4:局中人的一个混合策略是一个概率密度函数 i:Si R,使得 对局中人i来说,所有的i的集合记为i=i。博弈论和对策行为 q混合策略和重复性博弈 假设A采取混合策略,即以概率x随机的使用纯策略a1,以概率(1-x)使用纯策略a2,去对付B使用纯策略b1,A的收益便是x的函数:U=x+3(1-x)=3-2x 若A使用上述混合策略去对付B使用纯策略b时,A的收益便是 U=4x+2(1-x)=2+2x 博弈论和对策行为 q混合策略和重复性博弈 用图表示时,U和U的表达式是两条直线,x的取值范围为0,1,见下图:U543210112345mxmpqpq博弈论和对策
32、行为 q混合策略和重复性博弈 U的值随着x值的增长而减少,U的值随着x值的增大而增大。两条直线的交点m对应着xm。局中人A按最大最小原则选择他的策略,即他的选择按 Maxmin(3-2x,2+2x)来进行的。min(3-2x,2+2x)即折线pmq,m点是折线pmq的最高点,所以m点是混合策略意义下的最大最小值。当U=U时,可解得xm=1/4,U=U=5/2。所以,局中人A的最优混合策略为:a a1 1,a a2 2(1/4(1/4,3/4)3/4)U U=U=U =5/2=5/2A:博弈论和对策行为 q混合策略和重复性博弈 可以用同样的方法分析局中人B的最优混合策略。若B以概率y随机的使用纯
33、策略b1,以概率(1-y)使用纯策略b2,去对付A使用纯策略a1,B的损失值为:Ub=y+4(1-y)=4-3y 若B使用上述混合策略去对付A使用纯策略a时,B的损失值便是:Ub=3y+2(1-y)=2+y博弈论和对策行为 q混合策略和重复性博弈 用图表示时,Ub和Ub的表达式是两条直线,y的取值范围为0,1,见下图:U543210112345nynef博弈论和对策行为 q混合策略和重复性博弈 注意,此时B按最大最小原则选择自己的最优策略,即 minmax(4-3y,2+y)折线enf 表示max(4-3y,2+y),n点是折线enf的最低点,也即最小最大值。N点对应的yn=1/2,以此概率构
34、成的B的混合策略是B的最优混合策略。b b1 1,b b2 2(1/2(1/2,1/2)1/2)U Ub b=U=Ub b=5/2=5/2B:博弈论和对策行为 q混合策略和重复性博弈 本例中U=Ub=5/2,这样,A的混合策略(1/4,3/4)与B的混合策略(1/2,1/2)便构成一个“最大最小策略均衡”。一般记作:max min E(X,Y)=min max E(X,Y)式中X=(x1,x2,xn),Y=(y1,y2,yn)为局中人A和B使用各自策略的概率,期望值E(X,Y)=博弈论和对策行为 q混合策略和重复性博弈 下面再对这个例子作进一步分析。设局中人A使用混合策略x,局中人B使用最优混
35、合策略y*,这时局中人B的期望支付若局中人B使用某种混合策略,而局中人A使用最优混合策略,这时局中人A的收益的期望值为博弈论和对策行为 q混合策略和重复性博弈 这说明当局中人A使用最优策略时,不管局中人B使用何种策略,他的收入的期望值不变,从而保持有利的竞争地位;当局中人B使用最优策略时,不管局中人A使用何种策略,他的支付的期望值不变,这就是B的最好应对方式。反之,如果A不使用最优策略,他的期望收入必定小于U;如果B不使用最优策略,他的期望损失值就要大于Ub。从而,局中人A和B的最优混合策略构成了一个混合策略纳什均衡。博弈论和对策行为 q混合策略和重复性博弈定义5:对于博奕中的所有的局中人,称为*混合策略 纳什均衡,是指 博弈论和对策行为 q混合策略和重复性博弈 任何一个博奕,也许不存在纯策略纳什均衡,但一定存在混合策略纳什均衡。对于零和博奕,若存在“最大最小策略均衡”,则该均衡必定是纳什均衡。如上例所示。混合策略中一定能找到纳什均衡这一性质,使得混合策略更有实用性。同时,混合策略也许更符合客观实际,一则因为博奕的局中人选择策略时本来就不是确定无疑的,而是具有一定的随机性;并且,每个局中人对于对手的策略选择的猜测也不是十分可靠的,这种猜测的命中率也是随机的。二则因为混合策略对付反复进行多次的博奕为纯策略更很有效,而这种重复性博奕在现实中更为普遍。
限制150内