《高级微观经济学 8 博弈论21448.docx》由会员分享,可在线阅读,更多相关《高级微观经济学 8 博弈论21448.docx(129页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、128第八章 博弈论第八章 博弈论前面章节对经济济人最优决策策的讨论,是是在简单环境境下进行的,没没有考虑经济济人之间决策策相互影响的的问题。本章章讨论这个问问题,建立复复杂环境下的的决策理论。开开展这种研究究的的理论叫叫做博弈论,也也称为对策论论(Gamee Theoory)。最最近十几年来来,博弈论在在经济学中得得到了广泛应应用,在揭示示经济行为相相互制约性质质方面取得了了重大进展。大大部分经济行行为都可视作作博弈的特殊殊情况,比如如把经济系统统看成是一种种博弈,把竞竞争均衡看成成是该博弈的的古诺-纳什均衡。博博弈论的思想想精髓与方法法,已成为经经济分析基础础的必要组成成部分。第一节 博弈
2、事事例博弈是一种日常常现象,例如如棋手下棋,双双方都要根据据对方的行动动来决定自己己的行动,双双方的目的都都是要战胜对对方,互不相相容,互相影影响,互相制制约。一般来来讲,博弈现现象的特征表表现为两个或或两个以上具具有利害冲突突的当事人处处于一种不相相容的状态中中,一方的行行动取决于对对方的行动,每每个当事人的的收益都取决决于所有当事事人的行动。当当所有当事人人都拿定主意意作出决策时时,博弈的局局势就暂时确确定下来。博博弈论就是研研究这种不相相容现象的一一种理论,并并把当事人叫叫做局中人(pllayer)。博弈论推广了标标准的一人决决策理论。在在每个局中人人的收益都依依赖于其他局局中人的选择择
3、的情况下,追追求收益最大大化的局中人人应该如何采采取行动?显显然,为了确确定出可行的的策略,每个个局中人都必必须考虑其他他局中人面临临的问题。下下面来举例说说明。例1便士匹配配(Matcching Penniies)(二人零和博博弈)设博弈中有两个个局中人甲和和乙,每个局局中人都有一一块硬币,并并且各自独立立安排硬币是是否正面朝上上。局中人的的收益情况是是这样的:如如果两个局中中人同时出示示硬币正面或或反面,那么么甲赢得元元,乙输掉元;如果一一个局中人出出示硬币正面面,另一个局局中人出示硬硬币反面,那那么甲输掉元,乙赢得得元。表1: 便士士匹配博弈局局势表 乙甲正面反面正面(正,正)(正,反)
4、反面(反,正)(反,反)对于这个博弈,每每个局中人可可选择的策略略都有两种:正面朝上和和反面朝上,即即甲和乙的策策略集合都是是正面,反面。当甲甲和乙都作出出选择时,博博弈的局势就就确定了。显显然,该博弈弈的局势集合合是(正面,正面),(正面,反面面),(反面面,正面),(反面,反面),即即各种可能的的局势的全体体,也称为局局势表,即表表1。表2: 甲和和乙的收益表表 乙甲正面反面正面 ,反面, ,每个局中人的收收益都取决于于所有局中人人的决策,也也就是说,局局中人的收益益是博弈局势势的函数。本本例中,甲的的收益函数为为:,;乙的收益益函数为:,。局中人的的收益函数也也可用表格或或矩阵加以表表示
5、,并称其其为收益表或收益矩阵。表表2中,甲的的收益列在左左边,乙的收收益列在右边边。该博弈的特点在在于每个局中中人的收益都都是另一个局局中人的付出出,即甲和乙乙的收益之和和为零,收支支发生在局内内,不涉及任任何局外人。这这种博弈就是是所谓的二人人零和博弈。习习惯上,人们们喜欢把二人人博弈的第一一个局中人甲甲叫做“列”,第二个局局中人乙叫做做“行”,而且总是是把列的收益益写在前面(即左边),行的收益益写在后面(即右边)。例2囚徒难题题(Prissoners Dellimma)(二人变和博博弈)表3: 囚徒徒博弈局势表表乙甲合作背叛合作(合作,合作)(合作,背叛)背叛(背叛,合作)(背叛,背叛)有
6、两个狂徒甲和和乙因共同参参与了一起犯犯罪活动而被被囚禁收审。他他们可以选择择合作,拒绝绝供出任何犯犯罪事实;也也可以选择背背叛,供出对对方的犯罪行行径。这就是是所谓的囚徒徒博弈,也叫叫做囚徒难题题。博弈的局局中人甲和乙乙都有两种可可选择的策略略:合作与背背叛。囚徒博弈的意义义在于它可以以解释寡头垄垄断厂商的行行为,关键是是赋予合作与与背叛具体的的经济含义。比比如在双头垄垄断的情况下下,合作可以以解释为“保持索要一一个高价”,背叛可解解释为“降价以争夺夺对手的市场场”。右表给出出了囚徒博弈弈的局势表。局中人可以事先先讨论这局博博弈,但实际际决策必须独独立地做出。如如果甲采取合合作策略,不不供出乙
7、的犯犯罪事实,那那么乙就能得得到30000元的收益。同同样,如果乙乙采取合作策策略,那么甲甲就能得到33000元的的收益。可见见,如果甲乙乙双方都采取取合作策略,双双方各得30000元收益益。但是,审讯者用用1000元元奖赏来鼓励励局中人采取取背叛策略。这这样,只要局局中人选择背背叛,他就会会得到10000元鼓励,而而不管另一个个局中人会采采取什么策略略。需要注意的是,囚囚徒博弈中的的货币支付来来自第三方局外人,这这正是囚徒博博弈同便士匹匹配博弈的不不同之处。奥奥曼(Aummann)11987年对对囚徒博弈给给出了一个特特别简单的描描述:每个局局中人都可以以对仲裁人简简单地宣告“给我10000
8、元”或“给对方30000元”。表4: 甲和和乙的收益表表 乙乙 甲合作背叛合作3000, 30000 0, 40000背叛4000, 001000, 10000简单分析一下就就会发现,如如果一个局中中人采取合作作策略,而另另一个局中人人采取背叛策策略,那么采采取合作策略略的局中人的的收益为零,而而采取背叛策策略的局中人人的收益为44000元(3000元元收益再加上上1000元元的背叛鼓励励)。如果双双方都采取背背叛策略,则则双方的收益益各为10000元。表44列出了甲乙乙双方的收益益情况。从收收益表可以看看出,甲乙双双方的收益之之和不为零,而而且收益和是是变化的。因因此,囚徒博博弈是一种变变和
9、博弈。直觉上看,甲和和乙都应采取取合作策略(互不供出对对方的犯罪事事实),各得得3000元元收益。但从从收益表可以以得出这样的的结论:如果果一个局中人人认为另一个个局中人将合合作,从而他他将得到30000元收益益,那么他若若采取背叛策策略,就将总总共能获得44000元的的收益;如果果他认为另一一个局中人为为了得到10000元鼓励励而将背叛,那那么他也就只只好为了自己己也取得10000元鼓励励而采取背叛叛策略(否则则,他将一无无所获)。总总之,在收益益最大化动机机的驱使下,局局中人的最优优选择是背叛叛。这样一来来,甲乙双方方都采取背叛叛策略,各得得1000元元收益;而不不是都采取合合作策略,各各
10、得30000元。这是一一个典型的博博弈悖论,问问题的关键在在于每个局中中人都有背叛叛的鼓励,而而不管其他局局中人将做什什么。例3古诺博弈弈(双头垄断断:产量较量量)法国经济学家古古诺(Couurnot)于18388年以天然矿矿泉井为例,首首次建立了简简单的双头垄垄断博弈模型型,其特点是是,垄断厂商商双方都天真真地以为对方方不会改变原原有产量水平平,双方都追追求各自利润润最大化。古古诺假定:有两个天然然矿泉在一起起,分别为厂厂商甲和乙占占有;两个矿泉都都为自流井,生生产成本为零零,边际成本本也为零;甲和乙面对对相同的需求求曲线,采用用相同的价格格;双方都以为为对方的产量量水平不会改改变。在这些些
11、假设前提下下,甲和乙各各自独立决定定自己的产量量水平,以求求利润最大化化。设是甲乙双方共共同面临的反反需求函数。当当甲的矿泉水水产量为,乙乙的产量为时时,矿泉水的的市场价格为为,甲的利润润, 乙的利利润为。在这这个博弈中,甲甲乙双方的策策略都表现为为选择产量水水平,局中人人的收益即为为厂商的利润润。当甲的产产量为时,乙乙以为甲不会会改变这一产产量,而选择择一个合适的的产量水平以以使自己的利利润达到最大大。同样,当当乙的产量水水平为时,甲甲以为乙不会会改变这一产产量,而选择择一个合适的的产量水平以以使自己的利利润达到最大大。为了说明这个博博弈的结果,假假设甲乙双方方面临的反需需求函数。用用表示这
12、局博博弈中甲选择择的最优产量量,表示乙选选择的最优产产量水平,则则甲乙各自的的收益分别为为和。由于实现现了利润最大大化,因此解之得:当乙的的产量水平为为时,甲决定定的产量水平平为(这是甲甲对乙的反应应函数);当当甲的产量水水平为时,乙乙决定的产量量水平为(这这是乙对甲的的反应函数)。其中,表表示矿泉水市市场容量(即即价格为零时时的矿泉水需需求量)。进进一步求解可可得:, 即即博弈的结果果是双方最终终各占据矿泉泉市场的三分分之一。反应应函数说明,古古诺博弈中每每个局中人的的决策(选定定的产量水平平)不但依赖赖于其他局中中人的决策,而而且与市场的的容量有关。例4贝特兰博博弈(双头垄垄断:价格较较量
13、)古诺博弈模型描描述了双头垄垄断厂商之间间展开的产量量较量。实际际上厂商之间间的产量较量量并不如价格格较量那么普普遍,寡头之之间应该有激激烈的价格竞竞争。不论市市场价格如何何,只要某一一厂商降低价价格,而其他他竞争对手保保持原价格不不变,那么降降价厂商就能能占有全部市市场。这就是是说,我们假假定消费者只只从最低价格格厂商那里购购买产品。为为此,法国经经济学家贝特特兰(Berrtrandd)于18883年提出了了以价格为选选择策略的贝贝特兰博弈模模型,反对古古诺关于产量量的博弈模型型。还以矿泉水为例例,在贝特兰兰博弈模型中中各厂商都预预期对手不会会改变价格,从从而将自己的的价格确定在在利润最大化
14、化的水平之上上。这就是说说,贝特兰博博弈的构建同同古诺博弈相相似,所不同同的是贝特兰兰博弈中局中中人的策略是是选择价格,而而古诺博弈局局中人的策略略是选择产量量水平。贝特兰博弈中两两个局中人甲甲和乙也是面面临相同的市市场需求函数数,不过现在在价格是自变变量,产量为为因变量(古古诺模型正好好相反)。设设市场需求函函数为, 为为了分析上简简单起见,进进一步设(这这里,,,即与古诺诺模型中的市市场需求相同同)。局中人人的收益仍是是他所获得的的利润。如果甲和乙不相相互勾结串通通,当乙采取取了价格水平平时,甲认为为乙不会改变变这一价格水水平,从而为为了占领市场场而要采取低低于乙的价格格水平的价格格,于是
15、甲的的利润为,乙乙的利润为零零;同样,当当甲采取了价价格水平时,乙乙认为甲不会会改变这一价价格水平,从从而为了占领领市场而要采采取低于甲的的价格水平的的价格,于是是乙的利润为为, 甲的利利润为零。如果甲和乙相互互勾结串通起起来,采取相相同的价格策策略,即,那那么甲和乙就就能索要一个个垄断价格,并并且每人可收收取一半的垄垄断利润。由此可见,甲和和乙的利润函函数分别为: , 如果甲和乙勾结结串通,合作作起来,那么么双方就能按按照最大利润润价格获得垄垄断价格,并并且各得最大大利润的一半半。这里,利利润最大化价价格是按照确定的。但是,占占领市场的诱诱惑对每个局局中人都存在在,只要他稍稍微降价,他他就能
16、获得全全部市场。假假如甲先进入入该矿泉市场场,那么甲就就按照利润最最大化价格$P_1=QQ_o/(22b)$获取取最大利润。 继而乙进入入这个市场,且且乙认为甲不不会改变他的的价格$P_1$,于是是乙为了夺取取市场而采取取低于甲的价价格水平的一一个价格(。由于乙夺夺走了市场,甲甲同样又会采采取低于乙的的价格水平的的价格,以夺夺回市场。这这样不断往复复下去,直至至最后甲乙双双方都把价格格水平定为零零时才可达到到均衡,此时时双方的收益益为零,市场场各占一半(即甲的销售售量和乙的销销售量相等,且且)。这就是是甲乙双方不不合作的结果果,双方都变变得更差。以上分析表明:把贝特兰博博弈与古诺博博弈作比较,
17、对对同一市场来来说,由于选选择了不同的的策略集合(一个以产量量作为策略,另另一个以定价价作为策略),得出了不不同的博弈结结果,贝特兰兰博弈的均衡衡价格、均衡衡产量和均衡衡利润都呈完完全竞争状态态(超额利润润为零),而而古诺博弈的的结果不是这这样;再把贝贝特兰博弈同同囚徒难题博博弈作比较,二二者具有相似似的结构,即即局中人合作作会取得最好好的结果,但但利益的诱惑惑促使他们采采取不合作的的行动,致使使双方博弈的的结局都变得得更差。贝特兰博弈也可可用囚徒博以以来解释:合合作是指两个个厂商的勾结结,背叛是指指两个厂商独独立行动,没没有勾结。合合作,可以索索要一个高的的垄断价格;背叛,则导导致市场价格格
18、为零,双方方利润为零。可可见,双方合合作起来,对对两个厂商都都有利,似乎乎应该合作。但但博弈的最终终结果是双方方都采取背叛叛策略,导致致谁也得不到到利润。本节所举的这些些事例说明,寡寡头垄断厂商商之间展开的的竞争与较量量完全可以用用博弈加以描描述和研究。实实际上,经济济学中大部分分经济现象都都可以作为博博弈的特殊情情形进行研究究,比如历史史上解决竞争争均衡的存在在性这一经济济学基本问题题时,就把经经济系统看成成为一局博弈弈。为了研究博弈,必必须抓住博弈弈现象的基本本要素,这些些要素是:局局中人、策略略、收益。也也就是说,博博弈可以用局局中人集合、策策略集合和收收益函数加以以描述。局中中人从策略
19、集集合中选择一一种策略后所所获得的效用用或利益,就就是局中人的的收益(paayoffss),也叫做做得失。我们们假定每一个个局中人都知知道他自己和和别人的策略略集合与收益益函数,这就就是说,每个个局中人的策策略集合与收收益函数为所所有局中人所所共知。当然然,每个局中中人都知道其其他局中人掌掌握着这些信信息和知识。局局中人的收益益不但依赖于于他自己的策策略选择,而而且依赖于其其他局中人的的策略选择。我我们再假定每每个局中人在在给定的主观观信念下会选选择收益最大大化的行动,并并且当新的信信息根据贝叶叶斯规则到来来时,这些信信息会得到修修正(即根据据贝叶斯全概概率公式从先先验概率计算算后验概率)。第
20、二节 策略博博弈为了能够正确地地应用博弈论论研究经济问问题,需要对对博弈加以准准确地描述和和定义。要定定义一个博弈弈,需要确定定三件事情:一是局中人人集合(seet of playeers),一一是局中人的的策略集合(set oof strrategiies),一一是局中人的的收益函数(payofff funnctionn)。这三件件事情中,确确定策略集合合是至关重要要的。局中人人以策略决定定胜负,目标标是使他的收收益最大化。这这种以策略定定胜负的博弈弈,称为策略略博弈(gaame off straategy)。正象比较较古诺博弈和和贝特兰博弈弈时说明的问问题一样,用用博弈论研究究经济问题时时
21、,对于同一一经济现象,由由于选择了不不同的策略集集合,得到的的博弈结果截截然不同。用表示博弈的局局中人集合,表示局中人的策略集合,表示的收益函数,则就表示了一个博弈。根据局中人的多少,博弈可分为二人博弈和多人博弈。根据博弈的策略集合是否有限,博弈还又可分为有限博弈和无限博弈。例如,便士匹配和囚徒难题都是有限博弈,而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和是否固定,把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈)和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类,通常称为矩阵博弈。本节以二人博弈为重点,介绍有关策略博弈的概念与理论。一策
22、略表与收收益矩阵设二人博弈的局局中人是甲和和乙。甲有种种可选策略,策策略表为;乙乙有种可选策策略,策略表表为。当甲采采取策略,乙乙采取策略时时,称为博弈弈的局势,集合就是局势集合合(局势表、局势矩阵),即即每个局中人选择择自己的策略略时,都要考考虑对手的行行动。这样每每个局中人的的收益不但与与自己的选择择有关,而且且与对手的选选择有关,收收益函数是定定义在局势集集合上的函数数,这里假定定了局中人的的收益是可以以用实数来都都来计量的。用用表示局中人人甲的收益函函数,用表示示局中人乙的的收益函数。由由于局势集合合是有限集合合,收益函数数和都可用矩阵阵加以表示,这这些矩阵就称称为收益矩阵阵。记,,则
23、甲和乙乙的收益矩阵阵分别为:,当(常数)时,该该博弈就是常常和博弈。否否则,就是变变和博弈。局局中人的策略略与收益也可可用收益表加加以表达:表1: 博弈弈的收益表乙的策略甲的策略,一般情况下,二二人博弈可表表示成。但对对于二人常和和博弈,则可可简单地表示示成,其中为收益益的常数和。而而矩阵博弈则则可更简单地地表示成,或或者直接用甲甲的收益矩阵阵来表示矩阵阵博弈。二最小最大原原理局中人的目标是是选择使自己己收益最大化化的策略,我我们来分析局局中人如何决决策。假定甲甲乙双方彼此此了解对方的的收益表。如如果甲通过间间谍获悉乙采采取某种策略略时,甲必然然会采取相应应的某种策略略,以求自己己的收益最大大
24、,即选择使使下式成立:但是,当甲不知知道乙会采取取什么策略时时,如果甲是是一个避险者者,那么他必必将作最坏的的打算,以求求取得较好的的效果。首先先,甲要从收收益表中找出出自己的每一一种策略下至至少可获得的的收益(即所能获得得的最小收益益),即先求解解,然后从这这些最小收益益策略中选择择出收益最大大的策略,即即“从最小收益益中选择最大大收益”。从收益矩矩阵来看这个个决策过程,即即甲首先选出出自己的收益益矩阵的各行行的最小值,然然后从这些最最小值中再选选出最大值:这就是求解策略略博弈的最小小最大原理,其其合理性表现现为:如果甲甲采取按照最最小最大原理理确定的策略略,那么不论论乙采取什么么策略,甲都
25、都可至少得到到这个最小最最大收益。由由此可见,最最小最大原理理是能够确保保局中人收益益的一种原理理。今后,我我们把局中人人甲按照最小小最大原理所所确定的策略略,叫做甲的的稳妥策略。对于局中人乙来来说,他的决决策行为和决决策过程同甲甲是一样的,只只不过乙要依依赖于收益矩矩阵。乙决策策的最小最大大原理是:乙乙先选出收益益矩阵的各列列的最小值,然然后从这些最最小值中选出出最大值:局中人乙按照最最小最大原理理确定的策略略,称为乙的的稳妥策略。读者可能会问:甲先找出他他的收益矩阵阵各列的最大大值,然后再再从这些最大大值中选出最最小值,不也也是一种很好好的决策办法法吗?其实,这这种决策办法法叫做最大最最小
26、法,照此此办法做出的的决策,在甲甲不知道乙会会采取什么策策略的情况下下不能保证甲甲的最大最小小收益能够达达到。原因在在于最大最小小法需要确定定出乙的每种种策略下甲的的最大可能的的收益。假如如甲按照最大大最小法选出出了策略, 那么当乙采采用策略时,甲甲可得到最大大最小收益。但但是,若乙采采用的不是策策略, 而是是策略,那么么甲如不重新新选择他的收收益矩阵第列列的最大值的的话,他的最最大最小收益益就不一定能能够达到,这这正是最大最最小法同最小小最大原理的的区别。实际中,在甲不不知道乙会采采取什么策略略的情况下选选定了自己的的策略以后,乙乙的策略才出出台,为甲也也获悉了乙的的这一行动时时,甲很有可可
27、能来不及调调整自己原定定的策略,从从而给甲带来来一定的损失失。因此,最最大最小法在在保证局中人人收益方面不不如最小最大大原理那么保保险。当甲和乙的稳妥妥策略都已选选定时,二者者结合起来能能否成为博弈弈的结果呢?答案是未必必。请看下面面二人零和博博弈的事例。例1. 高度不不确定的博弈弈考虑二人博弈,甲甲的策略集合合,乙的策略略集合,甲和和乙的收益矩矩阵和通过博弈的的收益表给出出(见表2)。表2: 甲和和乙的收益表表乙甲4,1,2,3,对于甲来说,;对于乙来说说,。这说明明甲的稳妥策策略是,乙的的稳妥策略是是。但是,当甲采取取时,乙采取取的收益小于采采取的收益,因而而乙要改用策策略。在乙改改用后,
28、甲采采取策略的收收益小于采取取的收益,因而而甲也要改用用策略。而当当甲改用后,乙乙采用的收益益小于采用的收收益,于是乙乙又要改回到到;在乙改回回到后,甲也也要改回到收收益最大的策策略。这就让让我们看到:当甲采取时时,乙要采用用;然后甲改改用,乙随之之改用;甲再再改用,乙又又改用,如此此不断往复下下去,博弈的的结局是高度度不确定的。一般来讲,要想想一个二人博博弈具有确定定的结局,必必须存在这样样的局势:满足这个条件的的的局势,叫叫做博弈的均衡或最优解或最优局势,其其中的和分别叫做局局中人甲和乙乙的最优策略略或均衡策略。这这个条件也就就叫做博弈的的均衡条件。对于二人常和博博弈来说,是博弈弈的最优解
29、当当且仅当数学中,满足这这个条件的点点叫做函数的鞍点。因此,是博博弈的最优解解当且仅当是是收益函数的的鞍点。下面面的定理给出出了鞍点的判判别条件。鞍点定理是收收益函数的鞍鞍点的充要条条件是:证明:必要性. 设是的鞍点,即即。从可知,对一切切成立,这就就蕴含着,即即。注意,。这就证证明了。充分性设满足足。从可知;从可知。所以,即即是函数的鞍点点。既然二人常和博博弈的最优解解恰好就是收收益函数的鞍鞍点,鞍点定定理告诉我们们,当收益函函数的鞍点存存在时,利用用最小最大原原理确定的博博弈局势就是是二人常和博博弈的最优解解。但是,当收益矩矩阵不存在鞍鞍点时,常和和博弈就没有有最优解,博博弈的结局就就是高
30、度不确确定的。鉴于于此,我们将将有鞍点的常常和博弈称为为严格确定的的博弈。三反应函数博弈的局中人总总是要考虑对对手的行动,然然后确定自己己的对策。当当乙采取了某某种策略,而而且被甲所觉觉察时,甲必必然有所反应应,要确定出出相应的对策策以使自己的的收益在乙选选择的情况下下达到最大,即即要使。甲对对乙的行动的的这种反应,确确定了一个从从乙的策略集集合到甲的策策略集合的映映射,即对任任何,甲的反反应策略是按按照来确定的的。这个映射射就叫做甲对对乙的反应函函数。同样的道理,可可以确定出乙乙对甲的反应应函数,即对对任何,是按照来确定定的。利用反应函数,我我们也可以解解释博弈的结结局。就象古古诺博弈一样样
31、,假如甲先先采取某种策策略,乙通过过某种途径获获悉了甲的这这一行动,并并认为甲不会会改变他的策策略,于是作作出反应,决决定采取策略略,以使自己己的收益最大大化。当乙采采取策略时,甲甲掌握了这一一信息,并认认为乙不会改改变他的策略略,于是作出出反应,改变变原来的策略略,决定采用用,以求收益益最大化。这这时,乙再次次对甲的行为为作出反应,采采取新策略。甲甲也再次对乙乙的行动作出出反应,采取取新策略。这这样的反应不不断下去,直直到最后达到到且时博弈实现现了均衡,此此时的局势就就是博弈的最最优解(均衡、最优优局势)。综上所述,博弈弈的结局是实实现均衡,并并且均衡由甲甲乙双方的反反应函数确定定,即由方程
32、程组决定。事事实上,是该该方程组的解解当且仅当,而而这正是博弈弈实现均衡的的含义。注意意,以上关于于反应函数的的讨论,没有有要求策略集集合的有限性性,即集合和和可以是任何何集合。下面考虑二人无无限博弈的一一种特殊情况况:策略集合合和都是实数区区间。比如,本本章第一节例例3中古诺博博弈的局中人人策略集合就就是区间(半半直线),例例4中贝特兰兰博弈的局中中人策略集合合也是半直线线。假设局中中人甲和乙的的收益函数和和可微,则甲甲对乙的反应应函数由方程程(一阶条件)决定,乙对对甲的反应函函数由方程(一阶条件)决定,从而而博弈的最优优解就是如下下方程组的解解:例2二人博弈弈的反应函数数及最优解设二人博弈
33、中,甲甲和乙的策略略集合和为,收益函数数和分别如下:求偏导数得方程程组。由此可可知局中人甲甲和乙的反应应函数分别为为,博弈的最最优解为。四策略选择的的经济模拟第一节中曾经指指出,描述一一个博弈时策策略集合的选选择至关重要要。比较古诺诺博弈和贝特特兰博弈,虽虽然二者的目目的都是要模模拟同一经济济现象双头垄断断,但二者的的结构却很不不同。古诺博博弈中厂商的的策略是选择择产量,厂商商的收益是策策略变量的连连续函数;而而贝特兰博弈弈中厂商的策策略是选择价价格,厂商的的收益是策略略变量的非连连续函数。这这导致了相当当不同的均衡衡,究竟哪一一种是正确的的呢?如果抽象地看待待这个问题,那那么“哪一种模型型正
34、确”这样的提问问并无什么意意义。要回答答这个问题,就就必须看模型型试图模拟什什么。不要问问哪一种模型型是正确的,而而去问策略选选择中什么样样的考虑是切切入主题的,这这样的提问可可能会更加有有益一些。比比如,如果我我们观察OPPEC公司的的公告,就会会发现OPEEC企图为每每一个员工决决定产量配额额,并且允许许按照世界石石油市场价格格定价,这样样按照产量水水平而不是按按价格水平来来模拟博弈策策略,就可能能更加合理。在策略选择的经经济模拟中还还有另一方面面的考虑,乃乃就是一旦对对手的行为被被观察到,那那么对手的策策略应该是被被承诺的或者者是难以改变变的。然而到到目前为止,所所描述的博弈弈是“一次性
35、”(one-shot)博弈,其特特点是一旦知知道对手的行行动,策略变变量可以很快快地进行调整整。例如,假假设我为我的的产品选择一一个价格,然然后发现我的的对手制定了了一个略低一一些的价格,在在这种情况下下我可以很快快地调整我的的价格。因此此,尽管“一次性”博弈所描述述的现象应该该是发生在实实际生活中的的现实,但在在“一次性”博弈中模拟拟这种能够很很快调整的策策略反应并不不具有多大的的意义。似乎乎应该使用多多阶段博弈,这这样才能捕获获到策略选择择行为的所有有可能的内容容。另一方面,如果果我们把古诺诺博弈中的产产量水平解释释成为厂商的的生产能力,那那么一定产量量的产品生产产就可能是不不可撤消或不不
36、可改变的资资本投资。这这种情况下,厂厂商一旦发现现对手的产量量水平,而要要改变厂商自自己的产量水水平,则可能能是难以办到到或非常昂贵贵的。生产能能力或产量水水平似乎是厂厂商策略的天天然选择,即即使一次性博博弈中也是这这样。同大部分经济模模拟一样,在在策略选择的的经济模拟中中,如果既要要让博弈简单单明了以便分分析,又要能能够说明实际际策略的迭接接要素,那么么如何表示博博弈的策略选选择,就是一一项艺术。第三节 重复博博弈到目前为止,所所谈论的博弈弈是一次性的的。其实,任任何博弈都可可以一次一次次地重复进行行,且每一次次重复都不是是简单地重复复前一次的着着法,而会考考虑得比前一一次更全面些些,技法也
37、会会更高些。就就好像棋手下下棋一样,一一局结束了再再开一局,前前一局在某些些着法上吃了了亏,这一局局中就会吸取取教训而加以以注意,正所所谓“吃一暂,长长一智”。反反复复复地开局,给给棋手不断积积累经验,让让棋手的技艺艺越来越高。通过博弈的重复复进行,局中中人的经验越越来越丰富,这这种经验源于于博弈历史。实实际上,重复复博弈中的每每一点处,局局中人决定自自己的选择时时会考虑到达达该点之前的的全部博弈历历史,比如象象棋棋手在上上一局中因出出车慢而吃了了亏,那么这这一局中就会会吸取前一局局的教训而赶赶快把车开出出来。这样一一来,重复博博弈中局中人人的策略空间间随着博弈被被重复的次数数的增加而变变得越
38、来越大大,也就是说说,博弈历史史越长,局中中人的策略空空间越大,可可以选择的着着法越多。由由于“我的对手会会基于我的选选择历史而修修正他的行为为,我必须在在做出自己的的选择时考虑虑到这种影响响”,所以,重重复博弈的结结果不绝不是是一次性博弈弈的简单重复复。例1. 囚徒博博弈的重复我们以囚徒博弈弈为例,来分分析重复博弈弈问题。囚徒徒博弈中,企企图获得“(合作,合合作)”解是两个局局中人的长期期利益所在。对对于每个局中中人来说,可可行的做法是是试着给另一一个局中人发发出“信号”以表明他的的“善意”,并且在博博弈一开始移移动就进行合合作。当然,背背叛是另一个个局中人的短短期利益所在在。如果他不不合作
39、而采取取背叛策略,那那么对方就可可能失去耐心心而从此以后后永远只实行行背叛。这样样一来,背叛叛者就会因只只看到眼前利利益而丧失合合作的长期利利益。基于这这种推理可以以得到的事实实是,一个局局中人目前的的做法将在未未来将得到回回应其他局中中人的未来选选择可能依赖赖于这个局中中人当前的选选择。现在来分析一下下“(合作,合合作)”局势能否成成为重复囚徒徒博弈的一个个均衡。我们们分两种情况况进行讨论,一一种情况是有有限次重复博博弈,另一种种情况是无限限次重复博弈弈。先讨论有限次重重复博弈,为为此假定每个个局中人都知知道博弈将重重复一个固定定的次数(比比如重复次次)。考虑最最后一轮博弈弈实施之前局局中人
40、给予的的推理,此时时每个人都认认为他们在进进行一次性博博弈。由于这这是最后一次次移动,将来来不会再有,因因此均衡的标标准逻辑推理理便得以应用用,其结果是是局中人双方方都选择“背叛”策略。再考考虑最后一次次移动之前的的移动,这里里似乎每个局局中人都重视视合作,以向向对方发出他他是“好人”的信号,以以便能在下一一次以及最后后一次移动中中合作。但是是,我们已经经看到,最后后一次移动中中双方都将采采取背叛,因因此在倒数第第二次的移动动中合作就没没有什么优势势可言。采取取合作是为了了得到长期利利益,为了在在将来最后一一次移动中得得到回应。然然而,将来最最后一次移动动中并不能得得到合作,双双方都背叛了了,
41、结果倒数数第二次移动动中双方也只只有采取背叛叛。同理不断断向后归纳(backwwards inducction),结果最后后一次移动之之前的所有移移动中,合作作并不能带来来什么长期利利益,没有什什么优点,局局中人惟有相相信其他局中中人将在最后后一次移动中中背叛,用现现在的善意企企图去影响未未来下一次的的移动是无利利可图的。因因此,在重复复某一固定次次数的囚徒难难题重复博弈弈中,每一局局博弈的均衡衡局势都是“(背叛,背背叛)”,而不是“(合作,合合作)”。再来考虑博弈可可无限次重复复的情况。当当博弈的重复复次数为无限限时,情况就就大不相同了了。此时,局局中人在每一一个阶段都知知道博弈至少少还要重
42、复一一次以上,因因而合作大有有前景,长期期利益在望。在在这种无限次次重复的囚徒徒博弈中,每每个人的策略略都是一个函函数序列,它它表明每个局局中人在每个个阶段是选择择合作还是选选择背叛,都都是作为此阶阶段之前博弈弈历史的函数数。重复博弈弈中,局中人人的收益是各各阶段收益的的贴现值之总总和贴现和(向时刻0贴贴现)。具体体地说,设局局中人在时刻刻的收益(即第局重复中中的收益)为,他在重复复博弈中的收收益就是贴现现和,其中为贴现现率。只要贴贴现率不很高高,囚徒博弈弈每一局重复复的均衡局势势便都是“(合作,合合作)”,每个人在在各个阶段都都会看到合作作的利益。为为了说明这个个事实,我们们采用第一节节例2
43、提供的的数据。假设两个局中人人一直合作,移移动到了时刻刻。如果本次次移动中一个个人决定背叛叛,那么另一一个人会因本本次移动中采采取合作而未未得收益,从从而从下次以以后永远采取取背叛策略,给给对方以惩罚罚。第一个背背叛者从本次次开始,以后后只能继续背背叛(因为合合作的收益为为零),结果果他虽然在本本次移动中立立即得到了44000元的的收益,但也也以以后无限限次的10000元收益这这个低收益流流来毁灭自己己,他从背叛叛中得到的收收益贴现和为为元。另一方方面,如果他他持续合作下下去,永不背背叛,那么对对方也不会背背叛,于是他他从合作中得得到的收益贴贴现和为元。比比较和可知,只要要贴现率,就就有。这就
44、说说明,只要贴贴现率不很高高,当一方背背叛时,另一一方也采取背背叛给其以惩惩罚,就能使使背叛者偿其其苦果。由此此看来,只有有双方互相合合作下去。如如有一方背叛叛,另一方就就要执行惩罚罚策略来使背背叛者饱偿苦苦果,因而没没有一方能够够从背叛中会会有收获。所所以,在贴现现率不很高的的情况下,囚囚徒博弈重复复的均衡是局局中人双方在在各阶段都采采取合作策略略。以上论述实际上上是很有力的的,有一个称称为弗尔克(Folk)的著名定理理支持了这一一论述。该定定理断言:在在重复的囚徒徒博弈中,任任何收益如果果高于局中人人双方一致背背叛所能得到到的收益,那那么都将被作作为重复博弈弈均衡而得到到支持。上面面我们还
45、提到到了惩罚策略略,实际上这这个策略可明明确叙述成:“在当前移动动中合作,除除非其他局中中人在最后移移动中背叛”。采取这个个策略的理由由是,如果一一个局中人背背叛,那么他他将在收益上上得到永久性性惩罚。另外外,上面论述述中还涉及到到了贴现率,并并要求贴现率率不很高。实实际上,当贴贴现率很高时时,当前收益益就是特别重重要的,因为为将来的货币币贬值太大了了,现在的收收益要抵得上上将来收益的的好几倍,因因而当事人只只好顾及当前前收益,力求求当前收益越越多越好,而而把未来长远远利益放在次次要位置上。下面再看一个双双头垄断的重重复博弈事例例。例2维持卡特特尔考虑一个简单的的重复双头垄垄断,如果两两个厂商
46、都执执行古诺博弈弈均衡策略,则则得到利润;如果以共同同利润最大化化决定产量水水平,即执行行卡特尔行动动,则得到利利润。我们知知道,一次性性博弈中共同同利润最大化化的产量不是是博弈均衡,每每个厂商都有有激励去倾销销额外数量的的产品,如果果他认为其他他厂商将保持持产量不变的的话。但是在在重复博弈中中,只要贴现现率不太高,合合作起来以使使共同利润最最大化之策略略,将是重复复博弈的最优优解。可以证明,如果果这种简单的的双头垄断博博弈是一次性性的,那么每每个厂商以古古诺产量生产产将是博弈的的最优解。但但是,如果这这个博弈是不不断重复的,那那么每个厂商商都采取按照照卡特尔产量量生产的策略略,即都选择择合作
47、,将是是双头垄断重重复博弈的最最优解。对不不合作的适当当惩罚,是采采取生产古诺诺产量水平这这一策略。可可见,在不断断重复的双头头垄断博弈中中,由于一次次性博弈均衡衡这种惩罚策策略的存在,局局中人都将以以长远利益为为重,来维持持卡特尔。第四节 混合策策略并非所有博弈都都有严格确定定的结局。进进一步,实际际中博弈局中中人常常希望望自己的行动动隐秘不被暴暴露,不被对对手觉察。对对于这两个问问题,目前意意义上的策略略博弈是解决决不了的。在在博弈非严格格确定或者局局中人希望保保守秘密的情情况下,局中中人的最好做做法是采取混混合策略,即即以一定的概概率采取某种种策略。这样样做,甚至连连局中人自己己也不知道每每一次行动中中究竟采取什什么策略,竞竞争对手就更更不得而知了了。而且对于于非严格确定定的博弈来说说,采用混合合策略就可求求得最优解。当当一种混合策策略以概率11选择某种策策略时,这种种策略就是前前三节所谈论论的“纯”策略,可见见混合策略扩扩展了策略概概念。一混合策略的的概念我们以两人博弈弈为例,来对对混合策略的的概念以及采采取混合策略略时局中人的的行动目标进进行解释。至至于更一般的的多人博弈,将将在下一节中中讨论。设为有限二人策策略博弈,其其中为局中人人甲的策略集集合,为乙的的策略集合,和分别为甲和乙的收益函数。局中人为了保持持自己决策的
限制150内