重复博弈与群体博弈.docx
《重复博弈与群体博弈.docx》由会员分享,可在线阅读,更多相关《重复博弈与群体博弈.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章 重复博弈与群体博弈6-1 重复博弈与合作重复博弈(Repeated Games)是基本博弈重复进行构成的博弈过程。虽然重复博弈形式上是基本博弈的重复进行,但博弈方的行为和博弈结果却不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发生变化,从而使他们在重复博弈过程不同阶段的行为选择受到影响。在肯尼亚有一种猴子,受到威胁时就会嚎叫,它的朋友也会跟着嚎叫助威。而助阵的猴子大都是上次互相抓痒的猴子,不互相抓痒的猴子很少相互助阵。在大海的珊瑚礁中,有一种小鱼可以为大鱼清除牙齿中的寄生虫,当然小鱼清除寄生虫时也获得了食物。但是,大鱼在小鱼清除寄生虫后,完全可以一
2、口把小鱼吃掉。如果它们见面机会少,那么吃掉小鱼是大鱼的最佳策略,由此可见,珊瑚礁地域小,双方必定可以相互认识。茫茫大海,萍水相逢,一生若只见一回,那么就不可能见到这些合作的鱼了。来自生物界的这两个例子,深刻地说明了合作产生的根源。存在合作利益、保持有长期关系并且能够识别和惩罚欺骗者,对于生物界的合作必不可少。同样, 对于人类社会的合作,这些因素似乎也是最根本的。至少通过学习博弈论,我们得到的结论是这样的。1、合作的模式在某些情况下,合作看起来一点也不奇怪。比如图 6-1 的博弈中:乙10,105,00,50,0合作对抗合作甲对抗图 6-1 简单的互惠合作这个博弈中,大家都选择对抗则谁也得不到一
3、点好处,一方合作而另一方对抗也不符合双方利益。只有双方都选择合作才是稳定的结果。显然,图 6-1 中出现的合作,并非甲、乙道德高尚,其原因仅仅因为合作对双方都是有明显好处的, 所以合作就产生了。此类合作被称为简单的互惠合作,对于研究者并没有太大的吸引力。相反,另外一些存在冲突的博弈中,是否能够达成合作呢?这是研究者们深感兴趣的话题。比如图 6-2 的博弈:图 6-2 的博弈实际上是一个囚徒困境博弈, 因为它具有囚徒困境一样的博弈结构:不管对方选择对抗还是合作,甲选择对抗15总是更有利;当然乙也是一样的想法。结果大家都选择对抗,(对抗,对抗)是唯一的纳什均衡。乙5,510,00,101,1合作对
4、抗合作甲对抗图 6-2 对抗与合作博弈但是我们明明知道,如果双方都合作的话,那么每个人都可以得益5(而不是都对抗时的 l),为什么不可以合作呢?的确,如果从一个单期博弈(博弈进行一次就结束)来看,(对抗,对抗)是必然的结果。但是,如果甲、乙具有长期关系(比如他们是要长期生活在一起的邻居),那么合作确有可能达成。因为我们可以这样想:如果一直对抗,那么大家每次都只能得益1;而如果合作,则每次都可得益 5。更关键的是,如果给定乙合作,而甲现在选择对抗,那么甲虽然在这一次可以多得益 5,但自此以后乙不再合作,甲就将会损失以后所有的得益 5 的机会,因此从长远利益来看甲此时选择对抗可能并不聪明;对于乙也
5、是同样的道理。结果,两个人可能就达成了合作,因为较为长远的利益诱导他们克服了贪取现在的一点蝇头小利的动机。显然,图 6-2 中的合作,比图 6-1 的合作更为有趣,因为它反映出了人类合作行为中的复杂的策略动机:为了保证长远的利益,人们也可以牺牲当前的部分利益来达成合作。当然,图 6-2 博弈中的合作的关键,就是重复博弈和长期关系。为此,我们不妨继续做更深入的考察。2、重复博弈中的合作重复博弈,就是将一个博弈重复地进行。我们假设图 6-2 的博弈可以重复进行三次,那么最后的结果是什么?使用逆向归纳方法容易知道:在第三次博弈中, 甲、乙两个人肯定都会选择对抗;给定第三次都会对抗,那么第二次的合作实
6、际上也没有意义(因为将来没有合作机会了),因此两人也会选择对抗;给定第二次大家都选择对抗,那么从第一次大家就都会选择对抗。结果,重复三次的博弈中无法形成合作!那么,不能合作的原因是不是因为重复三次这样的关系时间太短了呢?我们不妨假设博弈可以重复 N 次。使用逆向归纳方法可得:在第 N 次,两个人会选择对抗;从而在第 N-1 次,两个人也将选择对抗;从而在第 N-2 次,两个人还是会选择对抗一直到从而在第 2 次,两个人会选择对抗;从而在第 1 次,两个人选择对抗。既然 N 可以是任何数,那么我们就得到了一个有点“意外”的结论:无论博弈重复多长时期,只要是有限次数的重复,合作都不可能达成!事实上
7、,这一结果在博弈论中已经成为一个定理:有限次的重复博弈,其均衡结果与一次性博弈的结果是完全样的。天哪,怎么会这样?博弈论不是明明说过长期关系中可以达成合作吗?而且在现实中我们不是也看到了不少的合作吗?这究竟是为什么?实际上,合作的达成可能要求助于无限次重复博弈。如果博弈重复进行无限次,没有结束的一天,那么逆向归纳法是不适用的,而只能使用前向推理来指导我们的策略选择。下面我们来看看无限重复博弈中合作究竟是如何达成的。为此我们需要做一些假设: 假设货币存在时间上的贴现,下一个时期的 1 元货币只能等于现在这一时期的 s 元货币,Osl(因此 s 被称做贴现因子)。 假设任何一个参与人甲或乙都采取如
8、下策略: 自己首先选择合作,如果观察到对方选择对抗,那么自己从下一个时期开始就永远选择对抗。如果没有观察到对方选择对抗,那么自己就在第 t 个时期确定是否要选择对抗。注意, 这里 t 是任意的。如果 t=1,说明他们在第一个时期就开始盘算是否对抗; 如果 t= 10 则说明他们在第 10 个时期才开始盘算是否对抗。有了这些假设,那么导致合作存在的惟一理由就只能是,对于任何一个参与人而言,他在时期 t 选择对抗所得到的全部好处将不如在第 t 个时期继续维持合作的好处这是合作的充分必要条件。经验告诉我们,如果要选择合作对象,必须要挑选那些注重未来、眼光长远的;鼠目寸光的人永远不要被列为合作对象。到
9、现在为止,我们基本上得到了关于重复博弈与合作的两个重要结论:如果博弈的重复是有限期的,那么囚徒困境式博弈中是不可能达成合作的;如果博弈是无限期的,那么眼光长远的参与人在囚徒困境式的博弈中也可以达成合作;不过如果参与人目光短浅,那么合作仍然难以达成。一般来说,大多数时候人们还是具有一定眼光的,至少不会急着为了今天的1 元钱而放弃明天的 5 元钱,因此合作仍然是人类社会中广泛存在的现象。但是,还是有一个疑问我们未曾解决:有限次的重复博弈中,不可能达成合作可我们的生命是有限的,我们接触任何人的时间长度都是有限的,天下没有不散的筵席,每个人最终都会有与对手结束合作关系的时候(极端的情况,一个人生命有限
10、,死亡会强制终止你同他人的合作),所以说我们经历的所有重复博弈次数都应该是相当有限的,那为什么我们仍然能够观察到那么多的合作呢? 对此,我们可以从好几个方面来做出解释: 虽然很多博弈是有限次数的,但是我们并不知道这个次数究竟是多少,结果它就类似于一个无限次数的重复博弈。比如,虽然我们知道生命是有限的, 但我们并不知道自己会在哪一天死去,所以我们也就不知道什么时候与别人解除合作关系。 即使我们准确知道结束合作关系的时间,比如劳动合同常常明确规定了为雇主服务的期限,但我们并不从第一天上班开始就偷懒,是因为合同时期足够长,面对如此长期的收益,几乎相当于无限期重复博弈,偷懒被开除而损失如此长期的一笔工
11、资收益是不划算的。所以,员工仍采取了合作的态度。但是的确也可发现,随着终止合同离开雇主的日期越来越近,员工的“努力程度”的确在打折扣“有限次博弈”就开始起作用了。 有些“有限博弈”本身虽有限,但是在这个有限博弈中你的表现(合作或对抗)会给你进入另一个博弈带来影响,因此你不得不顾及自己的表现。年轻的员工即使在离开当前企业的前夕,也并不会与当前的企业对抗,其原因是他还要到其他企业工作。如果他在这里做出不恰当的举动,会影响到他到下一个企业就业的机会。总之,无论哪一种解释,都强调了一个同样的思想,只有存在长期关系,人们才更可能合作。其实博弈论大师克莱珀斯(Kreps)等人早已经证明,即使是有限次博弈,
12、只要次数足够多(关系维持足够长),那么人们就有动力通过合作行为树立起合作的声誉来获取长期的好处。这许是人类社会合作的最大福音。3、阿氏竞赛实验囚徒困境博弈中人们如何选择合作的策略?为此阿克谢罗德(Axelrod)教授在 1980 年做过一次模拟实验。他的实验是请许多专家教授写下自己心中最佳的策略,一起放入计算机互相博弈,然后按类似图 6-2 的博弈计分,他采用的具体分数是都合作则每方计 2 分,都对抗则每方计 0 分,一方合作而一方对抗则合作者计1 分而对抗者计 4 分。在甲、乙博弈 200 次后停止。阿克谢罗德这样做的目的,是为了集天下高手于一室,相互较量,找出合作的最佳策略。而参与实验的人
13、中不乏数学、物理、生物学、心理学、经济学、计算机等学科领域的教授,无论如何,个个都聪明绝顶。竞赛的胜出者(积分最高) 是加拿大多伦多大学的心理学教授阿纳托拉帕波特 (Anatol Rapoport),他使用的策略是“先做好人,以牙还牙”具体地说,就是与对方第一次博弈时选择合作,如果对方上次合作则自己本次也选合作,如果对方上次出现不合作,则自己本次就选择不合作。“先做好人,以牙还牙”这样的策略与我们在前一节提到的策略若对方出现一次不合作则我永不合作,这显然是永不宽恕的策略不太一样。博弈论中将这种永不宽恕的策略称为“冷酷策略”(的确是非常冷酷)。冷酷策略是试图通过“毫不原谅”地惩罚对手,迫使对手不
14、敢偏离合作的轨道,看起来是一个好办法。但是这个“毫不原谅”策略有两个致命的问题:一是冷,策略虽然严厉惩罚了对手,但实际上自己也会遭受到重创,对有一次背叛了合作的对手永不原谅, 那么自己其实也就永远不可能再得到合作的收益;二是,如果对手只是偶然“失误”,并且失误之后很后悔,希望回到合作的轨道上来时,冷酷策略却拒绝给予对方重新合作的机会。而“先做好人,以牙还牙”则宽容得多,允许背叛合作的人重新回到合作的轨道上来。现实中人们的确也经常使用这样的策略:如果你坚持错误,我们就会孤立你;而若你改正了错误,我们仍欢迎你的加入。不过,为了检验“先做好人,以牙还牙”的策略是否可以经得住实践检验, 以及是否还可以
15、寻找到比这更好的策略,阿克谢罗德决定举行第二次竞赛。作为第二次竞赛的前奏,阿克谢罗德把第一次竞赛的所有信息和结果都装在信封里寄给那些参赛者,要求他们提交修改后的策略。他还通过计算机杂志登广告向局外人公开这个竞赛,以吸引一些热衷于编程的人们能设计出真正足智多谋的策略。1984 年,阿克谢罗德一共收收到了来自全球各地的 62 份程序,其中一份来自著名的进化论生物学家约翰梅纳德史密斯 (John Maynard Smith),他将博弈论用于生物学,发现了进化稳定策略(ESS)。究竟谁是优胜者呢?结果,拉帕波特教授的“先做好人,以牙还牙”策略仍是当然的赢家。从第二次竞赛中显露出来的一般经验是:不仅好斗
16、和宽恕是很重要的,而且让对手知道你爱憎分明也很重要。也就是说,你应该对背叛合作的人立即予以惩罚,但并不是恶意的反击, 而是试图把对方拉回合作的轨道,而且你的行动应该表现得明白无误,要避免给人以太复杂的印象。所以,在现实中,你踢我一脚我就回击你一拳,你投我以桃我就报你以李,并且明确地向对方显示出你是这样一个“有恨必雪、有恩必报” 的人,这应是最佳的合作策略。但是也有必要指出,“先做好人,以牙还牙”的策略只是在有很多次数(200次)博弈的时候才是好的策略。如果博弈只进行一次或者两次,甚至三次,它都不会是好的策略。当然,一般情况我们常常并不知道会和对方接触多少次,不过我们或许可以猜测到下次相遇的概率
17、。假设这个概率为W,再令都合作时各方收益为 R,令都不合作时的收益为 P,如果一个合作、一个不合作则合作者收益为S,不合作者收益为 T。那么,“以牙还牙”策略的预期赢利将是:R RWRW2R(1W)但一个全不合作者遇到一个“先做好人,以牙还牙”者的预期赢利为T+ WP + W2p + T+ WP/(T-P)因此,只有在T + WP/(1 W)R/(1 W)即W(T-R)(TP)时, 不合作比以牙还牙有利。以图 6-2 为例,则两个人再见面的机会 W5/9=0.56 时, 一个完全不合作者即可以在以牙还牙的人群中占到便宜;否则他也最好先从合作开始。这与我们的现实生活比较接近,对于那些我们预计今后
18、要经常碰面的人, 我们总是先从友善对待开始;而对于那些很可能是捞一票就走的人,我们也常常不会与他们合作当然,对他们的唯一防范措施也只能是一次机会都不要给他们。4、合作与合谋人类存在大量的合作行为。在一个委托一代理关系中,如果代理人的合作行为是不利于委托人的行为的,那么这种合作行为就被称做合谋行为 (collusive behavior)。比如,两个员工互相帮助提高产量,是有利于委托人的,这是委托人所愿意激发的“合作”行为;两个员工相互勾结协商均不努力来骗取委托人的奖金,那么这种合作行为对委托人是有害的,被称为合谋行为。也就是说,合谋行为本身也是一种合作行为,但却是委托人所不愿看到的合作行为。现
19、实中有很多潜在的合谋行为,或者潜在的合谋威胁。比如中低层员工可以联合起来蒙骗公司高层;大股东可以和管理层相互勾结掠夺中小投资者的利益; 执法监察机构可以被收买而与违法企业沆瀣一气;警匪勾结、猫鼠共谋等社 会现象也非常普遍。那么,委托人又如何可以防范合谋呢?首先必须承认,并不是每一种合谋我们都有办法解决,但是我们的确有一些防范合谋的基本思路。这些思路均可从我们现实的博弈中看到其影子。一种防范合谋的方法是设置标杆。假设一个老板让两名员工展开工作竞赛, 为此老板设置了一笔奖金。员工的业绩会受到随机因素和其努力两方面的影响。显然,两个员工都努力,则各自赢得奖金的概率为 50%,但都付出了辛苦的劳动;
20、如果他们都不努力,则仍各自有 50%的概率得到奖金,却不必付出辛苦的劳动。因此,他们有可能合谋不努力。而此时为了防止员工的合谋,老板可以设置一个业绩标杆,即要求产量达到某一个标准并且是胜出者才能获得奖金。两个员工合谋不努力就不再是最优的策略。防范合谋的另一个方法是虚拟竞争对手。这在帝王时代是皇帝控制外征将军的常用办法。当一个将军率军出征之后,皇帝怎么了解他的行动呢?怎么确保将军如实汇报军情呢?一个办法就是安排监军,对将军进行监督。但是,如果将军跟监军合谋起来蒙骗皇帝,那怎么对付?皇帝常会安排暗线对他们进行监督,但将军和监军等却不知道谁是暗线。利用过去的业绩也可以防范合谋。这在体育比赛中是最常见
21、的。既然比赛是依靠相对成绩排座次,那么运动员就可以串通付出较少的努力来平分奖金。但现实中几乎没见到这样的合谋。其原因在于,拿得第一名对于一个运动员也许并不是最值得骄傲的,而破纪录也许更令人激动。过去的纪录就成了现在运动员竞争的标准。这与标杆竞争类似。在一个公司中,也可以以过去的业绩来制定竞争的标准。但是,如果生产技术发展较快,那么过去的业绩实际上也很难成为一个很好的标准。此时,为防范员工合谋可引入同行业相对比较来作为竞争标准。一般来说,企业内部员工容易合谋,但是本企业员工与其他企业员工合谋则相对困难得多,几乎不大可能。关于组织中的合谋问题,目前提到的“分而治之”解释了组织中歧视性的防范合谋作用
22、。事实上,自1986 年,经济学家泰勒尔( Tirole)的论文科层组织和官僚机构:合谋在组织中角色发表以来,在最近的20 年中,尤其是自 1996 年以来的 10 年,组织合谋理论得到了实质性的进展。尤其是在一个“委托人监督者一代理人”关系中的监督合谋行为,分析框架已基本成熟。目前,该领域的研究仍在不断的进展之中。6-2 群体博弈6-21 集体行动的困境集体行动困境是指这样的一类问题:个体没有采取与集体共同利益相一致的 行动的行为动力即存在集体不行动的问题。曾经在相当长的时间里,经济学家如同其他领域专家一样,往往把这样的情况视为理所当然:如果一群有理性且自私自利的个人意识到,他们会从一种特定
23、的集体行动中获得好处,那么就可以料想他们会采取这样的行动;如果一群工人会从集体谈判中获得好处,那就可以料想他们会结成工会;如果厂商从价格勾结中可以得到好处,那么他们就会达成秘密的价格联盟;等等。但是,自从奥尔森在 1956 年出版集体行动的逻辑和哈丁在 1969 年发表公共地悲剧以来,经济学家开始形成了一种关于集体行动的与以前完全不同的观点。如果某个集团的成员,不论他是否会为集团的共同利益付出代价,都可以分享到集团的某种共同利益,那么,这个成员就没有动力为集团的共同利益付出代价。譬如,消费者可以联合起来要求政府降低关税,这样消费者就可以以更低的价格购买到进口产品。但是,既然一个不参加这种联合行
24、动的消费者也可以在关税下调后获得好处,那么他就没有动力去参与这样的联合行动,他只需要等待其他消费者去行动就是了当然,这可能并不是好方法,因为他应该可以意识到,其他人跟他有相同的想法,因此似乎他是应该去参与行动的。但问题是,他个人的力量并不足以向政府施加压力,假如需要 1 万个消费者向政府施加压力才可能有效果,那么除非这个消费者相信已经有 9999 个消费者要行动,他才会采取行动;多于 9999 或少于 9999 他都不会行动,原因很简单,多余 9999 时(至少是 1 万人了)即他不参加也可获得关税下调,因此他最好就不去了;而少于9999 时(最多才 9998 人)即使他去也无济于事,因此最好
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 重复 博弈 群体
限制150内