2021-2022年收藏的精品资料研究领域微观经济学行为经济学.doc
研究领域:微观经济学/行为经济学有限理性下的均衡分析范式:随机最优反应均衡*本文受到教育部人文社会科学规划项目(项目批准号02JA790034)、南开大学文科创新基金研究项目(NKC04012)的基金支持。那艺那艺,男,1979年生,南开大学经济研究所研究生。 贺京同贺京同,男,1961年生,南开大学经济研究所教授、博士生导师。南开大学经济研究所 天津 3000712005年7月23日有限理性下的均衡分析范式:随机最优反应均衡内容提要:博弈论所研究的一个重要问题是博弈中的均衡问题。纳什均衡作为传统博弈论的核心概念,所基于的理性假定过于严格,因此是一个十分脆弱的均衡,在实际中极易遭到违背。随机最优反应均衡是行为博弈论的核心概念之一,是通过修正参与者的行为方式而发展起来的基于有限理性的均衡范式,是对经济学均衡分析思想的发展。本文系统描述了随机最优反应均衡的分析框架,以及它更为精确的预测功能。为了展示该均衡比传统均衡更优越的分析能力,本文根据该均衡的基本思想重新研究了寡头竞争市场,并对现实中为何存在追求产量而不追求利润最大化的厂商、以及行业中为何可能产生垄断做出了新的解释。本文最后指出,未来的经济学分析将越来越多地置于“有限理性均衡”框架之下。关键词:随机最优反应均衡;行为博弈论;有限理性;学习一、引言经济学所涉及的一个重要问题是对均衡的分析,即通过证明和寻找均衡来对经济现象进行解释和预测,这种思想最早可追溯到亚当·斯密(1776)。在18世纪的欧洲,由牛顿所奠定的经典力学体系日趋完善,该体系中对物理状态的均衡分析给斯密留下了深刻印象,这促使他试图在经济学中也发展出一套均衡分析方法。在经典力学体系中,导致均衡产生的一个基本因素是“重力”的存在。相似地,斯密认为,经济学的均衡分析也应建立在一个基本因素之上,他称之为人类的“自利”。斯密相信,正是由于这种“自利”,使得经济秩序服从一种内在的逻辑,从而使人们在一只“看不见的手”的指引下去达到某种确定的目标状态,这就是所谓的均衡。其后,约翰·穆勒通过对斯密的思想进行形式化处理,正式地提出了理性经济人的假说。而在边际革命之后,这种假说被更为抽象化与极端化,即假定经济人能根据自身处境和自身利益而做出近乎正确的判断, 并经过精密计算和仔细权衡,来使自己所追求的利益尽可能最大化。在这个假说基础上,演绎出了整个西方主流经济学的均衡分析体系,而该假说也逐渐成为经济学的基本假定和理论基石。上世纪40年代发展起来的博弈论为经济学分析提供了一套更为严谨的逻辑方法。该理论不但继承了对行为人的理性假定,即认为每个决策个体都能经过精密计算和仔细权衡来最大化其效用;而且还继承了经济学的均衡分析传统,即认为找到了均衡也就意味着预测出了参与者在博弈中的策略选择。因此博弈论中绝大多数的理论都是研究博弈中的均衡问题,并且在理性的假定前提下,运用严密的逻辑方法演绎出了著名的纳什均衡。纳什均衡的出现使得博弈论中对均衡的讨论比传统经济学更进了一步。在传统经济学中,行为人的决策就是在给定价格和收入的条件下最大化其效用,他的效用函数只依赖自己的选择,而不依赖其他人的选择。而博弈论所研究的则是决策个体之间的互动行为,即个人的选择要受到其他人选择的影响,个人的最优选择是其他人选择的函数。因此说,纳什均衡比传统经济学的均衡概念包含了更多信息。纳什均衡的意义在于说明,在有限博弈中,存在一种可以自我强化的均衡点,在该点上每个参与者的策略选择都是对其他参与者策略选择的最优反应,或者说是对其他所有参与者策略选择组合的最优反应,并且任何参与者都没有偏离该点的动机(Nash, 1950)。然而所产生的一个问题就是,参与者是否真地会在博弈中选择纳什均衡?对这个问题的传统回答是肯定的,因为纳什均衡被认为是在博弈的规则、参与者的理性及其支付函数都是共同知识的前提下,由参与者的分析和自省而得出的结果。然而随着实验经济学的研究手段日趋成熟,人们在实施了大量的实验后却发现,参与者在博弈中的实际选择总是偏离纳什均衡,并且这种偏离是系统性的(Crawford, 1997)。我们可以先看一下图1。该图显示了在若干次实验中,由纳什均衡所推断的各策略选择概率(横轴)与每次实验中实际选择各策略的相对频率(纵轴)之间的对应关系。我们发现,在实际选择与纳什均衡之间有显著的偏离,并且还存在这样一个轻微的趋势,即纳什均衡中本应以较低概率被选择的策略却被选择得更多(或是说,那些永不应该被选择的策略实际上有5%的机会被选择),而本应以较高概率被选择的策略却没有得到足够的选择。纳什均衡推测图1 由纳什均衡所推断的各策略选择概率与实际选择的频率。资料来源:Behavioral Game Theory, Camerer(2003)。 针对这个现象,许多学者开始对纳什均衡提出质疑并认为,传统博弈论采用了一种建立在完全理性和贝叶斯决策原则之上的模式,这种模式过于僵化和脱离实际,因此所演绎出的纳什均衡在实际中也极易遭到违背,从而成为一种脆弱的均衡。为了修正传统博弈论在解释与预测方面的局限性,在西方经济学界逐渐形成了一个新的研究领域行为博弈论(Behavioral Game Theory)。行为博弈论可以视为行为经济学的重要理论组成部分,它将行为和实验经济学与传统博弈论相融合,并通过大量的博弈实验,来考察理论推断与实际结果之间的差异;它通过加入行为因素来改进传统博弈论的基本假定,以使理论和实际的不一致得到修正,其最终目的是更准确地解读人类的决策行为(Camerer, 2003)。在对理性假定的探讨上,行为博弈论吸收了西蒙的有限理性学说(Simon,1955),认为行为人在进行决策时,获取信息和处理信息的认知能力是有限的,因此他无法像传统理性假定的那样最大化其目标函数,而是不得不在现实中采取其他一些规则来选择自己满意的或是自己认为的最优策略,但他追求理性的努力并不会停止。西蒙对有限理性理论的定义是“研究如何以有限的认知能力在无限复杂的世界中生存的理论 ”,但是西蒙本人并未指出人们究竟是如何在“有限”与“无限”之间折衷的。行为博弈论的研究在一定程度上填补了这个空白,并使西蒙的有限理性思想更富有现实意义。对于如何理解实际选择与纳什均衡之间的偏离,行为博弈论认为,纳什均衡的推导立足于严格的理性假定,这对于一般的参与者来说是一个过高的要求。更现实的情形是,参与者在内心深处具有追求理性的动机,但有限理性的约束使他们难以做到传统假定下的最优化选择,因此对纳什均衡的追求“心有余而力不足”,故他们只是处于向纳什均衡收敛的过程之中,他们的选择很难达到、或者说至少在短期内很难达到纳什均衡(Fudenberg and Levine,1998)。既然参与者只是处于向纳什均衡收敛的过程之中,那么一个自然的问题就是,参与者究竟是如何收敛的?研究这个问题有助于人们更深刻地理解纳什均衡产生的过程。在传统博弈论中,纳什均衡产生的过程就是参与者经过严密的逻辑运算而得到一个最优化的结果。而在行为博弈论中,参与者由于受到有限理性的约束,因此在现实中很难按传统方法求得纳什均衡,但是他们追求理性的努力并不会停止,而是会用其他一些未知的、甚至是非逻辑的方法来不断提高自己的理性程度,从而逐渐摸索出纳什均衡。这个追求理性的过程实际上是一种认知或学习过程,纳什均衡是慢慢“学”出来的,因此具有长期性。为了研究参与者的具体学习过程,在行为博弈论中又派生出了系列的博弈学习理论。这些理论并没有否定纳什均衡的意义,但却为均衡产生的方式提出了新的思索,并具有比传统理论更为优良的解释与预测能力。然而遗憾的是,绝大多数的博弈学习理论都是把纳什均衡作为基准均衡并与新理论相比较,但并未提出比纳什均衡更强的均衡概念,也就是说,如何使经济学的均衡分析从完全理性向更符合实际的有限理性转变是一个问题。 本文所要介绍的随机最优反应均衡(Quantal Response Equilibrium,以下采用其英文简写形式QRE)填补了这方面的空白。QRE是在博弈学习理论体系下发展起来的一个新的均衡概念,由Mckelvey 和 Palfrey(1995)首先在博弈实验分析中使用。由于行为博弈论在国内的研究尚未深入开展,因此QRE作为其核心概念,在国内也未有深入的介绍和探讨,只是在若干有关实验经济学的著述上略有提及。 Mckelvey 和 Palfrey(1995)在他们的文章中提到,这个新的均衡概念是由生物学、药理学等学科中广泛应用的一种统计学模型发展而来,因此国内有学者把它译成“可数性反应均衡”。 QRE是在纳什均衡的基础上,对均衡概念所做的进一步发展。该理论的基本思想同样可以纳入有限理性的范畴,认为参与者在“信念中”是追求理性的,但是在计算每个策略的预期效用时会不可避免地出错,这是由人天生的有限认知能力所决定的,因而在实际情形中,纳什意义下的最优选择并不以概率1出现。然而,参与者尽管是有限理性的,但他们仍能将自身的选择落在一个类似纳什均衡的均衡之上。这个均衡点与纳什均衡处于不同的位置,但是却具有与纳什均衡相似的基本特征,即每个参与者的策略选择都是对其他参与者策略选择的“最优反应”。但需要指出的是,这只是他自己认为的“最优反应”,在后文中将看到,这里的“最优”不是纳什意义下的最优,而是在受到随机误差的干扰后所达到的一种“最优”,故我们将该均衡的中文名称译为“随机最优反应均衡”,以期与读者商榷。实际上,相对于纳什均衡来说,QRE只是一种“较优”的均衡。 他会不断考虑和修正自己的看法,因此当引入时间变量,比如在进行重复博弈时,这个均衡点在每阶段将发生变动,并不断向纳什均衡收敛,而促发这种变动的力量就是参与者内生的学习能力:只有通过学习才能使参与者不断提高他们的认知能力,进而调整他们业已达到的均衡点。只有当参与者的学习停滞时,QRE才可能不再变动,但参与者追求理性的努力使之不可能停止学习,因此从这个意义上说,QRE在长期下发生变动几乎是必然的。 故该理论所提出的一个重要观点就是,参与者的实际选择与纳什均衡之间的偏离关系,不是非均衡选择与均衡选择的关系,而是其他均衡与纳什均衡的关系,同时这种偏离关系不是一成不变的,在长期下有减少偏离的趋势。故我们认为,QRE是一个具有内生变动性的均衡。该理论进一步推断,参与者通过学习,可以使QRE不断逼近纳什均衡,纳什均衡是QRE的极限状态。从这个意义上说,QRE是参与者所选择的一种“不精确”的“纳什均衡”,而纳什均衡则成为参与者“信念中的均衡”。QRE理论的意义在于,它是学者们在对人类决策时所受到的内生影响因素进行重新思考后,通过修正参与者的行为方式而发展出的一个并非基于完全理性的均衡范式。QRE理论使得经济学的均衡分析法又向前推进了一步。它并不是像传统经济学那样把完全理性假定作为推导均衡的立论基础,而是更注重对有限理性思想的继承,并在此基础上演绎均衡。 近二十年来,行为经济学逐渐淡化了它早期浓厚的心理学色彩,并逐步通过有限理性建模而进入主流经济学的前沿。行为博弈论作为行为经济学的组成部分,也在试图通过有限理性思想修正传统的博弈理论(Camerer,2003),并在此基础上推动对传统均衡分析的发展。 这个均衡比纳什均衡具有更丰富的内涵:它能够反映出人们随时间推移在长期下摸索最优化结果的过程,因此它具有某种内生的变动性,是一个富含动态信息的均衡。由于其优良的解释和预测能力,QRE已逐渐成为行为博弈论的核心概念之一,同时它的基本模型简洁易用,因此越来越受到经济学家的青睐。本文的剩余部分分工如下:第二节是对QRE均衡分析框架的回顾;第三节通过一种参数化的形式来展示了QRE的具体求解过程,以及它在解释实际数据中的应用;第四节是对有限理性如何改进传统均衡分析法的展示,我们重新研究了寡头竞争市场,并提出一个新的均衡概念“古诺QRE”,对现实中为何存在只追求产量而不追求利润最大化的厂商、以及行业中为何可能产生垄断提出了新的解释;第五节是结论与启示。二、QRE的均衡分析框架本节将回顾QRE理论的一般分析框架,以及它作为有限理性范畴下的均衡所具有的一些特点。QRE是由纳什均衡发展而来,纳什的均衡思想在QRE中仍有体现,但是纳什均衡是建立在参与者相互理性基础上的均衡,其中博弈的规则、每个参与者的理性以及支付函数都是共同知识,并且各参与者具有无限的计算和认知能力,因此纳什均衡是一种“理性均衡”。对实际选择偏离纳什均衡的研究至少可追溯到Selten(1975)的颤抖手完美理论,其中考虑了参与者在博弈中可能犯的错误。但是该理论却认为,随着参与者的错误趋于无穷小,颤抖手完美最终会归至纳什均衡。而实验数据却显示,参与者的选择与纳什均衡的偏离在统计学意义上始终是显著的。其后,在这个问题上进行研究的代表人物有:Van Damme(1987),他在其著述中开始考虑,如果参与者所犯的错误不能趋于无穷小,那么将会出现什么结果;Rosenthal(1989)则在研究中假定参与者选择某策略的概率是该策略预期效用的线性递增函数;而Beja(1992)认为,参与者会事先设定一个目标策略,但是他的选择最终却无法完全达到既定的目标。Mckelvey 和 Palfrey在前人理论的基础上,首先在其研究中提出和使用了QRE的基本概念。为了解答纳什均衡与实际选择之间的不一致,QRE理论中假定,参与者根据博弈中各策略的相对预期效用来进行选择,但在有限认知能力的约束下,他无法正确评估各策略的预期效用,而是受到某种随机误差的干扰。QRE理论还假定,每个参与者都知道自己的选择会受到误差的干扰,并且知道其他参与者的选择也是在误差干扰下进行的,但参与者仍能达到一个他们认为的彼此“最优反应”点。这是一种“有限理性均衡”。现在我们来正式给出QRE概念的定义。我们考虑一个n人标准式博弈,在本文中我们只考虑标准式博弈。一个自然而然的问题是,在扩展式博弈中是否存在类似QRE的均衡?有关这方面的更多细节参见Mckelvey 和 Palfrey(1998)的论文。 n个人组成集合N=1, n,其中对参与者而言,他的策略集为,其中有Ji个纯策略,并定义为所有参与者策略集的集合。定义参与者i对策略的选择概率为pij ,则参与者i的混合策略选择可表示为,且,。令为各种可行的集合,即。同时进一步定义,表示各参与者可行混合策略集合的空间。又定义表示参与者i以概率1选择纯策略,而其他参与者的选择为。现在,我们可以定义参与者i的支付函数为: (1)则对于所有的以及,如果有,那么向量是一个纳什均衡。进一步地,假定参与者在评估每个策略的预期效用时会犯错误,亦即他对每个策略所计算出的预期效用是正确的预期效用加上一个噪声干扰项,这个噪声干扰是由有限认知能力造成的。正式地,对每个参与者i,以及i的每个策略,定义: (2)其中表示参与者i对策略实际计算出的预期效用,表示参与者i如果不犯错误而对策略计算出的预期效用,而为参与者i的误差向量,其中各分量表示在计算各策略预期效用时的噪声干扰,它们是独立同分布的。假定这些分量共同服从于一个联合分布密度函数,其中每个分量的边际分布均存在,并且。做出这样一系列的假定和定义之后,现在可以给出每个参与者的行为规则,为:当且仅当 时,参与者i才会选择策略。这个假定符合人们的一般行为准则,即人们会去选择他自己认为的最好策略。注意,这里我们强调的是参与者自己认为的最好策略,因为参与者在评估各策略的预期效用时可能会出错,故而他在现实中很难选择传统意义下的最优化策略。现在的问题是,由于参与者的选择受到噪声干扰,因此我们必须弄清楚噪声究竟是如何施加影响的。正式地,对所有参与者i,导致他选择策略的误差向量集可以定义为: (3)又令表示在给定正确的预期效用集合的前提下,参与者i在噪声干扰下选择策略的概率,正式地,有: (4)这被称为参与者i选择策略的“随机最优反应函数”。于是,对任意可行的概率密度函数f,我们给出QRE的标准定义为:定义1:令为一标准式博弈,其中,。若对所有参与者,存在,使得,则称为一个随机最优反应均衡(QRE)。QRE具有如下几个性质,分别如下:(1)是非空的;(2)在空间上是连续的;(3)随单调递增;(4)对所有参与者i及所有策略,如果与是独立同分布的,那么对所有的u,有 (5)即较好的策略要比较差的策略更有可能被选择。在这四个性质中,由前两个性质可以得到定理1,即QRE的存在性定理:定理1:对于任何标准式博弈以及可行的噪声概率分布f,QRE必存在。定理1的证明与纳什均衡存在性定理的证明相类似,即只要说明如果是非空的、闭的、有界的和凸的,并且是连续的,那么在对应上就会存在一个不动点,满足,且对所有的,有。在这里我们不再赘述。我们所要注意的是,这里所定义的对应与纳什所定义的对应不同,所以存在的不动点也就会与纳什均衡点不同。定理1肯定了QRE的存在性,这意味着,在一个标准式博弈中,即使每个参与者在计算各策略的预期效用时会出错,但如果出错程度是既定的(即给定一个噪声概率分布),那么就仍存在这样一个均衡点,在该点上每个参与者都对其他参与者做出了他所认为的“最优反应”。从上面的回顾中,我们不难看出,QRE虽然是对纳什均衡的一种替代性理论,但是QRE本身并未否定和放弃有关“均衡”的概念,而是用具有噪声的非完美预期均衡取代了原有的完美预期均衡。同时,QRE并不以完全理性假定作为推导均衡的立论,而是将均衡建立在一个更符合现实情形的行为基础之上,即认为参与者虽然“在信念上是理性的”,但是他与生俱来的有限认知能力却使之无法选择传统意义下的最优化策略,因此只能选择他认为的最好策略。三、QRE的参数化求解与应用上节中对QRE的回顾是一种抽象的数学表达。为了能够直观看出QRE与纳什均衡的相对位置,就必须找到一种具体的随机最优反应函数。Mckelvey 和Palfrey从Luce(1959)和Mcfadden(1976)那里获得灵感,提出了一种Logit QRE,其中参与者受噪声影响的程度被参数化了。这种形式不但便于直观地求解QRE,而且还适合统计学上的处理,从而使该理论在实验分析中得以应用。我们首先给出Logit QRE的定义 Mckelvey 和Palfrey在其1995年的论文中并未给出Logit QRE的推导过程,为了便于读者理解,我们在这里给出主要步骤。,并利用它展示QRE的求解过程。3.1 Logit QRE的定义与求解我们仍从(2)式出发。首先在每个噪声分量上乘以一个程度参数,则(2)式相应变为: (6)其中,这说明如果越大,参与者在评估预期效用时就越容易出错,反之则反是。这样根据(3)式,参与者选择策略的概率就可以写为: (7)那么根据(4)式有: (8)如果令服从某种极值分布, 极值分布又称Fisher-Tippett分布或对数Weibull分布,是指如果对某一随机变量取若干组观测值,每组所含的观测值个数相同,那么每组中的极值(最大值或最小值)本身也可看作是服从某一分布的随机变量,其分布函数形式可写为:。 计算(8)式并令,则有: (9)(9)式的含义是参与者i选择策略的概率,称为Logit QRE的反应函数。如果每个参与者都依据Logit反应函数来决定选择各策略的概率,那么相应的Logit QRE可表达为: (10)在(10)式中,可以看到只存在一个参数,因此我们称Logit QRE是一种参数化的QRE。当时,说明参与者的计算误差很大,此时根据(10)式可以发现,参与者对各策略赋予的选择概率是相等的,为,这意味着参与者几乎无法辨别各策略的优劣,因此最方便的选择方法就是对各个策略进行等概率的选择。当随着时间的推移,比如在进行重复博弈时,参与者通过学习可以不断增强自身的认知能力,从而计算的误差越来越小,值越来越大,这时参与者所选择的Logit QRE将收敛于纳什均衡。对于这一点,下面的定理2及定理3进行了阐述。对这两个定理的证明参见Mckelvey 和 Palfrey(1995)。定理2:令为与相对应的QRE,则当时,为纳什均衡。定理3:令为与相对应的QRE,则随着,将沿着唯一的一条路径收敛于某一个纳什均衡。定理2保证了当随时间推移趋于无穷大时,参与者的选择将逼近纳什均衡。但需要强调的是,纳什均衡并不是QRE的一个特例。参与者虽然通过学习能提高自身的认知能力,但是最终却无法完全克服人类自身的有限性,所以纳什均衡只是一种理想的极限状态,人们在真实世界中只能不断地去接近它,最终却无法彻底达到。定理3向我们揭示了QRE的内生变动性。由于参与者追求理性的努力不会停止,所以他会在重复博弈的过程中通过学习来积累经验,并将已达到的均衡状态不断向纳什均衡调整。在这里我们可以不把值理解为一个外生给定的参数,而是一个受参与者内生学习影响的变量,这样,参与者对各策略的选择概率实际上是的函数。另外,定理3还说明当博弈中存在多个纳什均衡时,QRE只会沿一条路径收敛于一个纳什均衡。 至于收敛于哪个纳什均衡,则与支付结构有关。为了展示Logit QRE的求解过程,我们设计了一个标准式博弈并计算之。这是一个具有唯一混合策略纳什均衡的博弈。表1 一个混合策略博弈的支付矩阵参与者 2 L R4,00,10,11,0参与者1 T B表1给出了一个博弈的支付矩阵,其中共有两名参与者,分别为参与者1和参与者2,他们每人都有两个可选策略,参与者1选择T或B,参与者2选择L或R。首先我们求解这个博弈的纳什均衡。假设参与者1选择T的概率为q,选择B的概率为1-q,;参与者2选择L的概率为p,选择R的概率为1-p,。于是我们可以分别给出参与者1和参与者2的反应曲线q(p)和p(q),这在图2中表示了出来。这两条反应曲线是运用传统求解方法得到的,它们的交点即为纳什均衡,为(0.5,0.5),(0.2,0.8)。那么,根据Logit QRE的定义,参与者选择的均衡点应该在什么位置呢?我们先看参与者1的情况。根据计算,参与者1选择T的Logit反应曲线为: (11)(11)式决定了参与者1赋予在策略T上的选择概率。我们在图2中画出了这条反应曲线,为。同样地,我们可以写出参与者2的Logit反应曲线为: (12)(12)式决定了参与者2赋予在策略L上的选择概率。这条反应曲线同样也可在图2中标示出来,为。这两条新反应曲线的交点正是Logit QRE所在的位置。这个有限理性的均衡点与纳什均衡是偏离的。通过Logit QRE的性质可知,随着值的增大,参与者对预期效用的计算误差将不断缩小,故Logit反应曲线不但在位置上、而且在形状上都越来越接近运用传统方法得到的反应曲线。但无论值增大到何种程度,Logit反应曲线都不会与传统反应曲线完全重合,而QRE均衡点也不会与纳什均衡点重合。p p 1 p(q)p(q,) q(p) q(p,) 1/2 a Logit QRE1/5 Nash Nash 0 1/2 q 0 1/2 q图2 两种反应曲线和两种均衡点的比较 图3 QRE均衡点随值变动的轨迹另外,我们可以通过不断变化值,来描绘Logit QRE的变动轨迹,见图3。当时,参与者趋于对各策略进行等概率的选择,此时QRE极限点为图中的a点,当逐渐增大并趋于无穷时,Logit QRE将向纳什均衡点收敛。均衡点的变动反映了参与者在进行学习。其中,衡量噪声程度的参数是决定Logit反应曲线形状和位置的关键,换句话说,值的大小是说明参与者认知能力的“标签”。 3.2 在分析数据中的应用现在我们对实验分析中如何应用Logit QRE做简要说明。由于在Logit均衡中只有一个参数,因此可以通过实验来获得多个同类参与者在同一期 由于随时间推移参与者会存在学习的过程,因此不能用不同期的数据组成样本。的选择数据,然后利用极大似然法估计出同一类参与者的值。根据的估计值,可以判断在实际选择中参与者受噪声干扰的程度,并且还可以测算QRE的估计值,从而预测参与者的选择行为。通过比较发现,Logit QRE对参与者选择行为的预测能力要优于纳什均衡的预测。这在图4中可以看得出来。图4是对图1各策略点的二次抽样,但是给出的是QRE估计值。我们可以看到,图中的各点要比图1中更为接近特征线,这说明QRE的估计值要比纳什均衡的推测更为精确。另外,在表2中我们还给出了来自一个两人零和博弈的实验数据, 参见Lieberman(1960)。 以及根据这些数据估计出的值和相应的QRE估计值。在该博弈中每个参与者有三个可选策略,分别为,和,其中唯一的纯策略纳什均衡为(,),因此我们只给出了策略和的实际数据。按照纳什均衡推断,这两个策略都应以概率1被选择,然而实际数据却推翻了这一预测。我们绘制了图5和图6,把这些估计值与实际选择按期做了对比,读者可以轻易看出QRE对实验数据预测得比纳什均衡更好。我们还在图7中绘出了的估计值随时间推移的变动情况,从中可以看出值具有不断增大的趋势,这说明参与者的确在进行学习。可以看到,QRE通过内生化参与者的计算误差,而提高了对参与者实际选择的解释和预测能力。而Logit均衡作为QRE的一种参数化形式,它的单参数性质很便于在实际分析中应用。同时,参数化的QRE能提供参与者是否存在学习的证据,如果在实际中能观察到值在增大,那么就说明参与者在进行学习。QRE预测图4 QRE估计值与实际选择频率的对应关系。资料来源:Behavioral Game Theory, Camerer(2003)。表2 一个零和博弈中对纳什均衡的选择频率及QRE估计经验期实际选择频率A3及B3的QRE估计估计值-L*A3B310.7200.6670.6960.176212.020.8060.7060.7810.252177.030.8800.8330.8380.329134.340.8870.8530.8690.390134.450.9070.9070.9060.500109.560.8730.8600.8860.435144.770.8530.8670.8900.448152.780.9070.9330.9160.54798.990.8930.9200.9150.542112.3100.9200.9070.9180.533105.6110.9070.9330.9200.56499.5120.9200.9330.9320.63594.2130.9270.9200.9290.61697.1140.9270.9530.9290.61680.2150.9130.9000.9150.542112.3160.9000.9200.9190.558109.3170.9460.9270.9250.59283.4180.9000.9270.9270.604107.1190.9330.9730.9460.73767.0200.9200.9330.9260.59893.7资料来源:Mckelvey 和 Palfrey(1995)。注:每个经验期由10轮实验组成,故共有200轮实验。-L*表示负的对数似然估计量。图5 A3的选择频率(实线)与QRE估计(虚线) 图6 B3的选择频率(实线)与QRE估计(虚线) 图7 估计值随时间推移的变动情况四、有限理性下的均衡分析:对古诺模型的发展QRE作为建立在有限理性基础上的均衡范式,已逐渐成为行为博弈论的核心概念之一。然而如何将QRE应用于经济学的均衡分析之中,目前的研究尚不多见。在国外已有的相关文献中,一些学者利用QRE理论对诸如拍卖、讨价还价、市场交换等问题进行了研究(Goeree and Holt, 2002,Kang-Oh Yi, 2005, 以及Voliotis, 2006),本文在此不再赘述。我们在本节运用QRE理论来重新讨论寡头竞争市场的产量选择和定价过程。这是一个现实的“囚徒困境”问题,其研究最早由古诺(1838)做出,并提出了著名的“古诺均衡”。而我们将利用这个模型展示当均衡分析向有限理性转变时所表现出的优越之处。本文提出了一个新的均衡概念,我们称之为古诺QRE,并利用它为行业中可能产生垄断的原因提出了新的解释。本文考虑一个n厂商的古诺寡头竞争市场,其中。从博弈论的观点看,其中每个厂商的策略是他的产量选择,支付是其利润。我们假定厂商共同面临一条产品反需求曲线为,其中a>0, b>0, P为产品的价格,Q为产量,并用,表示各厂商的产量,。假定每个厂商生产同质的产品,成本为零。这样,我们就假设了n个完全相同的厂商,他们属于同一行业。我们先给出对古诺模型的传统求解方式。4.1古诺均衡的静态求解如果假定每个厂商都是利润最大化者,那么厂商i的利润最大化问题为: (13)其中每个厂商的利润都依赖于其他厂商的产量选择,令,则有:, (14)(14)式称为厂商i的产量反应曲线,表示的是对于其他各厂商的产量选择,厂商i所应选择的最优产量。根据这n个厂商的产量反应曲线,我们就可以得到各厂商的均衡选择为: , (15)这被称为古诺均衡产量。古诺均衡满足纳什均衡的一般定义,在该点没有哪个厂商有偏离的动机,因为在该点每个厂商的产量选择都是对另一厂商产量选择的最优反应。将各厂商的产量之和代入中,可以得到古诺均衡价格为,此时各厂商的利润均为。4.2 古诺均衡的动态求解虽然古诺模型具有一次性博弈的特点,但是从动态的角度来求解均衡却更符合实际的经济意义。让我们考虑双寡头的情形。在动态中,时间是离散的,并且有一个初始的状态组合。动态的调整过程是,厂商轮流进行决策,并选择相对于前一期为最优反应的纯策略(产量)。换句话说,可以把这个动态过程描述为,其中定义 (16)则在长期存在这样一个稳态,一旦达到,系统将永远保持该状态。根据(16)式的定义,可知稳态满足纳什均衡的要求,因为每个厂商都达到了对其他厂商的最优反应点。4.3基于有限理性的古诺QRE古诺均衡的动态求解过程实际上是一种简单的学习过程,即每个厂商根据其他厂商在前一期的选择来不断调整自己的产量,但是这种方法具有很多局限性:其一,在求解前必须假定一个初始的状态组合,这具有某种先验性;其二,在求解时假定每个厂商轮流决定产量,但这不适用多厂商情形,因为让大量厂商轮流决定产量是不现实的;其三,假定每个厂商改变产量时却相信其他厂商不会改变产量,但实际中厂商几乎不会持有这种信念。虽然传统的动态方法有很多缺陷,但是从动态角度来研究寡头市场却是现实的,问题是一次性的古诺博弈不能给出一个动态的解释。本文试图从重复博弈的角度来研究这种多时期的动态性,我们的模型建立在有限理性的前提下。假设这n个厂商在进行一个重复博弈,在每个阶段博弈上各厂商同时做出一次产量选择,因此每个阶段博弈都是传统的一次性古诺博弈,并且较早的阶段博弈对应于厂商进入市场的初期,较后的阶段博弈对应于厂商已非常熟悉其他竞争者、同时对市场也已十分了解的时期。我们的方法是先对一次性的古诺博弈进行分析。在传统的古诺模型中,每个厂商都能正确计算自己与其他厂商的预期利润,这样才能达到彼此都是最优反应的纳什均衡。然而这对厂商来说是一个过高的要求,在现实中没有理由认为厂商会对自己和对手的预期利润进行精确估算。考虑到这一点,我们尝试用QRE的基本思想来分析一次性古诺博弈中的预期利润计算。首先重新给出一个假定。在传统古诺模型中,假定产量是区间上的连续变量。而在下面的分析中,为了数学上的方便,我们重新假定厂商的产量选择是一个离散变量,并且这些产量值的个数是一个极大的有限数,同时假定每个厂商面临的市场份额为 这个假定使得每个厂商都有一个产能约束。正式地,我们定义厂商i在集合上选择产量,该集合