信息化博弈论经济学与财务知识分析.pptx
博弈论与信息经济学博弈论与信息经济学Game Theory and Economics of Information主讲:景普秋主讲:景普秋单位:山西财经大学经济学院单位:山西财经大学经济学院E-mail:E-mail:博弈论基本思想博弈论基本思想人们在日常生活中进行着博弈,与配偶,朋友,陌生人,老板/员工,教授等。类似的博弈也在商业活动、政治和外交事务、战争中进行着在任何一种情况下,人们相互影响以达成彼此有利的协议或者解决争端。博弈论为众多学科提供了分析的概念和方法:经济学和商学,政治科学,生物学,心理学和哲学。如何在“博弈”中获胜?日常生活中的博弈(“游戏”)往往指的是诸如赌博和运动这样的东西:赌抛硬币 百米赛跑 打网球/橄榄球How can you win such games?许多博弈都包含着运气、技术和策略。策略是为了获胜所需要的一种智力的技巧。它是对于如何最好地利用身体(物质)的技巧的一种算计。什么是策略博弈?What is a Game of Strategy?策略思考本质上涉及到与他人的相互影响。其他人在同一时间、对同一情形也在进行类似的思考。博弈论就是用来分析这样交互式的决策的。理性的行为指的是:明白自己的目的和偏好,同时了解自己行动的限制和约束,然后以精心策划的方式选择自己的行为,按照自己的标准做到最好。博弈论对理性的行为又从新的角度赋予其新的含义与其他同样具有理性的决策者进行相互作用。博弈论是关于相互作用情况下的理性行为的科学。如何在博弈中获胜?真的能在博弈中(总是)获胜吗?对手和你一样聪明!许多博弈相当复杂,博弈论并不能提供万无一失的应对办法。例1:无谓竞争(The GPA Rat Race)你所注册的一门课程按照比例来给分:无论卷面分数是多少,只有4040的人能够得优秀,4040的人能得良好。所有学生达成一个协议,大家都不要太用功,如何?想法不错,但无法实施!稍加努力即可胜过他人,诱惑大矣。问题是,大家都这么做。这样一来,所有人的成绩都不比大家遵守协议来得高。而且,大家还付出了更多的功夫。正因为这样的博弈对所有参与者存在着或大或小的潜在成本,如何达成和维护互利的合作就成为一个值得探究的重要问题。存在双赢的博弈吗?例2 2:焦点博弈“We Cant Take the Exam,Because We Had a Flat Tire”两个学生想要推迟考试,谎称由于返校途中轮胎漏气,未能很好地备考。教授分别对他们提出了问题:“哪个轮胎漏气?”如何应答?他们本应该预计到教授的招数,提前准备好答案。在博弈中,参与者应该向前看到未来的行动,然后通过向后推理,推算出目前的最佳行动。如果双方都没有准备,他能够独立地编出一个相互一致的谎言吗?例2 2:焦点博弈“We Cant Take the Exam,Because We Had a Flat Tire”“乘客侧前轮”看起来是一个合乎逻辑的选择。但真正起作用的是你的朋友是否使用同样的逻辑,或者认为这一选择同样显然。并且是否你认为这一选择是否对他同样显然;反之,是否她认为这一选择对你同样显然。以此类推。也就是说,需要的是对这样的情况下该选什么的预期的收敛。这一使得参与者能够成功合作的共同预期的策略被称为焦点。心有灵犀一点通。例2 2:焦点博弈“We Cant Take the Exam,Because We Had a Flat Tire”我们无法从所有这样的博弈的结构中找到一般和本质的东西,来保证这样的收敛。某些博弈中,由于偶然的外因可以对策略贴标签,或者参与者之间拥有某些共同的知识体验,导致了焦点的存在。没有某个这样的暗示,默契的合作就完全不可能。例3:为什么教授如此苛刻?许多教授强硬地规定,不进行补考,不允许迟交作业或论文。教授们为何如此苛刻?如果允许某种迟交,而且教授又不能辨别真伪,那么学生就总是会迟交。期限本身就毫无意义了。避免这一“滑梯”通常只有一种办法,就是“没有例外”的策略。例3:为什么教授如此苛刻?问题是,一个好心肠的教授如何维持如此铁石心肠的承诺?他必须找到某种使拒绝变得强硬和可信的方法。拿行政程序或者学校政策来做挡箭牌在课程开始时做出明确和严格的宣布通过几次严打来获得“冷面杀手”的声誉导论博弈均衡与一般均衡博弈论与诺贝尔经济学奖获得者博弈论的基本概念与类型主要参考文献导论一、博弈均衡与一般均衡 案例:囚犯困境案例:囚犯困境抵赖坦白抵赖-1,-1-9,0坦白0,-9-6,-6支付嫌疑人B嫌疑人A与传统微观经济学的比较与传统微观经济学的比较一致性利益最大化原则均衡原则不一致人与人之间的关系-个人理性导致集体非理性-设计协调性机制-满足个人理性前提下达到集体理性信息不完全-委托-代理理论、信号传递与信息筛选模型导论二、博弈论与诺贝尔经济学奖获得者1994年诺贝尔经济学奖获得者美国人约翰-海萨尼(John C.Harsanyi)和美国人约翰-纳什(John F.Nash Jr.)以及德国人莱因哈德-泽尔腾(Reinhard Selten)获奖理由:在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响。约翰约翰纳什纳什1928年生于美国年生于美国约翰约翰海萨尼海萨尼19201920年年生于美生于美国国莱因哈莱因哈德德泽泽尔腾,尔腾,19301930年年生于德生于德国国1996年诺贝尔经济学奖获得者英国人詹姆斯莫里斯(James A.Mirrlees)和美国人威廉-维克瑞(William Vickrey)获奖理由:前者在信息经济学理论领域做出了重大贡献,尤其是不对称信息条件下的经济激励理论的论述;后者在信息经济学、激励理论、博弈论等方面都做出了重大贡献。詹姆斯詹姆斯莫里斯莫里斯19361936年生于英国年生于英国威廉维克瑞,1914-1996,生于美国2001年诺贝尔经济学奖获得者三位美国学者乔治-阿克尔洛夫(George A.Akerlof)、迈克尔-斯彭斯(A.Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E.Stiglitz)获奖理由:在“对充满不对称信息市场进行分析”领域做出了重要贡献。约瑟夫斯蒂格利茨,1943年生于美国的印第安纳州,1967年获美国麻省理工学院博士头衔,曾担任世界银行的首席经济学家,现任美国哥伦比亚大学经济学教授乔治阿克尔洛夫1940年生于美国的纽黑文,1966年获美国麻省理工学院博士头衔,现为美国加利福尼亚州大学经济学教授。迈克尔斯彭斯1948年生于美国的新泽西,1972年获美国哈佛大学博士头衔,现兼任美国哈佛和斯坦福两所大学的教授。2005年诺贝尔经济学奖获得者以罗伯特奥曼色列经济学家罗伯特奥曼(Robert J.Aumann)和美国经济学家托马斯谢林(Thomas Thomas C.SchellingC.Schelling)获奖原因:“通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献而获奖。罗伯特奥曼 托马斯谢林导论三、博弈论的基本类型合作博弈与非合作博弈合作博弈(cooperative game)达成有约束力的协议(binding agreement),强调团体理性,强调效率、公正、公平非合作博弈(non-cooperative game)强调个人理性,其结果可能有效率,也可能无效率。纳什均衡(纳什均衡(NENE)子博弈完美纳什子博弈完美纳什均衡(均衡(SPNESPNE)贝氏纳什均衡贝氏纳什均衡(BNEBNE)完美贝氏纳什均衡完美贝氏纳什均衡(PBNEPBNE)及序贯均及序贯均衡(衡(SESE)完全信息 不完全信息静态动态非合作博弈的基本分类非合作博弈的基本分类静态博弈与动态博弈(staticgamesanddynamicgames)同时决策或者同时行动的博弈属于静态博弈;先后或序贯决策或者行动的博弈,属于动态博弈即使决策或行动有先后,但只要局中人在决策时都还不知道对手的决策或者行动是什么,也算是静态博弈完全信息博弈与不完全信息博弈(gamesofcompleteinformationandgamesofincompleteinformation)按照大家是否清楚对局情况下每个局中人的得益。“各种对局情况下每个人的得益是多少”是所有局中人的共同知识(common knowledge)。据“共同知识”的掌握分为完全信息与不完全信息博弈。完美信息博弈与不完美信息博弈(gameswithperfectinformationandgameswithimperfectinformation)是关于动态博弈进行过程之中面临决策或者行动的参与人对于博弈进行迄今的历史是否清楚的一种刻划。如果在博弈进行过程中的每一时刻,面临决策或者行动的参与人,对于博弈进行到这个时刻为止所有参与人曾经采取的决策或者行动完全清楚,则称为完美信息博弈;否则位不完美信息。零和博弈与非零和博弈(zero-sumgameandnon-zero-sumgame)如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为零,这个博弈就叫零和博弈;相反,如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为零,这个博弈就叫非零和博弈。零和博弈是利益对抗程度最高的博弈。常和博弈与非常和博弈(constant-sumgameandvariable-sumgame)如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为一个常数,这个博弈就叫常和博弈;相反,如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为一个常数,这个博弈就叫非常和博弈。常和博弈也是利益对抗程度最高的博弈。非常和(变和)博弈蕴含双赢或多赢。导论四、主要参考文献张张维维迎迎著著,博博弈弈论论与与信信息息经经济济学学,上上海海三三联联书书店店、上海人民出版社,上海人民出版社,19961996年版。年版。Roger B.Myerson著:Game Theory(原文版、译文版),中国经济出版社,2001年版。王则柯、李杰编著,博弈论教程,中国人民大学出版社,2004年版。艾里克.拉斯缪森(Eric Rasmusen)著,博弈与信息:博弈论概论,北京大学出版社,2003年版。因内思马可-斯达德勒,J.大卫佩雷斯-卡斯特里罗著,信息经济学引论:激励与合约,上海财经大学出版社,2004年版。施锡铨编著,博弈论上海财大出版社,2000年版。谢谢识识予予编编著著,经经济济博博弈弈论论,复复旦旦大大学学出出版版社社,20022002年版。年版。谢谢识识予予主主编编,经经济济博博弈弈论论习习题题指指南南,复复旦旦大大学学出出版社,版社,20032003年版。年版。课程主要内容第一章 完全信息静态博弈第二章 完全信息动态博弈第三章 不完全信息静态博弈第四章 不完全信息动态博弈第五章 委托-代理理论第六章 逆向选择与信号传递第一章 完全信息静态博弈博弈论的基本概念及战略式表述纳什均衡纳什均衡应用举例混合战略纳什均衡纳什均衡的存在性与多重性第一节 博弈论的基本概念与战略式表述博弈论的基本概念与战略式表述博弈论(game theory)是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。博弈的战略式表述:G=N,(Si)iN,(Ui)iN有三个基本要素:(1)参与人(players)iN=1,2,n;(2)战略(strategies),siSi(战略空间);(3)支付(payoffs),ui=ui(s-i,si)。案例案例1 1:囚犯困境:囚犯困境抵赖坦白抵赖-1,-1-9,0坦白0,-9-6,-6支付嫌疑人B嫌疑人A均衡与均衡结果均衡战略(坦白,坦白)均衡支付(-6,-6)第二节 纳什均衡占优战略均衡重复剔除的占优战略均衡纳什均衡完全信息静态博弈的几点特性完全信息静态博弈的几点特性 同时出招,出招一次;知道博弈结构与游戏规则(共同知识);不管是否沟通过,无法做出有约束力的 承诺(非合作)一、占优战略均衡占优战略:不管对手战略为何,该参与人可找到一最佳战略。定义:在博弈G=N,(Si)iN,(Ui)iN中,如果对所有的参与人i,si*是它的占优战略,那么所有参与人选择的战略组合(s1*,sn*)成为该对策的占优战略均衡。案例案例1 1:囚犯困境:囚犯困境抵赖坦白抵赖-1,-1-9,0坦白0,-9-6,-6支付嫌疑人B嫌疑人A“囚犯困境”的扩展两个寡头企业选择产量公共产品的供给军备竞赛经济改革 结论:一种制度安排,要发生效力。必须是一种纳什均衡;否则,制度安排便不能成立。价格大战低价高价低价3,36,1高价1,65,5支付百事可乐可口可乐案例2:智猪博弈 猪圈里圈两头猪,一头大猪,一头小猪。猪圈的一头有一个猪食槽,另一头安装一个按钮,控制着猪食的供应。按一下按钮会有10个单位的猪食进槽,但谁按按钮谁就要付出2个单位的成本。若大猪先到,大猪吃到9个单位,小猪只能吃1个单位;若同时到,大猪吃7个单位,小猪吃3个单位;若小猪先到,大猪吃6个单位,小猪吃4个单位。支付如表。案例案例2 2:智猪博弈:智猪博弈按等待按5,14,4等待9,-10,0支付小猪大猪智猪博弈的扩展股份公司承担监督经理职能的大股东与小股东股票市场上炒股票的大户与小户市场中大企业与小企业在研发、广告上的博弈公共产品的提供(富户与穷户)改革中不同利益分配对改革的推动二、重复剔除的占优战略均衡绝对劣势战略:si是一绝对劣势战略当且仅当存在另一战略siSi使得ui(si,s-i)ui(si,s-i)对所有s-iS-i均成立。(si 未必是优势战略)重复剔除的占优战略均衡:逐次删去绝对劣势战略得到唯一的占优战略。例:重复剔除的占优战略均衡例:重复剔除的占优战略均衡2,30,23,41,12,74,5 参与人2 L M R参与人1UD例 重复剔除的占优战略均衡4,35,16,22,18,43,63,09,62,8 参与人2L M R参与人1UDM例 重复剔除的占优战略均衡1,01,33,00,20,13,00,22,45,3 参与人2L M R参与人1UDM三、纳什均衡纳什均衡定义:指一战略组合有以下特性:当参与人持此战略后,任一参与人均无诱因偏离这一均衡;s*=(s1*,sn*)=(si*,s-i*)是一纳什均衡,当且仅当对所有参与人而言,ui(si*,s-i*)ui(si,s-i*)对所有siSi 均成立。简单而言,当s1*是对s2*的最适反应,s2*也是s1*的最适反应时,(s1*,s2*)就是二人博弈的纳什均衡。命题1:纳什均衡在占优战略重复剔除解法中不会被剔除命题2:重复剔除的严格占优战略均衡一定是纳什均衡。例 纳什均衡求解0,44,05,34,00,45,33,53,56,6 参与人2L M R参与人1UDM作业7,76,67,65,75,88,56,65,84,8乙左中右上中下甲一个两人同时博弈的支付竞争如下所示,试求纳什均衡。是否存在重复剔除占优战略均衡?第三节 纳什均衡应用举例古诺(Cournot)寡头模型沙滩卖冰豪泰林(Hotelling)价格竞争模型公共地的悲剧一、古诺寡头模型特点:存在两家厂商;同时行动确定产量。通过预测另一家厂商的产量来选择自己的利润最大化产量,寻求预测均衡。厂商1表示为:max p(y1+y2e)y1-c(y1),得出y1=f1(y2e),同理得出y2=f2(y1e),称为反应函数,两条曲线的交点为古诺模型的解。古诺寡头模型的纳什均衡反应函数 y1=f1(y2)y2=f2(y1)(y1*,y2*)是该对策的纳什均衡解。y1*y12y11 y10y2*y22y21y1oy2f1(y2)f2(y1)例题:古诺模型的解假设p=a-(y1+y2),C1=y1c,C2=y2c则根据利润最大化的一阶条件分别得到反应函数y1=f1(y2)=(a-y2-c)/2,y2=f2(y1)=(a-y1-c)/2,求出均衡产量为(1/3(a-c),1/3(a-c)),为纳什均衡,均衡利润为(1/9(a-c)2,1/9(a-c)2)古诺模型的解:与垄断市场的比较古诺模型的解:与垄断市场的比较假设为一垄断企业,则有:Max=y(a-y-c),得到垄断企业的最优产量 y=1/2(a-c)y1+y2=2/3(a-c)垄断利润为=1/4(a-c)2 2/9(a-c)2寡头竞争的总产量大于垄断产量的原因在于每个企业在选择自己的最优产量时,只考虑对本企业利润的影响,而忽视对另一个企业的外部负效应。寡头厂商与垄断厂商的比较1/3(a-c)1/2(a-c)1/2(a-c)y1oy2f1(y2)f2(y1)1/3(a-c)01二、沙滩卖冰假设游客沿沙滩0,1间均匀分布,现有两位卖冰者,他们会将摊位选在哪个位置?假设游客就近购买。生活中还有哪些类似的例子?三、豪泰林模型寡头企业竞争战略是价格伯川德(Bertrand)模型:产品同质,均衡价格等于边际成本,类似于完全竞争市场均衡。豪泰林(Hotelling)模型:存在产品差异,均衡价格不等于边际成本,垄断性提高假定长度为1的线性城市,消费者均匀分布在0,1区间内,分布密度为1;两个商店1、2分别位于x=0,x=1,即城市的两端;消费者购买商品的旅行成本与商店的距离成反比,单位距离的成本为t;住在x的消费者在两个商店之间是无差异的,需求D1=x,D2=1-x,x满足:p1+tx=p2+t(1-x),解得x=(p2-p1+t)/2t。00 x1x1商店商店11商店商店2 2豪泰林模型:以空间上差异为例豪泰林模型:以空间上差异为例根据两个商店的利润函数,1=(p1-c)x,2=(p2-c)(1-x)选择使利润最大化的价格,得到一阶条件,求得p1*=p2*=c+t,均衡利润1=2=t/2旅行成本越高,产品差异越大,均衡价格从而均衡利润也越高。原因:随着旅行成本上升,不同商店出售的产品之间的替代性下降,每个商店对附近的消费者的垄断能力加强,当旅行成本为零时,不同商店的产品之间具有完全的替代性,则为伯川德均衡结果。四、公共地的悲剧生物学家和生态学家哈丁(Garrett Harden)在科学(1968年,第162卷)发表公地的悲剧。考虑一块对所有的人都开放的牧场,在着的制度下,可以预期,每一个放牧的人都会在公地上放牧尽可能多的牲口。增加一头牲口既有正效用,也有负效用。正效用是牲口的销售收入,增加一头为+1负效用使每增加一头带来的过度放牧的损失,每一个放牧着承担-1/n放牧者合理的决策是增加牲口,直至马瘦毛长,公地毁灭。四、公共地的悲剧资源没有排他性产权:草地放牧、公海捕鱼、小煤窑的过度开发;另一类是人们向其中排放废物的公地。草地放牧:n个农民,每个拥有羊的数量为gi,G=gi,v(G)代表每只羊的价值,与草地上放牧的总数G相关,饲养量增加到一定程度,随着数量继续增加,羊的价值会下降,即v(G)0农民的利润函数i=giv(gj)-gic最优化的一阶条件:i/gi=v(G)+giv(G)-c=0增加一只羊有正效应(羊的价值)、负效应(新增羊使之前所有羊的价值下降)个人边际成本小于社会边际成本,个人最优决定的饲养总量大于社会最优决定的饲养总量五、斗鸡博弈 0,00,2退2,0-3,-3进退进12支付“斗鸡博弈”的扩展夫妻间吵架警察与游行队伍公共产品的供给(两富户修路)第四节 混合战略纳什均衡混合战略(mixed strategies)定义:*=(1*,n*)=(i*,-i*)是一纳什混合战略均衡,当且仅当对所有参与人而言,i*是-i*的最适反应,ui(i*,-i*)ui(I,-i*),对所有ii成立)。持混合战略的前提是在均衡时两种战略的报酬会相等,是预期支付最大化的推导结果。掷硬币-1,11,-1反面1,-1-1,1正面反面正面12支付 p 1-pq1-q参与人参与人1:max Eu=q(p(-1)+(1-p)1)+(1-q)(p1+(1-p)(-1)=-pq+q-pq+p-pq-1+q+p-pq =-4pq+2q+2p-1一阶条件为零求得:一阶条件为零求得:p=1/2掷硬币的分析给定参与人1(q,1-q),参与人2的支付是:q+(-1)(1-q)(正面)=(-1)q+(1-q)(反面);给定参与人2(p,1-p),参与人1的支付为:p(-1)+(1-p)(正面)=p+(-1)(1-p)(反面);求得(1/21/2,1/21/2)是纳什混合战略均衡)是纳什混合战略均衡 如果两种战略报酬不相等,那么就变为 纯战略(pure strategies)了。混合战略均衡的博弈原则两博弈方不能让对方知道或猜到自己的选择,因而必须在决策时利用随机性;两博弈方选择每种策略的概率一定要恰好使对方无机可乘,即让对方无法通过针对性地倾向某一策略而在博弈中占上风。例:在掷硬币的博弈中,参与人1选正面、反面的概率q,1-q,一定要使参与人2选正面的和反面的期望得益相等。单纯战略与混合战略的定义G=N,S,U是一个战略式有限博弈,参与人i的战略空间S中的任一元素si称为i的一个单纯战略(pure strategy);定义在Si上的一个概率分布函数pi(si)代表了一个混合战略(mixed strategy)这个战略的内容是:参与人i以概率pi(sij)选择单纯战略sij,而pi(sij)=1。单纯战略是混合战略的特例,因为任一单纯战略si都可以理解为i以概率1选择si,以0概率选取其他所有单纯战略。引入混合战略,参与人的目标需要修改为“最大化自己的期望支付”Selton:小偷和守卫的博弈小偷和守卫的博弈 一小偷欲偷窃有一守卫看守的仓库,如果小偷偷窃时守卫在睡觉,则小偷就能得手,偷得价值为V的赃物;如果小偷偷窃时守卫没有睡觉,则小偷就会被抓住。设小偷被抓后要坐牢,负效用为-P,守卫睡觉而未遭偷窃有S的正效用,因睡觉被窃要被解雇,其负效用为-D。而如果小偷不偷,则他既无得也无失,守卫不睡意味着出一份力挣一分钱,他也没有得失。睡不睡偷V,-D-P,0不偷0,S0,0小偷小偷守卫守卫支付支付小偷与守卫的博弈小偷与守卫的博弈守卫得益(睡)守卫得益(睡)S01pt(小偷偷的概率)小偷偷的概率)pt*pt*/-D-D/小偷的混合策略小偷的混合策略S到到-D连线的纵坐连线的纵坐标是在横坐标对应标是在横坐标对应的小偷的小偷“偷偷”窃概窃概率下的守卫选择率下的守卫选择“睡睡”的期望得益,的期望得益,即即S(1-pt)+(-D)pt加重对守卫的处罚在短期加重对守卫的处罚在短期中的效果是使守卫真正尽中的效果是使守卫真正尽职,但在长期中恰恰是会职,但在长期中恰恰是会降低盗窃发生的概率(激降低盗窃发生的概率(激励的悖论)励的悖论)小偷得益(偷)小偷得益(偷)V01Pg(守卫睡的概率)守卫睡的概率)Pg*Pg*/-P-P/守卫的混合策略守卫的混合策略小偷的混合策小偷的混合策略分布不受略分布不受P的影响,因此的影响,因此政府加重对小政府加重对小偷的惩罚在长偷的惩罚在长期中并不能抑期中并不能抑制盗窃,最多制盗窃,最多只能抑制短期只能抑制短期的盗窃发生率,的盗窃发生率,它的作用主要它的作用主要是使守卫可以是使守卫可以更多地偷懒更多地偷懒齐威王田忌赛马齐威王田忌赛马古代齐威王与大将田忌赛马,田忌的谋士孙膑运用计谋帮助田忌以弱胜强。比赛规则:田忌与齐威王各出三匹马,一对一比赛三场,每一场的输方要赔1000斤铜给赢方。双方的马按实力都可以分为上、中、下,但齐威王的上、中、下均优于田忌的上、中、下。实际上,田忌的上马、中马要优于齐威王的中马、下马。比赛结果:田忌连输三场;后孙膑建议,以上对中、以中对下、以下对上,结果以2:1赢得比赛。前述为单方面运用策略的故事,如果齐威王预料到田忌的做法,必然会改变各匹马出场的次序。本博弈中博弈双方的利益是完全对立的,是严格竞争的零和博弈,不会有纯策略纳什均衡,必然是一个混合策略均衡。假设齐威王采取六种战略的概率分别为pa,pb,pc,pd,pe,pf(加总为1),则田忌采取六种战略的期望得益相等,则得出齐威王与田忌均以1/6的相同概率随机选择各自的六个纯策略,构成本博弈唯一的混合策略纳什均衡。齐威王田忌赛马齐威王田忌赛马上中下上下中中上下中下上下上中下中上上中下3,-31,-11,-11,-1-1,11,-1上下中1,-13,-31,-11,-11,-1-1,1中上下1,-1-1,13,-31,-11,-11,-1中下上-1,11,-11,-13,-31,-11,-1下上中1,-11,-11,-1-1,13,-31,-1下中上1,-11,-1-1,11,-11,-13,-3齐齐威威王王田忌田忌齐威王田忌赛马齐威王田忌赛马齐威王田忌赛马 在上述混合策略下,齐威王的期望得益为1/6(3+1+1+1+1-1)=1;田忌的期望得益为1/6(1-3-1-1-1-1)=-1,即多次进行这样的赛马,齐威王平均每次能赢田忌1000斤铜,这是因为齐威王三匹马的总体实力略胜田忌三匹马总体实力的缘故混合策略反应函数将博弈方的策略空间扩展到包括混合策略,将纳什均衡扩展到包括混合策略纳什均衡以后,求纳什均衡反应函数的分析方法也可以扩展到求混合策略纳什均衡。反应函数即一博弈方对另一博弈方每种可能的决策内容的最佳反映决策构成的函数。在纯策略的范畴内,反应函数是各博弈方选择的纯策略对其他博弈方纯策略的反应。在混合策略的范畴内,博弈方的决策内容为选择概率分布,反应函数就是一方对另一方的概率分布的反应。掷硬币-1,11,-1反面1,-1-1,1正面反面正面12支付 q 1-q1-pppq01/2111/2p1=f(q)q2=f(p)当当2出正面的概率出正面的概率q 1/2,1出正面的概率为出正面的概率为1,因为他出正面得到的预期收益大于他出反,因为他出正面得到的预期收益大于他出反面;当面;当2出正面的概率出正面的概率q 1/2,1出正面的概出正面的概率为率为0,因为他出反面的期望收益大于他出正,因为他出反面的期望收益大于他出正面。面。第五节 纳什均衡的存在性与多重性混合战略纳什均衡纯战略纳什均衡重复剔除占优均衡占优均衡不同均衡概念之间的关系纳什均衡的存在性 每个有限战略式博弈(参与人与战略数目均为有限)都有纳什均衡存在,这均衡有可能是混合战略均衡纳什均衡的多重性 纳什均衡不唯一,如性别战案例 性别战1,30,0足球0,02,1时装足球时装妻子支付 p 1-pq1-q丈夫性别战:混合策略均衡给定妻子分别以给定妻子分别以q,1-q的概率选择时装、足球,的概率选择时装、足球,则丈夫选择时装、足球的期望收益相等,即则丈夫选择时装、足球的期望收益相等,即1.q+0.(1-q)=0.q+3.(1-q),解得妻子选择时解得妻子选择时装、足球的概率分别为(装、足球的概率分别为(3/4,1/4)给定丈夫分别以给定丈夫分别以p,1-p的概率选择时装、足球,的概率选择时装、足球,则妻子选择时装、足球的期望收益相等,即则妻子选择时装、足球的期望收益相等,即2.p+0.(1-p)=0.p+1.(1-p),解得妻子选择时解得妻子选择时装、足球的概率分别为(装、足球的概率分别为(1/3,2/3)当妻子以(当妻子以(3/4,1/4)的概率分布随机选择时)的概率分布随机选择时装表演和足球,丈夫以(装表演和足球,丈夫以(1/3,2/3)的概率随)的概率随机选择时装表演和足球时,双方都无法通过单机选择时装表演和足球时,双方都无法通过单独改变策略,即单独改变随机选择纯策略的概独改变策略,即单独改变随机选择纯策略的概率分布而提高利益,因此双方的上述概率分布率分布而提高利益,因此双方的上述概率分布的组合构成一个混合策略纳什均衡。的组合构成一个混合策略纳什均衡。该混合策略纳什均衡给妻子和丈夫各自带来的该混合策略纳什均衡给妻子和丈夫各自带来的期望收益分别为:期望收益分别为:q.p.2+q.(1-p).0+(1-q).p.0+(1-q).(1-p).1=2/3;q.p.1+q.(1-p).0+(1-q).p.0+(1-q).(1-p).3=3/4双方的期望收益均小于纯策略时的期望收益。双方的期望收益均小于纯策略时的期望收益。性别战:混合策略均衡qp01/3113/4q1=f(p)p2=f(q)夫妻之争两博弈夫妻之争两博弈方的反应函数方的反应函数如果p 1/3,则妻子选择时装的则妻子选择时装的期望得益小于选择足球期望得益小于选择足球,因此因此妻子应选择足球,即妻子应选择足球,即q=0;如如果果p 1/3,则妻子选择时装的则妻子选择时装的期望得益为大于选择足球的得期望得益为大于选择足球的得益,因此选时装,即益,因此选时装,即p=1焦点均衡(focal point)当一个博弈有多个纳什均衡时,博弈论并没有一个一般的理论来证明纳什均衡结果一定会出现。在现实生活中,参与人可能使用某些被博弈模型抽象掉的信息来达到一个“焦点”均衡。这些信息可能与社会文化习惯、参与人过去博弈的历史有关。例,在性别战中,如果今天是丈夫的生日,(足球、足球)可能是一个焦点均衡;而如果是妻子的生日,(时装、时装)可能是一个焦点均衡。还有分蛋糕等。课堂练习:求纳什均衡2,40,0音乐会1,14,2足球音乐会足球男方女方支付 p 1-pq1-q 市场进入阻挠0,3000,300不进入-10,040,50进入斗争默许进入者在位者支付威胁是可置信的吗?作业1 春节前夕,某小镇上两个商铺主甲和乙同时看到一个赚钱机会:去城里贩一批鞭炮回来零售,购货款加上运输费用共5000元,如果没有竞争对手,这批货在小镇上能卖6000元;但如果另一家商铺同时在小镇上卖鞭炮,价格下跌使得这批鞭炮只能卖4000元。请用战略式表示支付矩阵;请找出纳什均衡。作业二2,01,14,23,41,22,31,30,23,0乙左中右上中下甲一个两人同时博弈的支付竞争如下所示,试求纳什均衡。是否存在重复剔除占优战略均衡?1、有时候读书是一种巧妙地避开思考的方法。11月-2211月-22Monday,November 7,20222、阅读一切好书如同和过去最杰出的人谈话。08:35:5108:35:5108:3511/7/2022 8:35:51 AM3、越是没有本领的就越加自命不凡。11月-2208:35:5108:35Nov-2207-Nov-224、越是无能的人,越喜欢挑剔别人的错儿。08:35:5108:35:5108:35Monday,November 7,20225、知人者智,自知者明。胜人者有力,自胜者强。11月-2211月-2208:35:5108:35:51November 7,20226、意志坚强的人能把世界放在手中像泥块一样任意揉捏。07 十一月 20228:35:51 上午08:35:5111月-227、最具挑战性的挑战莫过于提升自我。十一月 228:35 上午11月-2208:35November 7,20228、业余生活要有意义,不要越轨。2022/11/7 8:35:5108:35:5107 November 20229、一个人即使已登上顶峰,也仍要自强不息。8:35:51 上午8:35 上午08:35:5111月-2210、你要做多大的事情,就该承受多大的压力。11/7/2022 8:35:51 AM08:35:5107-11月-2211、自己要先看得起自己,别人才会看得起你。11/7/2022 8:35 AM11/7/2022 8:35 AM11月-2211月-2212、这一秒不放弃,下一秒就会有希望。07-Nov-2207 November 202211月-2213、无论才能知识多么卓著,如果缺乏热情,则无异纸上画饼充饥,无补于事。Monday,November 7,202207-Nov-2211月-2214、我只是自己不放过自己而已,现在我不会再逼自己眷恋了。11月-2208:35:5107 November 202208:35谢谢大家谢谢大家