博弈论教程ppt课件.ppt
《博弈论教程ppt课件.ppt》由会员分享,可在线阅读,更多相关《博弈论教程ppt课件.ppt(244页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确博弈论教程一、博弈论概述一、博弈论概述1.1.1 1.1.1 博弈论的定义博弈论的定义博弈论研究的是人与人之间利益相互制约下策略选择时的理性行为及相应结局。博弈论研究的是人与人之间利益相互制约下策略选择时的理性行为及相应结局。豪尔绍尼(豪尔绍尼(John C.HarsanyiJohn C.Harsanyi)19941994年诺贝尔经济学奖获奖致词:博弈论是关于策略相互作用的理论。年
2、诺贝尔经济学奖获奖致词:博弈论是关于策略相互作用的理论。博弈论研究人与人之间博弈论研究人与人之间“斗智斗智”的形式和后果,当人们利益存在冲突时,每个人所获得的利益不的形式和后果,当人们利益存在冲突时,每个人所获得的利益不仅取决于自己所获取的行动,还依赖于其他人采取的行动,每个人都需要针对对方的行为选择作出仅取决于自己所获取的行动,还依赖于其他人采取的行动,每个人都需要针对对方的行为选择作出对自己最有利的反应。对自己最有利的反应。2020/12/823 3、博弈论的分类、博弈论的分类 (1)(1)合作博弈合作博弈研究人们达成合作时如何分配合作得到的收益,即收益分配问题。(2)(2)非合作博弈非合
3、作博弈研究人们在利益相互影响的局势中如何选决策使自己的收益最大,即策略选择问题。(3)完全信息不完全信息博弈:参与者对所有参与者的策略空间及策略组合下的支付有充了解称为完全信息;反之,则称为不完全信息。(4)(4)静态博弈和动态博弈静态博弈和动态博弈静态博弈:指参与者同时采取行动,或者尽管有先后顺序,但后行动者不知道先行动者的策略。动态博弈:指双方的的行动有先后顺序并且后行动者可以知道先行动者的策略。2020/12/83博弈的分类及对应的均衡博弈的分类及对应的均衡静态动态完全信息完全信息静态博弈完全信息静态博弈纳什均衡;Nash(1950)完全信息动态博弈完全信息动态博弈子博弈精炼纳什均衡;泽
4、尔腾(1965)不完全信息不完全信息静态博弈不完全信息静态博弈贝叶斯纳什均衡;海萨尼(1967-1968)不完全信息动态博弈不完全信息动态博弈精炼贝叶斯纳什均衡;泽尔腾(1975)Kreps,Wilson(1982),Fudenberg,Tirole(1991)2020/12/841.1.2一个非技本性的定义规定或定义一个博弈需要以下几个方面:1参与人参与人(Player)(Player)(局中人)局中人)指博弈中的决策主体,他的目的是通过选择行动(或策略)以最大化自己的支付(效用)水平,参与人可以是自然人、团体、自然(“上帝”作为虚拟的参与人)。2各个参与人各自可选择行动集行动集(actio
5、n(action set)set),Ai=ai,是其可以采用的全部行动的集合。一个行动组合(action proile)是一个由博弈中的n个参与人每个选取一个行动所组成的有序集a=(a1,a2,an)。3.参与人i的策略策略(strategy)(strategy)是如下的一项规则:给定其信息集,该策略决定在博弈的每一时点他选 择何种行动。2020/12/85 参与人i的策略集(strategy set)Si=si是其可行策略的集合。策略组合(strategy pro(s1,s2,sn)是由博弈的n个参与人每人选择一个策略所组成的一个 有序集。4.参与人i的得益得益(支支)(payoff)(pa
6、yoff)ui(s1,s2,sn)表示 这样的含义:在所有的参与人和自然都选择了各自的策略且博弈已经完成后,参与人i获得的效用。参与人i获得的期望效用,该期望效用是参与人i及其他参与人所选择的策略的函数。5.一个博弈的结果是指在博弈结束以后,建模者从行动、得益和其他变量的取值中所挑选出来的他所感兴趣的要素的集合。2020/12/861.2 几类经典的博弈模型1.2.1 囚徒的困境囚徒的困境(prisoners dilemma)囚徒囚徒A坦白不坦白囚徒囚徒B坦白不坦白5,50,1010,01,1这个例子本身就部分奠定了非合作博弈论的基础。2020/12/871.2.2 智猪博弈智猪博弈 猪圈里有
7、两头猪:大猪和小猪,猪圈的一头有一个猪食槽,另头装有个按纽,控制着猪食的供应,按一下就会有10单位的猪食进槽,但谁按谁就要付出相当于2单位猪食的成本成本;当猪食进槽时,若大猪先到,大猪可吃到9单位;小猪先到,则小猪可吃到4单位,大猪吃6单位;若两者同时到,叫大猪可吃7单位,小猪吃3单位。小猪小猪 大猪大猪按等按等5,14,49,10,02020/12/881.2.3 性别战性别战1.2.4 斗鸡博弈斗鸡博弈女女足球芭蕾男男足球芭蕾2,10,00,01,3AB进退进退3,32,0 0,20,02020/12/891.2.5 市场进入阻挠1.2.6 猜硬币博弈 1.2.7 石头剪子布默许在位者进入
8、者进入不进入斗争40,5010,00,3000,300猜硬币方正反正反盖硬币方1,11,11,11,1石头石头剪子剪子布布石头石头剪子剪子布布0,01,11,11,10,01,11,11,10,0AB2020/12/8101.3 博 弈 的 结 构 和 博 弈 的 分 类1.3.1 博 弈 中 的 博 弈 方 一、单人博弈 实际上是最优化问题,或 者是一个参与人与“自自 然然”的博弈。二、双人博弈最常见、研究得最多的博弈 双人博弈中的两个博弈方之间并不总是相 互对抗的。(互补性问题)掌握信息较多的一方并不能保证获益大。个人追自身的最大利益并不能保证所得最优。三、多人博弈可能存在“破坏者”与“联
9、盟”。2020/12/8111.3.2 博 弈 中 的 策 略 博弈中独立决策、独立承担博弈结果的个人或 组织称为博弈方。博弈中各博弈方的决策内容称为“策略“,但应注意到并不是每个博弈方都有相同的可选略。如果在一个博弈中每个博弈方的策略数都是有 限的,则称该博弈为有限博弈;否则就称为 无限博弈。1.3.3 博弈中的得益(支付,payoff)得益指在一个特定的策略组合策略组合下参与人得到效用水平,即各个博弈方从博弈中所获得的利益.2020/12/812 一、零 和 博 弈 二、常 和 博 弈 三、变 和 博 弈国内常见的博弈论参考书:1.经济博弈论(第二版)谢识予 编著复旦大学出版社,20022
10、.博弈论与信息经济学 张维迎 著,上海三联书店、上海人民出版社3.博弈论施锡铨 著,上海财经大学出版社,20024.Game Theory,1991,D.Fudenberg&J.Tirole中译本,中国人民大学出版社2020/12/813 第二章 完全信息静态博弈2.1 基 本 分 析 思 路 和 方 法 博弈可以有两种不同的表达方式:策略式策略式(Normal)表述和扩展式扩展式(extensive)表述,从 理论上来讲,这两种表述形式几乎是完全等 价的,但从分析的方便性来看,策略式更适 合表述静态博弈。在策略式表述中,所有参与人同时选择各自的 策略,所有参与人选择的策略一起决定每个参与人的
11、支付。这里的“同时选择”的是策略,而不是行动。2020/12/814这里的“同时”是一个信息概念,而不是一个时间概念。可以设想,参与人是处于不同的房间里,要求在彼此没有联络的情况下,选择一个按纽。通常还假设,所有的参与人都知道博弈的结构,知道他们的对手知道这一结构,知道他们的对手了解他们知道如此直至无穷,也即博弈的结构是共同知识。更准确地,策略式表述给出:博弈的参与人集合:i,=1,2,n每个参与人的策略空间 Si,i=1,2,n策略组合(s1,s2,sn)(4)每个参与人的支付(收益)函数 ui=(s1,si,sn),i=1,2,n2020/12/815一般用 G=S1,S2,Sn;u1,u
12、2,un表示策略式博弈。例 LMRUMD4,35,16,22,18,43,63,09,62,8S1=U,M,D ,S2=L,M,R支付用矩阵表示,称为双矩阵博弈。参参 与与 人人A 参参 与与 人人B2020/12/8162.1.1 上策均衡(严格占优战略均衡)如果在某个博弈中,无论其他博弈方选择什么策略,一个博弈方的某个策略给他带来的支付始 终不低于其他策略,则称该策略为这个博弈方 的一个上策(优势策略Dominant strategy)。如果一个博弈的某个策略组合中所有策略都是各个博弈方自己的上策,则称这样的策略组合为该博弈的一个“上策均衡”。例(囚徒的困境)囚徒囚徒A A坦白不坦白囚徒囚
13、徒B B坦白不坦白5 5,5 50,0,101010,010,01,1,1 12020/12/8172.1.2 严格下策反复消去法(逐步剔除严格劣战略)例 LMRUMD8,35,16,22,18,43,09,62,83,6可以预测该博弈的合理结局为(U,L),即参与人A选择策略U,而参与人B选择策略L。2020/12/8182.2 Nash 均 衡2.2.1 Nash 均 衡 的 定 义 Nash 均衡是指这样的策略组合策略组合(或剖面):为了 极大化自己的收益(或效用),每一个参与人所 采取的策略一定应该是关于其他参与人所采 取的策略的最佳反应.因此没有一个参与人会 轻率地偏离这个策略组合而
14、使自己蒙受损失。2020/12/819 定 义 在有n个参与人的博弈G=S1,S2Sn;u1,u2,un)中,策略组合s*=(s1*,s2*,sn*)是一个Nash均衡,如果对于每一个i,si*是给定其他参与人的选择:S-i*=(s1*,si-1*,si+1*,sn*)的情况下,第i个人的最优策略,即 ui(si*,s-i*)ui(si,s-i*),对所有的i或者用另一种表示方式,si*是下述最大化问题的解:si*arg ui(s1*,si-1*,si,si+1*,sn*),i=1,2,n因此,当且仅当没有一个参与人能从单方面背离某个策略组合的预见中增加自己的得益时,这个策略组合就是Nash均
15、衡。Si*Si2020/12/820Nash 均衡的哲学含义:设想n个参与人在博弈前规定每一个参与人选择一个特定的策略。s*=(si*,s-i*)代表这个协议,要问在没有外力 强制的情况下,是否有参与人有积极性 不遵守该协议?如没有,则说明该协议是可以 自动实施的。能够自动实施的协议就可以看作 一个Nash 均衡。例 求下列博弈的Nash 均衡:CRLUMN0,44,05,34,00,45,33,53,56,6得Nash均衡为:(D,R).用划线法划线法可求2020/12/821Nash均衡有强弱之分.上述定义中给出的是弱Nash均衡,一个Nash均衡是强的,如果给定其他参与人的策略,每一个参
16、与人的选择是唯一的。即,s*是一个强Nash均衡,当且仅当对每一个i,sisi*总有:ui(si*,s-i*)ui(si,s-i*)。如果一个Nash均衡是强的,则没有任何参与人在均衡策 略和其他策略之间是无差异的。(弱Nash均 衡不是)如在以下博弈中:C1C2C3R1R2R32,121,101,120,120,100,110,120,120,13(R1,C1)和和(R1,C3)都是都是Nash均衡均衡,但没有但没有一个强一个强Nash均衡。均衡。2020/12/822本质上说,Nash 均 衡的概念对社会计划者和理 论家施加了一个约束,使他们不能建议或者 预测一种非均衡行为。博弈论可预测到
17、,在均衡集较小的局势中,文 化规范的重要性也小。2.2.2 Nash 均衡的一致性预测性质Nash 均衡是参与人将如何博弈的“一致性”(consistent)预测:如果所有参与人预测 到一个特定的Nash 均衡将出现,那么,没有人 有兴趣作不同的选择。也只有Nash 均衡具有这样的特征:参与人预测到均衡,参与人预测到其他参与人预到均衡 等 等。2020/12/823 对比之下,预测一个非Nash 均衡的策略组合 意味着至少有一个参与人会犯错误,尽管这 样的错误确有可能出现。说Nash 是一致性预测并不意味着Nash 均衡一 定是一个好的预测,但只有Nash 均衡才有:“一 致 性”预测的性质。
18、重要结论:一种制度安排要发生效力必须是一 种Nash均衡(Nash执行的,Nash Implementation),否则,这种制度便不能“稳定”。2020/12/8242.2.3Nash均衡与严格下策消去法命题2.1在博弈G=S1,S2,Sn;u1,u2,un中,如果严格下策反复消去法排除了除(s1*,s2*sn*)之外的所有策略组合,那么(s1*,s2*,sn*)一定是该博弈唯一的Nash均衡。命题2.2 在博弈G=S1,S2,Sn;u1,u2,un中,如果(s1*,s2*,sn*)是G的一个Nash均衡,那么严格下策消去法一定不会将它消去。检验纳什均衡(囚徒困境,智猪游戏)检验纳什均衡(囚
19、徒困境,智猪游戏)2020/12/825性别战博弈性别战博弈克瑞丝克瑞丝歌剧拳击帕特帕特歌剧拳击2,10,00,01,22020/12/826思考题:思考题:为何几乎所有的卡特尔都会遭到失败?为何几乎所有的卡特尔都会遭到失败?2020/12/827几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡,没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?理论上,如果个纳什均衡,没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?理论上,如果是无限期的合作,双方考虑长远利益
20、,他们的合作是会成功的。但只要是有限次的合作,合是无限期的合作,双方考虑长远利益,他们的合作是会成功的。但只要是有限次的合作,合作就不会成功。比如合作次,那么在第九次博弈参与人就会采取不合作态度。作就不会成功。比如合作次,那么在第九次博弈参与人就会采取不合作态度。2020/12/8282.3 2.3 无限策略博弈分析和反应函数无限策略博弈分析和反应函数2.3.1 Gournot(库诺特)双寡头竞争模型(Nash 均衡最早的 版本,1838 年)2020/12/829设有两个参与人,分别称为企业1和企业2,每个企业的策略是选择产量,得益是利润,它是两个企业产量的函数。我们用qi0,)表示第i个企
21、业的产量,总供给量为Q=q1+q2,Ci(qi)cqi表示成本函数,P=P(q1+q2)=a-(q1+q2)表示逆需求函数(售价)。第i个企业的利润函数为:ui(q1+q2)=qiP(q1+q2)Ci(qi),i=1,2即u1(q1+q2)=q1P(q1+q2)Cq1 u2(q1+q2)=q2P(q1+q2)Cq22020/12/830(q1*,q2*)是Nash均衡产量意味着:q1*argmax u1(q1,q2*)=q1P(q1+q2*)C1(q1)q2*argmax u2(q1*,q2)=q2P(q1*+q2)C2(q2)找出Nash均衡的一个办法是对每个企业的利润 函数求一阶导数并令其
22、为零:2020/12/831u1/q1=P(q1+q2)+q1P(q1+q2)C1(q1)=0u2/q2=P(q1+q2)+q2P(q1+q2)C2(q2)=0上述两个一阶条件分别定义了两个反应函数:q1*=R1(q2)q2*=R2(q1)反应函数意味着每个企业的最优策略(产量)是另一个企业产量的函数,两个函数的交点就是Nash均衡 q*=(q1*,q2*)(如下图)2020/12/832Cournot模型q1q2R1(q2)R2(q1)NEOq1*q2*2020/12/8332.4 混 合 策 略 和 混 合 策 略Nash 均 衡2.4.1 严格竞争博弈和混合策略的引进 一、严格竞争博弈正
23、面正面反面反面正面正面反面反面盖币方盖币方猜币方猜币方-1,11,-11,-1-1,1这个博弈实 际上是一个零和博弈,一方所得即另一方所失,该博弈没有纯策略的Nash均衡。例12020/12/834例2 社会福利博弈寻找工作寻找工作 游荡游荡救济救济不救济不救济3,23,2-1,3-1,3-1,1 0,0-1,1 0,0政府政府流浪汉流浪汉 这个博弈也不存在纯策略的Nash均衡,给定政府救济,流浪汉的最佳 策 略是游荡,给定流浪汉游荡,政府的最佳策略是不救济上述博弈的显著特征是:每一个参与人都想猜透对方的策略,而每个参与人又都不想让对方猜透自己的策略,所以此类博弈中都不存在(纯策略)Nash均
24、衡。2020/12/835对猜硬币博弈来说,设出正面的概率友p,则出反面的概率为1p,如果p1/2,且猜币方全猜正面,他的期望得益为:p1+(1p)(1)=2p10即从平均来讲,这时猜币方一定是赢多输少;而如果 p1/2,猜币方也可通过全猜反面而占优。只有p=1/2,对方无法占便宜,从而双方各选1/2作为正反面的概率也就成了一种“均 衡”。二、混合策略和混合策略Nash均衡 定 义 在博弈GS1,S2,Sn;u1,u2,un中参与 人的策略空间为Si=si1,si2,sik,则参与人i以概率分布i=(i1,ik)随机地在其k个可选策略中选择的“策略”称为个混合策略。2020/12/836其中0
25、ij1,且ij=1纯策略可以理解为混合策略的特例,如纯策略si1可以看作是混合策略i=(1,0,0)。我们用i表示参与人i的混合策略空间:ii用=(1,2,n)表示n个博弈方的混合策略 组合。用i表示混合策略组合空间:在纯策略情形下,ui=ui(s)=ui(u1,ui,un)对任何一个给定的纯策略组合:s=(s1,s2,sn),ui取确定值。与混合策略相伴的是得益(支付)的不确定性。这时:2020/12/837ui()=ui(1,i,n)ui(i,i)表示参与人i的期望效用,它可定义为ui(i,-i)=(j(sj)ui(s)s Sj=1n其中j(sj)是混合策略j赋予纯策略sj的概率。以两人博
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈论 教程 ppt 课件
限制150内