书签分享收藏举报版权申诉 / 42

立即下载

当前位置：首页 > 应用文书 > 工作计划 > 博弈论学习的个人总结.doc

博弈论学习的个人总结.doc

上传人：Wo****Z

文档编号：30481175

上传时间：2022-08-06

格式：DOC

页数：42

大小：46.50KB

( 4.5 )

《博弈论学习的个人总结.doc》由会员分享，可在线阅读，更多相关《博弈论学习的个人总结.doc（42页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、博弈论学习的个人总结学习博弈论心得体会学习博弈论心得体会-参加20_年医院经营管理研讨会有感金秋九月丰收时节我院与市妇幼保健院联合举办了20_年医院经营管理研讨会邀请到北京大学与北京朝阳医院两位专家就博弈论与非财务人员的财务管理两方面进行了深入浅出、生动的演讲使我受益匪浅。现在就学习后的心得体会进行汇报一下。博弈论本来就是科学的理论和行为的艺术。它不应该是沉闷的而应该是生动的；它不应该只是乏味公式而应该拥有丰富的情感；它不应该只局限于竞争更应着眼于通过竞争展开合作。博弈论不应该被理解为阴谋诡计不应该被理解为小聪明不应该被理解为厚黑学不应该被理解为你死我活的权谋术。博弈论应该是展开有效竞争与合作

2、的理论应该是大智慧应该是个人理性融入社会的艺术。对于那些试图探求真实世界现象之因缘的人们来说博弈论也是理解高度互动的人类社会的一种思想方法和分析工具。如果只想着把博弈论用于人际斗争那只是博弈之术；只有理性地融入社会才是博弈之道。“术”的博弈只是嵌入在“道”的博弈中的一个小博弈关注于“术”而忘却于“道”无异于只见树木、不见森林或可一时得利却可能对个人的长期利益和更大的成功产生至为糟糕的影响。正如两位作者在本书中屡屡提到：人生中总是存在更大的博弈因此个人的决策不应该只着眼于一个小博弈的胜负。能够看到多大、多远的博弈取决于个人的胸襟和眼光。从某种意义而言他们所谓的小博弈与更大的博弈之分正是博弈的“术

3、”与“道”之分。在因为博弈论的贡献而获得诺贝尔经济学奖的经济学家当中就论述风格而言1994年获奖的约翰纳什（JohnForbesNash,Jr.）和20_年获奖的托马斯谢林（ThomasC.Schelling）可以说是这个绚丽光谱的两个端点。纳什“惜墨如金”他的论述全部见于匿名审稿论文数量不多每篇的篇幅都很短完全是数学形式的讨论。相反谢林则以出版学术著作著称而且这些著作多半都以老百姓能够字面理解的日常语言写出来与时下经济学主流的论述风格大相径庭。纳什天才地提出并刻画了博弈的均衡的概念并且在很宽泛的条件下证明了博弈的均衡的存在性为博弈论的发展奠定了基础。谢林的著述不但提供了许多深刻的思想（哪怕这

4、些思想未能刻画为数学形式的经济学模型）而且为博弈论的应用开拓了广阔的天地。我们这个世界在20世纪经历了可怕的核竞赛可是幸运地没有发生过核大战。现在许多人把核大战最终没有发生看做过去这个世纪发生的最伟大的事件。曾经几次眼看要发生核大战了最后却还是有惊无险从学理上说这是因为谢林提出的思想武装说服了人们。囚徒困境是博弈论的非零和博弈中具代表性的例子反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质但现实中的价格竞争、环境保护等方面也会频繁出现类似情况。单次发生的囚徒困境和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的

5、不合作行为。这时合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服从而可能导向一个较好的、合作的结果。作为反复接近无限的数量纳什均衡趋向于帕累托最优。囚徒困境的主旨为囚徒们虽然彼此合作坚不吐实可为全体带来最佳利益（无罪开释）但在资讯不明的情况下因为出卖同伙可为自己带来利益（缩短刑期）也因为同伙把自己招出来可为他带来利益因此彼此出卖虽违反最佳共同利益反而是自己最大利益所在。但实际上执法机构不可能设立如此情境来诱使所有囚徒招供因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等）而无法完全以执法者所设立之利益（刑期）作考量。智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策

6、略的启发。在博弈中每一方都要想方设法攻击对方、保护自己最终取得胜利；但同时对方也是一个与你一样理性的人他会这么做吗?这时就需要更高明的智慧。博弈其实是一种斗智的竞争。作为一门科学博弈论就是研究不同主体之间相互影响行为的一种学问。或者准确地说博弈论是研究决策主体行为发生直接相互作用时的决策以及这种决策的均衡问题的学问因此也有人把它称为“对策论”。对于医院管理者来说如何理解博弈论如何运用博弈论原理指导医院有效管理这是值得思考的事情。博弈论都是医院管理者十分有效的决策工具或者至少是比较科学的决策思路。斗鸡博弈(ChickenGame)其实是一种误译。Chicken在美国口语中是“懦夫”之意Chick

7、enGame本应译成懦夫博弈。不过这个错误并不算太严重非要把chickengame叫作斗鸡博弈也不是不可以。两只公鸡狭路相逢即将展开一场撕杀。结果有四种可能：两只公鸡对峙谁也不让谁。或者两者相斗。这两种可能性的结局一样两败俱伤这是谁也不愿意的。另两种可能是一退一进。但退者有损失、丢面子或消耗体力谁退谁进呢？双方都不愿退也知道对方不愿退。在这样的博弈中要想取胜就要在气势上压倒对方至少要显示出破釜沉舟、背水一战的决心来以迫使对方退却。但到最后的关键时刻必有一方要退下来除非真正抱定鱼死网破的决心。但把自己放在对方的位置上考虑如果进的一方给予退的一方以补偿？只要这种补偿与损失相当就会有愿意退者。这类博

8、弈也不胜枚举。如两人反向过同一独木桥一般来说必有一人选择后退。在该种博弈中非理性、非理智的形象塑造往往是一种可选择的策略运用。如那种看上去不把自己的生命当回事的人或者看上去有点醉醺醺、傻乎乎的人往往能逼退独木桥上的另一人。还有夫妻争吵也常常是一个“斗鸡博弈”吵到最后一般地总有一方对于对方的唠叨、责骂装聋作哑或者干脆妻子回娘家去冷却怒火。冷战期间美苏两大军事集团的争斗也是一种“斗鸡博弈”。在企业经营方面在市场容量有限的条件下一家企业投资了某一项目另一家企业便会放弃对该项目的觊觎。斗鸡博弈强调的是如何在博弈中采用妥协的方式取得利益。如果双方都换位思考它们可以就补偿进行谈判最后造成以补偿换退让的协议

9、问题就解决了。博弈中经常有妥协双方能换位思考就可以较容易地达成协议。考虑自己得到多少补偿才愿意退并用自己的想法来理解对方。只从自己立场出发考虑问题不愿退又不想给对方一定的补偿僵局就难以打破。博弈论知识点总结博弈论知识总结博弈论知识总结知识博弈论概述：博弈论概述1、博弈论概念：、博弈论概念：博弈论：就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。博弈论研究的假设：1、决策主体是理性的最大化自己的收益。2、完全理性是共同知识3、每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念与预期和博弈有关的变量：2、和博弈有关的变量：博弈参与人：博弈中选择行动以最大化自己

10、受益的决策主体。行动：参与人的决策选择战略：参与人的行动规则即事件与决策主体行动之间的映射也是参与人行动的规则。信息：参与人在博弈中的知识尤其是其他决策主体的战略、收益、（不完全信息）类型等的信息。完全信息：每个参与人对其他参与人的支付函数有准确的了解；完美信息：在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动否则为不完美信息。不完全信息：参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息即存在着有关其他参与人的不确定性因素。支付：决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。从经济学的角度讲博弈是决策主体之间的相互作用因此和传统个人决策存

11、在着区别：3、博弈论与传统决策的区别：、博弈论与传统决策的区别：1、传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下最大化自己效用研究工具是无差异曲线。可表示为：maxU(P,I)其中P为市场价格I为消费者可支配收入。2、其他消费者对个人的综合影响表示为一个参数市场价格所以在市场价格既定下消费者效用只依赖于自己的收入和偏好不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。4、博弈的表示形式表示形式：战略式博弈和扩展式博弈、博弈的表示形式战略式博弈：是博弈问题的一种规范性描述有时亦称标准式博弈。战略式博弈战略式博弈是一种假设每个参与人仅选择一次行

12、动或战略并且参与人同时进行选择的决策模型因此从本质上来讲战略式博弈是一种静态模型一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。1、参与人集合=1,2,.,n：2、每位参与人非空的战略集Sin3、每位参与人定义在战略组合si=(s1,.,si,.,sn)上的效用函数Ui(s1,s2,sn).i=1扩展式博弈：是博弈问题的一种规范性描述。扩展式博弈与战略式博弈侧重博弈结果的描述相比扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。包含要素：1、参与人集合=1,2,.,n2、参与人的行动顺序即每个参与人在何时行动；3、序列结构：每个参与人行动时面临的决策问题包括参与人行动时

13、可供选择的行动方案、所了解的信息；4、参与人的支付函数。比较：比较1、战略式博弈从本质上来讲是一种静态模型。2、扩展式博弈从本质上来讲是一种动态模型。5、博弈论分类：、博弈论分类：按决策主体的行为相互作用时当事人能否达成一个具有约束力的协议可分为：1、合作博弈（强调团体理性、团体最优决策、效率）2、非合作博弈（强调个人理性个人最优决策）按参与人行动先后顺序可分为：1、静态博弈：博弈中参与人同时行动或者虽然不是同时行动但是在行动前不知道其他参与人所选择的行动。2、动态博弈：参与人的行动有先后顺序后行动者获得先行动者的行动信息。按参与人对信息的掌握程度可分为：1、完全信息：每个参与人对其他所有参与

14、人的特征、战略空间及支付函数有精确的了解博弈开始时不存在不确定性因素。2、不完全信息：参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息即存在着有关其他参与人的不确定性因素。按决策主体对信息的掌握程度和行动的先后顺序博弈可以分为：完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。静态完全信息完全信息静态博弈均衡：纳什均衡不完全信息静态博弈均衡：贝叶斯纳什均衡动态完全信息动态博弈均衡：子博弈精炼纳什均衡不完全信息动态博弈均衡：精炼贝叶斯纳什均衡不完全信息6、根据所学这四种博弈的特点对这四种博弈做一个对比分析：、根据所学这四种博弈的特点对这四种博弈做一个对比分析

15、：类型完全信息静态博弈信息和行动特点均衡均衡类型纯战略纳什均衡(PNE)特别均衡占优战略纳什均衡（DSE）重复剔除的占有均衡(IFDE)求解方法箭头法划线法学过的例子Hotelling价格竞争库诺特价格竞争一般一个博弈中存在参与者有多个行动时可以先考虑能否剔除弱战略简化博弈社会福利博弈小偷守卫博弈性质多重性和存在性每个参与人对其纳什均他所有参与人的衡特征、战略空间及支付函数有精确的了解博弈开始时不存在不确定性因素参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。战略和行动相同。不断剔除劣战略（弱劣战略的剔除顺序会影响均衡结果支付最大化法支付等值法混合战略纳什均衡(MNE)聚点均

16、衡完全信息动态博弈在博弈开始之前子博弈参与人之间的信精炼纳息不存在不确定什均衡性但是参与人行动存在先后顺序。在完全信息动态博弈中为了表示参与人之间的信息掌握关系引入了信息及的概念。子博弈精炼纳什均衡有限次重复博弈均衡与纳什均衡的唯一性有关与贴现因子有关连锁店悖论无限次重复博弈均衡（无名氏定理）囚徒困境（冷酷战略）无限期轮流讨价还价模型一般博弈逆向归纳法求解斯坦科尔伯格寡头竞争雇主与公会之间的竞争1、均衡结果是原博弈的Nash均衡；2、同时在每一个子博弈上构成Nash均衡不完全信息静态博弈在博弈开始之前贝叶斯参与人之间的信纳什均息存在不确定性衡但是参与人同时行动或者不是同时行动但是后行动者不知道

17、行动者的行动信息。不确定是参与人的了性的不确定性贝叶斯纳什均衡混合战略（不完全信息情况下纯战略均衡的极限）对原混合战性别战略加入少许不确定性因素求极限。1、均衡存在性2、不确定性体现为类型的不确定性一般贝叶斯均衡Harsanyi转换机制设计不完全信息动态博弈在博弈开始前参与人之间的信息存在不确定性同时参与人行动存在先后顺序。不完全信息动态博弈过程不仅是参与人选择行动的过程而且是参与人不断修正信念的过程。精炼贝叶斯纳什均衡信号传递博弈分离均衡混同均衡根据所得信息修正判断概率根据收益最大化决策信号传递博弈不完全信息重复博弈与声誉Milgrom-Roberts垄断限价模型准分离均衡不完全信息动态博弈

18、子博弈精炼纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡的结合。二、四种博弈类型具体分述1、完全信息静态博弈、1.1完全信息静态博弈特点完全信息静态博弈特点特点：每个参与人对其他所有参与人的特征、战略空间及支付函数有精确的了解博弈开始时不存在不确定性因素参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。战略和行动相同。完全信静态博弈相关概念：1.2完全信静态博弈相关概念：以新产品开发博弈举例说明：参与人：参与人1和2。参与人参与人的集合卡表示为：=1,2n.表示所有参与人的集合在新产品开发博弈中为：=1,2行动：开发、不开发。行动Ai表示参与人行动的集合。新产品开发博弈中参与人的

19、行动集合为A1=A2=a,b,其中a为开发b为不开发。a=a1,a2an表示参与人的行动组合。新产品开发博弈中为：A=（a,a）,(a,b),(b,a),(b,b)战略：参与人的行动规则。战略在博弈中的战略可以定义为从观测集到行动集的映射关系即：Si:_iAi。用Si=si表示参与人所有战略的集合。在n人博弈中用S=(s1,s2,s3,sn)表示n个参与人的战略组合它表示博弈中每个参与人采取战略si的一种博弈情形。在完全信息静态博弈中由于不存在决策时序上的差异所有参与人在同一决策时点即博弈开始的那一时刻决策因此所有参与人面临的决策情形都只有一种所以参与人的战略集与行动集相同。支付：一般情况下也

20、是用效用函数来表示参与人在博弈中支付是指参与人在博弈中的所得。的所得。因此参与人的支付就可表示为一种特定博弈情形下参与人得到的确定效用水平或期望效用水平。支付一般用ui(1,2,n)表示参与人i的支付(效用水平)支付组合u=(u1,u2,un)表示参与人在特定博弈情形下所得到的支付其中为参与人i的支付。因此参与人i=(i=1,2,n)的支付就可表示为：ui=ui(si,s-i).信息：是参与人所具有的有关博弈的所有知识如有关其它参与人行动或战略的知识、信息有关参与人支付的知识等等。在“新产品开发博弈”中如果两个企业都知道市场需求那么这样的博弈情形就是我们前面所提到的完全信息假设；如果两个企业中

21、至少有一个不知道市场需求那么这样的博弈情形就是我们前面所提到的不完全信息假设。1.3纯战略纳什均衡纯战略纳什均衡纯战略：参与人在给定信息下只选择一种特定（或确定性）的战略纯战略混合战略：混合战略解释了一个参与人对其他参与人所采取的行动的不确定性它描述了参与人在给定信息下以某种概率分布随机地选择不同的行动或战略。纯战略纳什均衡中包括：占有均衡、重复剔除劣战略均衡、一般纯战略纳什均衡等。1、占优均衡、占优均衡占优战略：参与人的最优战略si_与其他参与人的选择s-i无关。无论其他参与人选择什么战略参与人的最优战略总是唯一的这样的最优战略称之为“占优战略”。在n人博弈中如果对于所有的其他参与人的选择s

22、-isi_都是参与人i的最优选择ui(si_,s?i)ui(si,s?i)则称si_为参与人的占优战略。在n人博弈中如果对所有参与人都存在占优战略si_则占优战略组合si_=（s1_si2_,sn_）称为占优战略均衡。如果所有参与人都有占优战略存在那么占优战略均衡就是唯一的所有理性参与人可以预测到的博弈结果。2、重复剔除劣战略、如果在一个博弈中参与人不存在占优战略但是参与人i存在两个战略其中一ui(si,s?i)ui(si,s?i)个战略叫另一个战略的所得效用要大则理性的参与人绝对不会选择战略。ui(si,si)ui(si,si)严格劣战略：严格劣战略u(si,si)ui(si,si)弱劣战略

23、：弱劣战略若重复剔除过程一直可持续到只剩下唯一的战略组合则该战略组合即为重复剔除的占优均衡此时该博弈是重复剔除战略可解。要点：再重复剔除过程中如果每次剔除的是严格劣战略均衡结果与剔除顺序无关；如果剔除的是弱劣战略均衡结果可能与剔除顺序有关。3、一般Nash均衡、Nash均衡是完全信息静态博弈的解的概念在完全信息静态博弈中构成Nash均衡的战略是不可剔除的即不存在任何一个战略严格优于Nash均衡战略。求解纳什均衡的方法划线法、箭头法。划线法：划线法1、考察参与人1的最优战略2、用上述方法找出参与人2的最优战略3、找出最优战略组合箭头法：箭头法：1、对于每个战略组合检查是否有参与人会偏离这个战略组

24、合2、直至找出没有参与人会偏离的战略组合纯战略均衡反映函数：各博弈方选择的纯策略对其他博弈方纯策略的反应。纯战略均衡反映函数1.4混合战略纳什均衡混合战略：混合战略：1k在博弈G=;S1,.,Sn;u1,.,un中对任一参与人i设Si=Si,Si,则参与人i的一个混合战略为定义在战略集Si上的一个概率分布i=i1,ik,其中ijjj（j=1,k）表示参与人i选择战略表示参与人i选择战略Si的概率的概率即ij满足0i1其中概率之和为1。支付：混合战略的支付为各种概率下收益的加权平均。混合战略纳什均衡：在博弈G=;S1,.,Sn;u1,.,un中混合战略组合i=1_,n_为一个Nash_均衡。当且

25、仅当i,ii,有vi(i,i)vi(i,i)。混合战略Nash均衡的求解：1.支付最大化法；2.支付等值法；混合战略均衡反映函数：在混合策略的范畴内博弈方的决策是选择概率分布因此反应函数就是一方对另一方选择的概率分布的反应。聚点均衡：在现实生活中参与人可能使用某些被博弈模型抽象掉的信息来达到一个“聚点”均衡。这些信息可能与社会文化习惯、参与人过去博弈的历史有关。不同均衡概念之间的关系：占优均衡<重复剔除劣战略均衡<纯战略纳什均衡<混合战略纳什均衡1.5纳什均衡的多重性与存在性存在性：每个有限战略式博弈（参与人与相应的战略集均为有限）必存在纳什均衡这个均衡可能是纯战略纳什均衡也

26、可能是混合战略纳什均衡。多重性：一个博弈可能有多个均衡博弈论并没有一个一般的理论证明哪一个纳什均衡结果一定能出现。2、完全信息动态博弈完全信息完全信息动态博弈特点特点：2.1完全信息动态博弈特点：在博弈开始之前参与人之间的信息不存在不确定性但是参与人行动存在先后顺序。在完全信息动态博弈中为了表示参与人之间的信息掌握关系引入了信息及的概念。完全信息动态博弈有关概念：2.2完全信息动态博弈有关概念：信息集：信息集Ii是参与人i决策结的一个集合它满足以下两个条件：信息集1、Ii中的每个决策结都是参与人i的决策结；2、当博弈到达Ii时参与人i知道自己处在该信息集中的某个决策结但不知道是哪一个。在博弈树

27、中属于同一信息集的决策结一般用虚线连接起来。结：包括决策结和终点结两类。决策结是参与人采取行动的点时点终点结是博弈行动路径的终点。一个信息集可能只包含一个决策结也可能包含多个决策结。如果只包含一个决策结的信息集就是但单结信息集。如果博弈中所有信息集都是单结的则成为完美信息博弈。子博弈：是原博弈的一部分它始于原博弈中一个单结信息集中的决策结x并由决策结子博弈x及其后续结共同组成。1、子博弈可以作为一个独立的博弈进行分析并且与原博弈具有相同的信息结构；2、原博弈可以作为自身的一个子博弈；不完全信息静态博弈均衡子博弈精炼均衡：2.3不完全信息静态博弈均衡子博弈精炼Nash均衡：解决Nash均衡多重性

28、问题的一种主要方法就是精炼的方法即在Nash均衡的基础上通过定义更加合理的博弈解并剔除不合理的均衡。子博弈精炼纳什均衡的引入就是将那些包含不可置信威胁战略的纳什均衡从均衡中剔除从而给出动态博弈结果的一个合理预测。即子博弈精炼纳什均衡要求均衡战略的行为规则在每个信息集上都是最优的。_扩展式博弈的战略组合s_=(s1,.,sn)是一个子博弈精炼Nash均衡当且仅当满足以下条件：1、是原博弈的Nash均衡2、在每一个子博弈上构成Nash均衡一个战略组合是子博弈精炼Nash均衡当且仅当它对所有的子博弈(包括原博弈)构成Nash均衡同时也意味着原博弈的Nash均衡并不一定是子博弈精炼Nash均衡除非它还

29、对所有子博弈构成Nash均衡。不完全信息静态博弈均衡求解逆推归纳法2.4不完全信息静态博弈均衡求解逆推归纳法逆推归纳法是最常用的求解子博弈精炼Nash均衡的方法其步骤为：其中(xi)代表博弈中由最底层到博弈起点的顺序以(x3)为最底层则有：1、找出博弈的所有子博弈；2、按照博弈进程的“反方向”逐一求解各个子博弈即最先求解最底层的子博弈再求解上一层的子博弈.直至原博弈。由于逆推归纳法对各个子博弈逐一进行求解因此逆推归纳法所得到的解在各子博弈上构成Nash均衡,即意味着逆推归纳法所得的解为子博弈精炼纳什均衡完全信息动态博弈中承诺行动的均衡结果分析：2.5完全信息动态博弈中承诺行动的均衡结果分析：承

30、诺行动：就是在博弈开始之前参与人采取某种改变自己支付或战略空间的行动该行动使原本不可信的威胁变得可信。但是参与人的承诺行动是有成本的否则这种承诺就不可信。例子:要挟诉讼例子要挟诉讼就是指那种原告几乎不可能胜诉而其惟一的目的是希望通过私了而得到一笔赔偿的诉讼。该博弈的结果为原告选择不指控博弈结束。博弈的结果似乎与人们观测到的现实并不相符因为现实中人们常常看到各种“要挟”发生。在上述模型中“要挟”之所以没有成功关键在于原告将会起诉的威胁并不可信。要是威胁变得可信就必须采取承诺行动（沉没成本）。这样参与人的威胁就会变得可信从而使其他博弈参与人改变策略。重复博弈议题：2.6重复博弈议题：1、将来可信的

31、威胁或承诺如何影响到当前的行动2、在一次博弈中无法实现的均衡在重复博弈中能否实现有限次重复博弈：令有限次重复博弈对于给定的阶段博弈GG(T)表示G重复进行T次的有限重复博弈并且在下一次博弈开始前所有以前博弈的进程都可被观测到。有限次重复博弈均衡结论：有限次重复博弈均衡结论如果阶段博弈G有唯一的Nash均衡则对任意有限的T重复博弈G(T)有唯一的子博弈精炼解即G的Nash均衡结果在每一个阶段重复进行。而且在有限次重复博弈中如果在单阶段博弈中均衡解不只有一个则对将来行动所作的可信威胁或承诺可以影响到当前的行动。限次重复博弈：无限次重复博弈：给定一阶段博弈G令G(,)表示相应的无限重复博弈其中G将无

32、限次的重复进行且参与人的贴现率为。对每个t之前t-1次阶段博弈的结果在t阶段开始进行前都可以被观测到每个参与人在G(,)中的收益都是该参与人在无限次的阶段博弈中所得收益的现值。无限次重复博弈的解无名氏定理次重复博弈的解无名氏定理：无限次重复博弈的解无名氏定理：令G为一个n人阶段博弈令（e1,e2,en）为G的一个Nash均衡下的收益且用(x1,x2,xn)表示G的其它任何可行收益表示可行收益的集合。若存在xiei,对?i,xi_则存在贴现率使无限重复博弈G(,)存在一个子博弈精炼Nash均衡其平均收益可达到(x1,x2,xn)。无名氏定理的解释：在无限次重复博弈中如果参与人具有足够的耐心（只要

33、满足无名氏定理的解释一定的条件）那么任何满足个人理性的可行收益向量都可以通过一个特定的子博弈精炼Nash均衡得到。影响重复博弈结果的因素：影响重复博弈结果的是重复的次数和信息的完备性。影响重复博弈结果的因素均衡的区别：2.7子博弈精炼Nash均衡与Nash均衡的区别：由于子博弈精炼Nash均衡在任一决策结上都能给出最优决策这也使得子博弈精炼纳什均衡不仅在均衡路径(即均衡战略组合所对应的路径)上给出参与人的最优选择而且在非均衡路径(即除均衡路径以外的其它路径)上也能给出参与人的最优选择。即子博弈精炼Nash均衡不会含有参与人在博弈进程中不合理的、不可置信的行动。3、不完全信息静态博弈不完全信息静

34、态博弈特点特点：31不完全信息静态博弈特点：在博弈开始之前参与人之间的信息存在不确定性但是参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。在不完全信息静态博弈中在博弈开始前存在关于博弈人信息的不确定性这个不确定像通常是博弈参与人的类型。在市场进入博弈中不完全信息表现为：在位者的成本类型（高成本、低成本）在斗鸡博弈中不完全信息表现为：参与人的性格类型（强硬软弱）3.2海萨尼转换由于在不完全信息静态博弈中参与人的类型存在不确定性所以当一个参与人并不知道在与谁博弈时博弈的规则是无法定义的海萨尼提出了海萨尼转换解决这种不确定的问题。解决方法：解决方法海萨尼指出引入虚拟参与人自然由自然

35、先决定参与人的不同类型将不完全信息博弈转换为不完美信息博弈。海萨尼通过引入“虚拟”参与人将博弈的起始点提前从而将原博弈中参与人的事前不确定性转变为博弈开始后的不确定性。这种通过引入“虚拟”参与人来处理不完全信息博弈问题的方法称为Harsanyi转换。海萨尼转换注意要点：1、海萨尼转换规定：参与人关于“自然”选择的推断为共同知识。2、“自然”的选择。在一般的不完全信息博弈问题中Harsanyi转换规定“自然”选择的是参与人的类型(type)。除了根据参与人的支付来划分参与人的类型以外还可以根据参与人的行动空间甚至根据参与人掌握信息的多少(或程度)来划分参与人的类型。3、参与人关于“自然”选择的推

36、断是基于自己类型判断的条件概率。不完全信息静态博弈均衡贝叶斯纳什均衡贝叶斯3.3不完全信息静态博弈均衡贝叶斯纳什均衡贝叶斯博弈的定义：贝叶斯博弈的定义：贝叶斯博弈包含以下五个要素：1、参与人集合B=1,2,n2、参与人的类型集合T1,T23、参与人关于其他参与人类型的推断P1(t-1|t1),Pn(t-1n|tn)4、参与人类型相依的行动集A(t1),A(tn)5、参与人类型相依的支付函数贝叶斯博弈的战略：在贝叶斯博弈G=;(Ti)；i）（A（ti）（ui（a（t）i）（P；t贝叶斯博弈的战略中参与人i的一个战略是从参与人的类型集Ti到其行动集的一个函数si(ti)；它包含了当自然赋予i的类型

37、为ti时i将从可行的行动集Ai(ti)中选择的行动。贝叶斯博弈的时间顺序：贝叶斯博弈的时间顺序1、“自然”选择参与人的类型组合t=(t1,tn)2、参与人同时选择行动每个参与人i从行动集Ai(ti)中选择行动ai(ti)3、参与人i得到支付贝叶斯纳什均衡：在贝叶斯博弈中对于一个理性的参与人i当他只知道自己的类型贝叶斯纳什均衡ti而不知道其他参与人的类型时给定其他参与人的战略s-i他将选择使自己期望效_用(支付)最大化的行动ai(ti)其中ai?(ti)argmaxvi(ai,si;ti)aiAi(ti)贝叶斯博弈纳什均衡的存在性:贝叶斯博弈纳什均衡的存在性:一个有限的贝叶斯博弈一定存在贝叶斯N

38、ash均衡。贝叶斯博弈与混合战略均衡（关于混合战略纳什均衡的一个解释）3.4贝叶斯博弈与混合战略均衡（关于混合战略纳什均衡的一个解释）首先混合策略均衡不是现实生活的一个合理描述人们并不是根据概率分布来选择自己行动；海萨尼证明在完全信息情况下的混合策略均衡可以解释为不完全信息情况下纯策略均衡的极限。混合策略的本质：混合策略的本质：混合策略的本质不在于参与人随机的选择行动而在于他不能确定其他参与人将选择什么纯策略这种不确定性可能来自于参与人不知道其他参与人的类型。海萨尼的基本思想：海萨尼的基本思想：只要在原来的博弈中加入少许不完全信息因素使得参与人的支付函数中的收益不再是确定的而是和一个有范围的不

39、确定参数有关从而通过将混合战略均衡求解转换为贝叶斯均衡的极限解但是得到的纯战略贝叶斯均衡就与完全信息下的混合战略均衡相似。结论：完全信息博弈的混合战略Nash均衡可以解释为与之密切相关、存在一点点非结论完全信息的纯战略贝叶斯Nash均衡。同时海萨尼给出了描述混合策略和纯策略之间关系的一个正式的定理：混合策略均衡的纯化定理。机制设计问题3.5贝叶斯均衡Eg：机制设计问题机制设计机制设计问题实际上就是探讨设计者如何向参与人提供激励以促使参与人向设计者透露其掌握的信息（说真话）从而确定对设计者有利的结果的问题。这一机制对应于一个博弈形式设计者需要设计出一个博弈形式让参与人在这个博弈形式下进行博弈从而

40、实现他的目标。博弈形式不同实现目标的程度也不一样设计者必须选择对他来说是最有利的博弈形式即最有利的机制。机制设计的基本模型：机制设计的基本模型：机制设计是典型的3阶段不完全信息博弈期阶段如下：阶段1：机制设计者(委托人)设计一种“机制”或者“契约”或者“激励方案”；阶段2：代理人选择接受或拒绝该机制拒绝的代理人得到某个外生的“保留效用”；阶段3：接受机制的代理人选择自己的行动(或者战略)实现一个博弈结果。机制设计模型中的有关概念：机制设计模型中的有关概念参与约束：由于代理人在第二阶段总可以选择不接受该机制从而获得一个保留效用因此代理人接受这个机制获得的效用必须不小于拒绝这个机制时获得的效用。激

41、励相容约束：这意味着对于代理人而言代理人真实报告自己的类型时获得的效用必须不小于谎报自己类型时获得的效用。可行机制：满足参与约束的机制被称为可行机制。可实施机制：满足激励相容约束的机制称为可实施机制可行的可实施机制：如果一个机制既满足参与约束又满足激励相容约束。机制设计的目的：机制设计的目的：机制设计的目的就是要设计出可行的可实施机制从而在该机制中找出最优规则以追求最大化收益。4、不完全信息动态博弈不完全信息动态博弈特点特点：4.1不完全信息动态博弈特点：在博弈开始之前参与人之间的信息存在不确定性同时参与人行动存在先后顺序。不完全信息动态博弈过程不仅是参与人选择行动的过程而且是参与人不断修正信

42、念的过程。4.2不完全信息动态博弈的有关概念类型:是指参与者的类型。在不完全信息动态博弈中自然首先选择参与人的类型。动态博弈：行动有先有后。所以后行动者可以观察到先行动者的行动信息从而可以修正自己对于参与人的类型的信息的判断。类型相依：参与者的行动传递着有关自己的类型的信息对方可通过参与人的行动来推断自己的最优行动。先行动者预测到自己的行动被后行动者利用就会设法传递对自己最有利的信息。不完全信息动态博弈的纳什均衡精炼贝叶斯均衡4.3不完全信息动态博弈的纳什均衡精炼贝叶斯均衡对应于不完全信息动态博弈的纳什均衡称为精炼贝叶斯均衡；精练贝叶斯均衡是泽尔腾不完全信息动态博弈子博弈精炼纳什均衡与海萨尼不

43、完全信息静态博弈贝叶斯均衡的结合。不完全信息动态博弈均衡求解的基本思路：均衡求解的基本思路1、不完全信息动态博弈均衡求解的基本思路：不完全信息动态博弈将子博弈精炼Nash均衡中“均衡精炼”的思想应用到不完全信息扩展式博弈中但是有提前条件：1、对每个参与人i在其信息集上给出关于自己位于该信息集中哪一个决策结的信念(或推断)。2、对参与人i的每个信息集在给定参与人i在该信息集上的信念(或推断)情况下参与人的战略是对其他参与人战略的一个最优反应。与静态博弈不同的是：在观测到先行动者第一阶段选择后后行动者可以修正对先行动者类型的先验概率因为先行动者的行动可能包含其类型的信息即行动就是类型的反映不同的行

44、动反映不同的类型信息。参与人最初对于对手类型信息概率的判断成为先验概率对于根据行动反映出得信息修正后的概率成为后验概率。先验概率(priorprobability):修正之前的判断；后验概率(posteriorprobability)：修正之后的判断先验概率和后验概率的转化是根据贝叶斯法则计算：在不完全信息动态博弈博弈均衡解的求解过程中如果不可置信的威胁均衡就是不合理的所以要对均衡结果精炼剔除那些不可置信的威胁。从而引入子博弈精练纳什均衡的概念但是在不完全信息动态博弈中只有一个子博弈不能将上述方法直接用于求不完全信息动态博弈的均衡解。合理的均衡应该是满足：给定每一个参与人有关其他参与人类型的后

45、验信念参与人的战略组合在每一个后续博弈上构成贝叶斯均衡我们将通过这种方式得到的纳什均衡称为精炼贝叶斯纳什均衡。精炼贝叶斯均衡是贝叶斯均衡、子博弈精炼纳什均衡和贝叶斯推断的结合精炼贝叶斯均衡要求：1、在每个信息集上决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布（信念）2、每一个参与人根据贝叶斯法则和均衡战略修正后验概率3、给定该信息集上的概率分布和其他参与人的后续战略参与人的行动必须是最优的。精炼贝叶斯纳什均衡：3、精炼贝叶斯纳什均衡：满足条件：1、对于所有的参与人i在每一个信息集h上存在si_(si,i)argmaxsi2、i(isih)是使用贝叶斯法则从先验概率i(-i?i)

46、、pp观测到的a-i和最优战略s-i_(.)得到的。精炼贝叶斯纳什均衡是均衡战略和均衡信念的结合给定信念p=（p1_,pn_）,战略s_=s1_,s2_,sn_）（是最优的,给定战略s_=s1_,s2_,sn_）信念p_=p1_n_）（(,p是使用贝叶斯法则从均衡战略和所观测到的行动得到的。h?i%pi(iaih)ui(si,si,i)4、均衡类型：均衡类型：以信号传递博弈为例：信号博弈顺序：1、“自然”首先选择1的类型参与人1知道自己的类型但参与人2不知道只知道1属于的先验概率p=p()2、1在观测到类型后选择发出信号mM,M=m1,mJ是信号空间3、观测到m(而非)使用贝叶斯法则从先验概率

47、p推断后验概率p=p(m)2然后选择战略s；4、支付函数分别为u1(m,s,),u2(m,s,)。信号传递博弈的均衡是战略组合(m_(),s_(m)和后验概率p=p(m)的结合他满足1、s_(m)极大化p(m)u2(m,s,)2、m_()极大化u1(m,s_(m),)3、是参与人2使用贝叶斯法则从先验概率p=p()、观测到的信号m和参与人1的最优战略m_()得到的。在信号博弈模型中存在3种均衡解分别为：分离均衡（separatingequilibrium）：不同类型的发送者以1的概率选择不同的信号或者说不同类型的人选择的信号互不相同。在分离均衡下信号准确地揭示出类型。混同均衡（poolinge

48、quilibrium）：不同类型的发送者选择相同的信号或者说不同类型的人选择相同的信号因此接收者不修正先验概率。准分离均衡（semi-separatingequilibrium）：一些类型的发送者随机地选择信号另一些类型的发送者选择特定的信号。以上这些是根据最先列出的表格分别对每种类型的博弈进行了分析。我局的博弈论这门课程最有吸引力的地方就是博弈论分析问题的方法。通过信息这个变量从而可以引入各种因素去分析。而且博弈论考虑的是决策主体之间的博弈关系由于现实的生活中这样的博弈无处不在所以博弈论这门课程更多的来说是现实生活中竞争关系的一个缩影版。博弈论的学习使得我自己对于分析问题的角度和思路都有了拓展而且分析问题有了框架和依据确实让我受益匪浅。博弈论学习感言安全工程专题课程学后感想学习博弈论有感通过安全工程专题上对老师

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

12 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 博弈论学习个人总结

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：博弈论学习的个人总结.doc
链接地址：https://www.taowenge.com/p-30481175.html