博弈论教学课件二 混合策略纳什均衡、均衡的存在性与多重性.pptx
《博弈论教学课件二 混合策略纳什均衡、均衡的存在性与多重性.pptx》由会员分享,可在线阅读,更多相关《博弈论教学课件二 混合策略纳什均衡、均衡的存在性与多重性.pptx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、混合策略纳什均衡及多重均衡的选择故事1、【吕氏春秋:宋康王是战国时期的一位暴君。这位宋康王打仗很有一套,“东伐齐,取五城,南败楚,拓地二百余里,西败魏军,取二城,灭腾,有其地”,为宋国赢得了“五千乘之劲宋”的美誉。虽然他打仗厉害,但是连年征战惹得民怨沸腾,朝野上下一片骂声。于是他整天喝酒,变得异常暴虐。有些大臣看不过去,就前去劝谏。宋康王不但不听,还将劝谏大臣们找理由撤职或关押起来,这使得臣子们对他更加反感,经常在私下非议他。有一天,他问大臣唐鞅:“我杀了那么多人,为什么臣下更不怕我了呢?”唐鞅回答说:“您所治罪的,都是一些有罪的人。惩罚他们是理所当然,没有犯法的人根本不会害怕。您要是不区分好
2、人坏人,也不管他犯法没有犯法,随便抓住就治罪,如此一来,又有哪个大臣会不害怕呢?”宋康王虽然暴虐,却是个聪明人,他听从了唐鞅的建议,随意地想杀谁就杀谁,后来连唐鞅也身首异处。大臣们果然非常害怕,没有人再敢随便说话了。】宋康王无罪大臣宋康王原先采用的是“无罪不惩罚”策略,这时大臣都会非议他;当宋康非议不非议王开始选择“无罪也惩罚”时,大臣的最优策略就是不非议了;但是宋康无罪不惩罚-2,0 0,-1 王此时却有激励偏向无罪不惩罚,因无罪惩罚0,-2-2,-1 2、【神雕侠侣:英雄大宴中杨过与霍都王子比武的情形:忽然杨过铁剑一摆,叫道:“叫道!我要放暗器了!”霍都曾用扇中毒钉伤了朱子柳,听他如此说,
3、只道他的铁剑如自己的折扇一般,也是藏有暗器,无怪他不用利剑而用锈剑,自己既能以此手段行险取胜,想来对方亦能学样,见杨过铁剑对准自己面门而来,急忙向左跃开,却见杨过左手剑诀引着铁剑刺到,哪有什么暗器?霍都知道上了当,骂了声:“小畜生!”杨过问道:“小畜生骂谁?”霍都不再回答,催动掌力。杨过左手一提,叫道:“暗器来了!”霍都忙向右避,对方一剑恰好从右边疾刺而至,急忙缩身摆腰,剑锋从右肋旁掠过,相距不过存许,这一剑凶险之极,疾刺不中,群雄都叫:“可惜!”蒙古众武士却暗呼:“惭愧!”霍都虽然死里逃生,却吓得背生冷汗,但见杨过左手又是一提,叫道:“暗器!”便再也不去理他,自行挥掌迎击,果然对方又是行诈。
4、杨过一剑刺空,纵前扑出,左手第四次提起,大叫:“暗器!”霍都骂道:“小。”第二个字尚未出口,蓦地眼前金光闪动,这一下相距既近,又是在对方数次行诈之后毫没防备,急忙踊身跃起,只觉腿上微微刺痛,已中了几枚极细微的暗器。】杨过为什么会赢?如何用博弈论来进行分析?且让我们学习后面的理论知识,再回来分解。为惩罚总是要付出成本混合策略纳什均衡上一讲里,我们将纳什均衡定义为一组满足所有参与人效用最大化要求的策略组合,即:ii据这一定义,有些博弈不存在纳什均衡。举例:社会福利博弈政府与流浪汉之间的博弈。流浪汉有两个策略:寻找工作或者游荡;政府也有两个策略:救济或不救济。政府想帮助流浪汉,但是前提是后者必须试图
5、寻找工作,否则就不给予帮助;流浪汉只有在得不到政府救济时才会寻找工作。流浪汉寻找工作游荡政府救济3,2-1,3 不救济-1,1 0,0 举例:猜谜游戏故事:两个小孩手里各拿着一枚硬币,决定是要显示正面向上还是反面向上。如果两枚硬币同时正面向上或向下,儿童 A 付给儿童 B 一块钱;如果两枚硬币只有一枚正面向上,儿童 B 付给 A 一块钱。儿童 B 正面反面儿童 A 正面-1,1 1,-1 反面1,-1-1,1 上述两个博弈的显著特征:每个人都想猜透对方的策略,而每一个参与人又都不能让对方猜透自己的策略。同学们请举出生活中的例子 尽管上两个博弈不存在第一讲中所定义的纳什均衡,却存在下面要定义的混
6、合策略纳什均衡。混合策略指的是参与人以一定的概率选择某种策略。比如,参与人以 0.3 的概率选择第一种策略,以 0.5 的概率选择第二种策略,以 0.2 的概率选择最后一种策略。当一个参与人采取混合策略时,他的对手就不能准确猜出他实际将选的策略。为了区别这种情况,我们将以前定义的纳什均衡称为“纯”策略均衡。再考虑社会福利博弈的例子。流浪汉寻找工作游荡政府(0.2)(0.8)救济(1/2)3,2-1,3 不救济(1/2)-1,1 0,0 是对政府所选混合策略的最优反应,特别的,其中一种最优混合策略是(0.2寻找工作,0.8游荡)。给定流浪汉的上述混合策略,政府的任何策略(纯或混合)带给政府的期望
7、效用都是-0.2,特别的,其中政府以 1/2 的概率分别选择救济或不救济当然也是最优反应。)。根*i iargmaxu(ssi is s Ss=(s,.,这个博弈不存在纳什均衡。给定政府救济,流浪汉最优策略是游荡;给定流浪汉游荡,政府最优策略是救济;给定政府不救济,流浪汉选择工作为最优,给定流浪汉需找工作,政府最优策略是救济这个博弈事实上是个零和博弈,一方所得即另一方所失,该博弈也没有纳什均衡。比如(正面,正面)不是纳什均衡,因为给定 B 选择正面,A 的最优选择是反面。类似地,其他三个策略组合也不是纳什均衡。假定政府以 1/2 的概率选择救济。对流浪汉来说:寻找工作的期望效用 1/2*2+1
8、/2*1=1.5;游荡的期望效用 3*1/2+0*1/2=1.5;选择任何混合策略的期望效用也都是 1.5。所以流浪汉任何一种策略(纯或混合)都这样我们得到一个混合策略组合(1/2救济,1/2补救);(0.2寻找工作,0.8游荡),每一个参与人的混合策略都是给定对方混合策略时的最优选择。因此这个混合策略组合是一个纳什均衡。类似地,在猜谜博弈中,每个儿童以 1/2 的概率选择正面或者反面是一个纳什均衡。纯策略与混合策略如果一个策略规定参与人在每个给定的信息情况下只选择一个特定的行动,我们称该策略为纯策略。如果一个策略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,我们称该策略为混合
9、策略,因此在博弈策略式表示中,混合策略可以定义为在策略空间上的概率分布。定义:在n 个参与人博弈的策略式表述中G=S,.,Su,.,u,假定参与人i 有K个纯策略:这里,。1 is2 iss1=(1)混合策略是一个以概率为分量的向量,即便纯策略数为有限,混合策略也是无限的,混合策略空间可记为;(2)纯策略是混合策略的一个特例,即某个分量为 1 而其他分量为 0 的混合策略混合策略伴随着得益的不确定性,因为一个参与人不知道其他参与人的实际策略选择,此时他关心的是期望效用。以两人博弈为例,假定,即两个参与人分别有个纯策略。如果参与人 1 相信参与人 2 的混合策略为=(,.,j=1 ss.故参与人
10、 1 选择混合策略 的期望效用为:u(k=1j=1k=1j=1类似地,参与人 2 的期望效用为:u(j1k1k1j1有了上述期望效用函数的概念,我们现在可以重新定义纳什均衡。)k2j(ssKJk2j11u)=i1iK11k2Jk2j=(,.,)称为i 的一个混合策略,)s)u(s s)(ssi1k2j11k22j11)u(suKJ1k2j k2j2 1k2js,那么,概率分布u(ss1k2111K2JKJk2(ssi1iKik212Jk2j12Ju(ss)u(ss)u(ss)u(s s)=u=s,.,K1iKii1iKi)S2=(s,.,s)s1的期望效用:k111K2111K222J K2j
11、k2i=(,.,)10 0 0=(1,.,0)i111K),则参与人选择纯策略的 s2s1su(ssK,)=,)=1n1nS=是指i 选择ik s 的概率。对于所有的k=1,.,.K01=1iK12iS1=(s,.,sKJJ212J21222122JkKiK=(,.,)12定义:在n 个参与人博弈的策略式表述中G=S,.,Su,.,u中,混合策略组合=u(命题(混合策略纳什均衡基本定理):每个参与人的期望效用是自己的混合策略概率的线性函数,这点意味着,如果(,.,)是相对于给定 的一个最优混合策略,那么,对于所有的0,下式成立:u(也就是说,如果这个混合策略规定i以严格正的概率选择纯策略ik
12、s,那么ik s本身一定是相对于 的一个最优策略。反证法。如果略 的概率分别是过改变原来的混合策略来获益。具体地,他可以以新的概率赋予纯策略以来赋予纯策略以提高期望收益,但是,这与原直接推论:由于所有以正的概率进入最优混合策略的纯策略都是i的最优策略,故参与人i在所有这些纯策略之间一定是无差异的,即:如果u反过来,如果参与人有几个纯策略是最优的,那么,任何以正的概率选择其中一些或所有这些纯策略的混合策略也是最优的。于是,纳什均衡也可以表述如下。定义:(,.,u(求解社会福利博弈的混合策略纳什均衡流浪汉寻找工作政府救济3,2-1,3 以的概率选择不救济;相似地流浪不救济-1,1 0,0 汉的混合
13、策略为。1政府的期望效用函数为:=51)对上述效用求微分,得到政府最优化的一阶条件:uG即在混合策略均衡中,流浪汉以 0.2 的概率选择寻找工作,以 0.8 的概率选择游荡。求解政府的优化问题,得到的却是流浪汉的混合策略!试做如下解答。,故参与人i 可以通)ikiu(s,)中对应于纯策i i1)=(,.,ikikis,i=1,2,.,ns s,记i是一个纳什均衡,如果对于所有的,下式子成立:iiku(n,),0。由于*ii i)iik)u(s,),sS*ii)0,ikk,那么)=u(s,)=.=u(s,.,)是一个纳什均衡,如果对于所有的参与人i,)GL*i*1iii=iiik is,=+iK
14、i1iii*in*=(,1),即以 的概率选择救济,(1)(,(,.,)u(,),iiks,)u(siiikikikikik s,同时保持赋予在其他纯策略上的概率不变,这样参与人i 便可i1iK0,.,0(s,=,游荡1LG1n1n*1iiiik u(siks ik=0=(,.,)是i 最优混合策略的前提矛盾。i1i*1如左图所示,假定政府的混合策略为1=u=51=0=0.2假定最优混合策略存在,给定流浪汉选择混合策略,政府选择纯策略救济()的期望效用为:。选择纯策略不救济的期望效用为:。如果一个混合策略()是政府的最优选择,那一定意味着政府在救济与不救济之间无差异,即:,于是得到混合策略()
15、。流浪汉寻找工作政府救济3,2-1,3 G=(,1),流浪汉的期望效用函数不救济-1,1 0,0 为:1u(=(21)+3一阶条件为:如果,流浪汉的最优选择是寻找工作;如果,流浪汉的最优选择是游荡;只有当时,流浪汉才会选择混合策略或任何纯策略。纳什均衡要求每个参与人的混合策略是给定对方的混合策略下的最优选择。因此,在社会福利博弈中是唯一的纳什均衡。假定政府认为流浪汉选择寻找工作的概率严格小于,那么政府唯一最有选择是纯策略不救济;如果政府以 1 的概率选择不救济,流浪汉的最优选择是寻找工作,这有导致政府选择救济,导致流浪汉选择游荡因此不构成纳什均衡;类似的,、0.5、都不构成纳什均衡。混合策略纳
16、什均衡的反应对应图示法求解政府和流浪汉的反应对应:=011()0.2 0.5=2+1(1)+(1)3+0(1)=0.2时政府才会选择L0,1if=0.2不救济if0.2)G救济if0.2=(1)G=0.5=0.5;=0.2)=(1,)=41=u(0,)=(1)=G=游荡1,=(21)=0=0.50if0.21if0.2,1if=0.2和if0.20if0.2()=1uG(1,)=3+(1)(1)=41uG(0,)=(1)+0(1)0,1G0.2。这就是说,只有当0,1找政府的均衡策略需要求解流浪汉的最优化问题。给定,LLuL0.5(0.20.20.5)(NE 1 对混合策略纳什均衡的理解困惑:
17、在均衡情况下,每个人选纯策略是无差异的,均衡却要求每个参与人以特定的概率选择纯策略;一个参与人选择不同纯策略的概率分布不是由他自己的收益定的,而是由他的对手得益决定的一个参与人选择混合策略的目的是给其他参与人造成不确定性,尽管其他参与人知道他选择某个特定纯策略的概率是多少,但他们并不能猜透他实际上会选择哪个策略:正是因为他在几个纯策略之间无差异,他的行为才难以预测,混合策略才会存在。请试着分析杨过与霍都的博弈。群体观。有许多流浪者,他们的偏好、得益函数相同,政府对他们必须一视同仁。在这一流浪者群体中,有 20%的流浪者选择工作,80%选择游荡。“有时”观。从长期看,一位流浪者有时(20%的时间
18、)会选择工作,有时会选择游荡海深义(Harsanyi,1973):混合策略均衡等价于不完全信息下的纯策略均衡。即,流浪者有两种类型,20%的可能性是寻找工作型,80%是游荡型。在这时,政府在选择自己策略时似乎面临的是一位选择混合策略的流浪汉。纯策略均衡和混合策略均衡同时存在的例子性别战女足球 芭蕾男除了两个纯策略纳什均衡,还有一足球2,1 0,0 概率选择芭蕾舞;女方以 1/3 的概芭蕾0,0 1,2 芭蕾舞。纳什均衡数量的奇数定理奇数定理:奇数定理:The Oddness Theorem,Wilson,1971):几乎所有有限博弈都会有奇数个纳什均衡。如果一个博弈有两个纯策略均衡,那么一定存
19、在第三个混合策略纳什均衡个混合策略纳什均衡,这就是:男方以 2/3 的概率选择足球赛,1/3 的率选择足球赛,以 2/3 的概率选择纳什均衡的存在性我们相继引入了占优策略均衡(DSE)、重复剔除的占优均衡(IEDE)、纯策略纳什均衡(PNE)和混合策略纳什均衡(MNE)四个均衡概念。每个概念依次是前一个概念的扩展,前一个概念是后一个均衡概念的特例。PNE 是策略组合中的策略概率都为 1 的 MNE IEDE 一定是 PNE,但是须博弈格局中至少一个参与人有严格劣策略DSE 一定是 IEDE,但是须博弈格局中每个人都有严格劣策略上述四个均衡概念统称为纳什均衡(NE),那么是否所有的博弈都存在纳什
20、均衡呢?不一定,但是纳什证明,任何有限博弈都存在至少一个纳什均衡。纳什定理(Nash,1950):在一个有n 个博弈方的博弈G=S,.,S;u,.,u中,如果n 是有限的,且iS 都是有限集,则该博弈至少存在一个纳什均衡,但可能包含混合策略。定理证明的准备上述定理的证明需要用到 Kakutani 不动点定理。Kakutani 不动点定理是 Brouwer 不动点定理在对应映射上的扩展。Brouwer 不动点定理 假定是自身对自身的映射(即f:X X),在一个Brouwer 不动点定理的直观表述。考虑一维实数空间上的映射f是连续函数,是闭、有界、凸的,则 Brouwer 不动点定理的条件满足,1
21、()某一个条件不满足时()01(0,1),X 非凸注意:函数连续以及集合的闭、有界和凸性是保证不动点存在的充分条件,而不是必要条件,也就是说当上述(部分)条件不存在时,不动点仍有可能存在,见下页最右边的图。=xf(x)x 成为不动点。X,使得,1n1nf(x)是定义在点集 X 上的函数,如果f(x)f(x)是连续的,X 是非空的、闭的、有界的和凸的,那么至少存x X=x 是一个不动点1()=0,+)无界()=0,1)不是闭的()不是连续的Kakutani 不动点定理是 Brouwer 不动点定理在对应映射上的扩展。所谓对应(Correspondence),是点与集合之间的联系规则,而函数则是集
22、合上点与点之间的联系规则。Y(x)X 库诺特模型:是反应函数是反应函数 两人混合策略均衡中,给定对方的混合策略,参与人有无穷多个最优混合策略,=r 定义:对应的上半连续(uhl)概念 f:S T是一个对应,分别是 和 空间上的紧集(有界、闭)。令,且y例子:x,f(x)=y:x+2yx+44()2 2 0-2-2-4-4 左图:当0yf(x)=,+,被“抓住了”0 0,f(x)00jxm,xS时,f 在x 上是上半连续的(简称 uhc)yR(q)yy f(x),那么当且仅当0时,()Y ii)为i 的反应对应的反应对应NK00mm0 f(x)4 非 uhc()()()非连续,X 非闭,但不动点
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 博弈论教学课件二 混合策略纳什均衡、均衡的存在性与多重性 博弈论 教学 课件 混合 策略 均衡 存在 多重
限制150内