电子课件第七章.ppt





《电子课件第七章.ppt》由会员分享,可在线阅读,更多相关《电子课件第七章.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第第7 7章章 对对 策策 论论 内容提要 对策模型中的基本要素 矩阵对策(两人有限零和对策)的纯策略 矩阵对策的混合策略 求解矩阵对策的方法CHAPTER 7.1 7.1 引言引言 对策论也叫做博弈论。对策论也叫做博弈论。“博弈博弈”一词的英文单词是一词的英文单词是Game,意为对策、意为对策、游戏等;因此,一谈到博弈,人们自然会想到游戏等;因此,一谈到博弈,人们自然会想到游戏。对策论的早期思想也确实源于游戏。在游戏。对策论的早期思想也确实源于游戏。在诸如下棋、打牌、划拳等游戏中,人们要解决诸如下棋、打牌、划拳等游戏中,人们要解决的问题是如何才能获胜。这实际上是当事人面的问题是如何才能获胜
2、。这实际上是当事人面对一定的信息量寻求最佳行动和最优策略问题。对一定的信息量寻求最佳行动和最优策略问题。7.1 7.1 引言引言在实际生活中,许多游戏都反映了对策论在实际生活中,许多游戏都反映了对策论的思想。例如,在人们非常熟悉的的思想。例如,在人们非常熟悉的“石头、剪石头、剪刀、布刀、布”的游戏中,我们的问题是:对方如何的游戏中,我们的问题是:对方如何行动,而我又将如何应对才能取得胜利?这实行动,而我又将如何应对才能取得胜利?这实际上就涉及到了对策论的核心问题,即对策论际上就涉及到了对策论的核心问题,即对策论以对方的行为作为自己决策的依据,并寻求最以对方的行为作为自己决策的依据,并寻求最佳。
3、但对策论不仅仅是指游戏,它研究的是当佳。但对策论不仅仅是指游戏,它研究的是当人们的行为存在相互作用时的策略行为及其后人们的行为存在相互作用时的策略行为及其后果。社会生活中的许多现象,都带有相互竞争果。社会生活中的许多现象,都带有相互竞争与合作的特征,可以说,一切都在博弈或对策与合作的特征,可以说,一切都在博弈或对策之中。之中。7.2 7.2 对策模型的基本要素对策模型的基本要素 为了对对策问题在数学上进行分析,需为了对对策问题在数学上进行分析,需要建立对策问题的数学模型,称之为对要建立对策问题的数学模型,称之为对策模型。根据所研究问题的性质的不同,策模型。根据所研究问题的性质的不同,可建立不同
4、的对策模型。不论模型在形可建立不同的对策模型。不论模型在形式上有何不同,但模型都必须包括以下式上有何不同,但模型都必须包括以下几个基本要素。几个基本要素。7.2 7.2 对策模型的基本要素对策模型的基本要素1局中人局中人在在一一个个对对策策行行为为中中,有有权权决决定定自自己己行行动动方方案案的的对对策策参参加加者者被被称称为为局局中中人人。一一般般要要求求一一个个对对策策中中至至少少有有两两个个局局中中人人。局局中中人人的的集集合合用用字字母母I表示。表示。7.2 7.2 对策模型的基本要素对策模型的基本要素局中人除了理解为个人外,还可以理解为局中人除了理解为个人外,还可以理解为集体(如球队
5、、交战国、企业公司等),也可集体(如球队、交战国、企业公司等),也可以把大自然理解为局中人(因为人类经常处于以把大自然理解为局中人(因为人类经常处于和大自然的斗争状态中);另外,还假定局中和大自然的斗争状态中);另外,还假定局中人都是聪明的,有理智的。人都是聪明的,有理智的。7.2 7.2 对策模型的基本要素对策模型的基本要素同同时时,为为使使所所研研究究的的问问题题更更加加清清晰晰,把把那那些些利利益益完完全全一一致致的的参参加加者者们们看看做做一一个个局局中中人人,因因为为他他们们利利害害一一致致,必必使使他他们们齐齐心心合合力力,相相互互配配合合行行动动如如一一个个人人。例例如如,桥桥牌
6、牌游游戏戏中中,东东西西双双方方利利益益一一致致,南南北北两两面面得得失失相相当当,所所以以虽虽有有四四人人参参加加,只只能能算算有有两两个个局局中中人人。我我们们称称只只有有两两个个局局中中人人的的对对策策现现象象为为“两两人人对对策策”(如如象象棋棋、桥桥牌牌),而而多多于于两两个个局局中中人人的的对对策策称称为为“多多人人对对策策”。另另外外,根根据据局局中中人人之之间间是是否否允允许许进进行行合合作作,还还可可有有“结结盟盟对对策策”和和“不不结结盟盟对对策策”等。等。7.2 7.2 对策模型的基本要素对策模型的基本要素2策略策略一局对策中,每个局中人都有供他选择的一局对策中,每个局中
7、人都有供他选择的实际可行的完整的行动方案。此方案不是某一实际可行的完整的行动方案。此方案不是某一步的行动方案,而是指导自始至终如何行动的步的行动方案,而是指导自始至终如何行动的一个方案。局中人一个可行的自始至终通盘一个方案。局中人一个可行的自始至终通盘筹筹划的行动方案,称为这个局中人的一个策略。划的行动方案,称为这个局中人的一个策略。而把这个局中人的策略全体,称做这个局中人而把这个局中人的策略全体,称做这个局中人的策略集合。的策略集合。7.2 7.2 对策模型的基本要素对策模型的基本要素例如,在下象棋中例如,在下象棋中“当头炮当头炮”只作为某一只作为某一个策略的组成部分,而并非一个策略。在齐王
8、个策略的组成部分,而并非一个策略。在齐王与田忌赛马的例子中,如果一开始就要把各人与田忌赛马的例子中,如果一开始就要把各人的三匹马排好次序,然后依次出赛。那么,三的三匹马排好次序,然后依次出赛。那么,三匹马排列的一个次序就是一个完整的行动方案,匹马排列的一个次序就是一个完整的行动方案,于是被称为一个策略。例如,用于是被称为一个策略。例如,用“上、中、下上、中、下”表示首先是上马出赛,其次是中马出赛,最表示首先是上马出赛,其次是中马出赛,最后是下马出赛这样一个策略。显然,各局中人后是下马出赛这样一个策略。显然,各局中人都有都有6个策略,即个策略,即7.2 7.2 对策模型的基本要素对策模型的基本要
9、素上上、中中、下下;上上、下下、中中;中中、上上、下下;中、下、上;中、下、上;下、中、上;下、中、上;下、上、中。下、上、中。这个策略全体就是局中人的策略集合。这个策略全体就是局中人的策略集合。如如果果在在一一局局对对策策中中,各各个个局局中中人人都都有有有有限限个个策策略略,则则称称之之为为“有有限限对对策策”(齐齐王王与与田田忌忌赛赛马马就就是一个有限对策);否则称之为是一个有限对策);否则称之为“无限对策无限对策”。7.2 7.2 对策模型的基本要素对策模型的基本要素3局势集合局势集合在对策过程中,从每个局中人的策略集合在对策过程中,从每个局中人的策略集合中各取一个策略,所组成的策略组
10、称做中各取一个策略,所组成的策略组称做“局势局势”,可能产生的各种局势的全体,被称为局势集,可能产生的各种局势的全体,被称为局势集合。局势集合用字母合。局势集合用字母表示。在某些局势下对局表示。在某些局势下对局结束,这种局势称为最终局势。结束,这种局势称为最终局势。7.2 7.2 对策模型的基本要素对策模型的基本要素4收益函数收益函数一局对策结束之后,对每个局中人来说,一局对策结束之后,对每个局中人来说,不外乎是胜利或失败,名次的前后,以及其他不外乎是胜利或失败,名次的前后,以及其他物质的收入或支出等,这些可以统称之为物质的收入或支出等,这些可以统称之为“得得失失”或或“益损益损”。在齐王与田
11、忌赛马的例子中,最后田忌赢在齐王与田忌赛马的例子中,最后田忌赢得得1千金,而齐王损失千金,而齐王损失1千金,即为这局对策千金,即为这局对策(结局时)双方的(结局时)双方的“得失得失”。7.2 7.2 对策模型的基本要素对策模型的基本要素实实际际上上,每每个个局局中中人人在在一一局局对对策策结结束束时时的的得得失失,与与局局中中人人所所选选定定的的策策略略有有关关。例例如如,上上述述赛赛马马的的例例子子中中,当当齐齐王王出出策策略略“上上、中中、下下”,田田忌忌出出策策略略“下下、上上、中中”时时,田田忌忌得得千千金金;而而如如果果齐齐王王与与田田忌忌都都出出策策略略“上上、中中、下下”时时,田
12、田忌忌就就得得付付出出三三千千金金了了。所所以以用用数数学学语语言言来来说说,一一局局对对策策结结束束时时,每每个个局局中中人人的的“得得失失”是是全全体体局局中中人人所所取取定定的的一一组组策策略略的的函函数数。通常称为通常称为“收益函数收益函数”。7.2 7.2 对策模型的基本要素对策模型的基本要素在在最最终终局局势势下下,局局中中人人kI的的收收益益函函数数记记做:做:H(k,)。)。在对策论中,每个局中人的在对策论中,每个局中人的“得失得失”是是“局势局势”的函数。如果在任一的函数。如果在任一“局势局势”中,全体中,全体局中人的局中人的“得失得失”相加总是等于零时,这个对相加总是等于零
13、时,这个对策就称为零和对策(上述齐王与田忌赛马就是策就称为零和对策(上述齐王与田忌赛马就是一个零和对策)。否则称为一个零和对策)。否则称为“非零和对策非零和对策”。7.2 7.2 对策模型的基本要素对策模型的基本要素对策分为静态对策与动态对策两大类;静对策分为静态对策与动态对策两大类;静态对策分结盟与不结盟两种;不结盟对策又以态对策分结盟与不结盟两种;不结盟对策又以局中人两个或多个,策略集有限或无限,收益局中人两个或多个,策略集有限或无限,收益函数之和是否为零,分成种种类型的对策模型。函数之和是否为零,分成种种类型的对策模型。例如,两人有限零和对策,多人有限零和对策,例如,两人有限零和对策,多
14、人有限零和对策,无限对抗对策;结盟对策有联合对策与合作对无限对抗对策;结盟对策有联合对策与合作对策两种(其中有阵地对策)。此外还有随机对策两种(其中有阵地对策)。此外还有随机对策、微分对策,等等。本教材仅仅讨论最基本策、微分对策,等等。本教材仅仅讨论最基本的两人有限零和对策模型。的两人有限零和对策模型。7.3.1矩阵对策(两人有限零和对策)的表示矩阵对策(两人有限零和对策)的表示 下下面面继继续续讨讨论论齐齐王王赛赛马马的的例例子子:以以1(上上、中中、下下)表表示示齐齐王王以以“先先用用上上等等马马、再再用用中中等等马马、最最后后用用下下等等马马”次次序序参参加加比比赛赛。也也就就是是说说它
15、它是是齐齐王王的的一一个个策策略略。于于是是齐齐王王共共有有6个个策策略略(3的全排列的全排列P3 3!3 2 1 6),),即即7.3 7.3 矩阵对策矩阵对策(两人有限零和对策)(两人有限零和对策)7.3.1矩阵对策(两人有限零和对策)的表示矩阵对策(两人有限零和对策)的表示1(上、中、下)上、中、下)2(上、下、中)上、下、中)3(中、上、下)中、上、下)4(中、下、上)中、下、上)5(下、中、上)下、中、上)6(下、上、中)下、上、中)同理,对田忌来讲也有同理,对田忌来讲也有6个策略,分别为个策略,分别为1(上、中、下)上、中、下)2(上、下、中)上、下、中)3(中、上、下)中、上、下
16、)4(中、下、上)中、下、上)5(下、中、上)下、中、上)6(下、上、中)下、上、中)7.3.1矩阵对策(两人有限零和对策)的表示矩阵对策(两人有限零和对策)的表示当齐王选取策略当齐王选取策略1(上、中、下),田忌上、中、下),田忌选取策略选取策略1(上、中、下)进行比赛,就形成上、中、下)进行比赛,就形成一个局势(一个局势(1,1)。)。这时,由于在同等级的这时,由于在同等级的马中,田忌的马不如齐王的马,所以齐王在这马中,田忌的马不如齐王的马,所以齐王在这一局势下,每个等级的马都胜过田忌的马,齐一局势下,每个等级的马都胜过田忌的马,齐王他可以得到王他可以得到3千金。同理,在局势(千金。同理,
17、在局势(1,2)下,齐王可以得到下,齐王可以得到1千金,等等。齐王在不同千金,等等。齐王在不同局势下的不同收益可用矩阵表示为局势下的不同收益可用矩阵表示为7.3.1矩阵对策(两人有限零和对策)的表示矩阵对策(两人有限零和对策)的表示1234567.3.1矩阵对策(两人有限零和对策)的表示矩阵对策(两人有限零和对策)的表示矩阵中的元素矩阵中的元素1和和3是表示齐王得到的千金是表示齐王得到的千金数,同时也是田忌应付的千金数;数,同时也是田忌应付的千金数;1是齐王应是齐王应付的千金数,同时也是田忌所得到的千金数。付的千金数,同时也是田忌所得到的千金数。对于两人有限零和对策来说,局中人的收益矩对于两人
18、有限零和对策来说,局中人的收益矩阵给定之后,两个局中人就便于各自考虑选取阵给定之后,两个局中人就便于各自考虑选取最合适的策略,以谋取最大的收益。最合适的策略,以谋取最大的收益。7.3.1矩阵对策(两人有限零和对策)的表示矩阵对策(两人有限零和对策)的表示一一般般地地:用用、表表示示两两个个局局中中人人,局局中中人人有有m个个策策略略,即即1,2,m;局局中中人人有有n个策略,即个策略,即1,2,n。当当选取策略选取策略i,选取策略选取策略j,就形成就形成一个局势(一个局势(i,j),),这时局中人这时局中人的收益为的收益为aij,局中人局中人的收益为的收益为 aij(共有共有m n个局势)。个
19、局势)。矩阵矩阵A(a ij)称为局中人称为局中人的收益矩阵,即的收益矩阵,即7.3.1矩阵对策(两人有限零和对策)的表示矩阵对策(两人有限零和对策)的表示显然矩阵显然矩阵A (aij)完全确定了这个对策。完全确定了这个对策。7.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略 例例7.1设有一矩阵对策,局中人设有一矩阵对策,局中人I的收益矩阵为的收益矩阵为试研究双方策略。试研究双方策略。7.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略解解由由A可以看出,局中人可以看出,局中人的最大收益值是的最大收益值是9,要想达到这个目的,他就
20、得选策略,要想达到这个目的,他就得选策略3。然而然而局中人局中人也在考虑,因为局中人也在考虑,因为局中人有出有出3的心的心理状态,要想使自己有较大的赢得,就想选理状态,要想使自己有较大的赢得,就想选3作为对策。这样不仅不能使局中人作为对策。这样不仅不能使局中人得到得到9,反而会失去反而会失去10(即得(即得 10)。同样,局中人)。同样,局中人也会想也会想有出有出3的可能,于是的可能,于是想出想出4来对付来对付,使他不但得不到,使他不但得不到10反而输掉反而输掉6,等等。,等等。7.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略这样一来,双方都必然要考虑风险,考
21、虑这样一来,双方都必然要考虑风险,考虑对方会设法使自己收入最小;因此,都应当从对方会设法使自己收入最小;因此,都应当从最坏处着想,去尽量争取最好的结果。这就是最坏处着想,去尽量争取最好的结果。这就是所谓的保守准则,保证最小收益,即所谓的保守准则,保证最小收益,即maxmin准则。准则。7.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略对局中人对局中人来说,若他选择策略来说,若他选择策略1,他的他的收益可能是收益可能是 8(当(当选择策略选择策略3),),这是他采这是他采取取1时能保证得到的最小收益。同样,他选择时能保证得到的最小收益。同样,他选择2、3、4时,他
22、能保证得到的最小收益分别时,他能保证得到的最小收益分别是(即对应行的最小元素)是(即对应行的最小元素)2、10、3;因此,;因此,当他采取策略当他采取策略2时,他可保证收益至少为时,他可保证收益至少为2,而,而当他采取其他策略时,他的收益可能小于当他采取其他策略时,他的收益可能小于2。在这个意义下(也即在这个意义下(也即maxmin准则),我们说准则),我们说2是是的最优策略。的最优策略。7.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略同同样样,局局中中人人采采取取策策略略1、2、3时时,他他的的损损失失分分别别为为(对对应应列列的的最最大大元元素素)9、2、
23、6。因因此此,他他的的最最优优策策略略(按按minmax准准则则)是是2,可保证损失不超过可保证损失不超过2。结果,局中人结果,局中人按按maxmin准则选取策略准则选取策略2,局中人局中人按按minmax准则选取准则选取2,双方都得双方都得到了他们预想的收益,这是一种最稳妥的行为。到了他们预想的收益,这是一种最稳妥的行为。我们把称(我们把称(2,2)称为对策称为对策G的最优局势。的最优局势。7.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略求求最最优优策策略略的的过过程程用用数数学学式式子子描描述述如如下下:对对局局中中人人来来讲,就是先在矩阵讲,就是先在矩阵
24、A每一行元素中取最小值,即每一行元素中取最小值,即min 6,1,88min3,2,4=2min9,1,1010min 3,0,63再从这些最小值中取最大值,即再从这些最小值中取最大值,即max 8,2,10,3 27.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略因因此此,由由上上面面矩矩阵阵A可可知知,局局中中人人的的最最优优策策略略为为2。对对局局中中人人来来讲讲,先先在在矩矩阵阵A每每一一列列元元素素中中取取最最大大值,即值,即max 6,3,9,3 9max1,2,1,0 2max 8,4,10,6 6再从这些最大值中取最小值,即再从这些最大值中取最小
25、值,即min9,2,6 27.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略因因此此,由由上上面面可可知知,对对局局中中人人来来讲讲最最优优策策略略为为2。2是对策是对策G的值,对策值用的值,对策值用VG表示,即表示,即VG 27.3.2矩阵对策矩阵对策(两人有限零和对策)的纯策略(两人有限零和对策)的纯策略一一般般地地,设设局局中中人人、都都采采用用保保守守准准则则,保保证证最最小小收收益益,即即maxmin准准则则。那那么么对对局局中中人人来来说说,他他应应对对自自己己每每一一种种可可以以选选择择的的策策略略求求出出其其最最小小的的收收益益,再再选选择择最最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子 课件 第七

限制150内