书签分享收藏举报版权申诉 / 120

立即下载

当前位置：首页 > 生活休闲 > 生活常识 > 电子课件第七章.ppt

电子课件第七章.ppt

上传人：hyn****60

文档编号：70679736

上传时间：2023-01-24

格式：PPT

页数：120

大小：1.04MB

( 4.5 )

《电子课件第七章.ppt》由会员分享，可在线阅读，更多相关《电子课件第七章.ppt（120页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第第7 7章章对对策策论论内容提要对策模型中的基本要素矩阵对策（两人有限零和对策）的纯策略矩阵对策的混合策略求解矩阵对策的方法CHAPTER 7.1 7.1 引言引言对策论也叫做博弈论。对策论也叫做博弈论。“博弈博弈”一词的英文单词是一词的英文单词是Game，意为对策、意为对策、游戏等；因此，一谈到博弈，人们自然会想到游戏等；因此，一谈到博弈，人们自然会想到游戏。对策论的早期思想也确实源于游戏。在游戏。对策论的早期思想也确实源于游戏。在诸如下棋、打牌、划拳等游戏中，人们要解决诸如下棋、打牌、划拳等游戏中，人们要解决的问题是如何才能获胜。这实际上是当事人面的问题是如何才能获胜

2、。这实际上是当事人面对一定的信息量寻求最佳行动和最优策略问题。对一定的信息量寻求最佳行动和最优策略问题。7.1 7.1 引言引言在实际生活中，许多游戏都反映了对策论在实际生活中，许多游戏都反映了对策论的思想。例如，在人们非常熟悉的的思想。例如，在人们非常熟悉的“石头、剪石头、剪刀、布刀、布”的游戏中，我们的问题是：对方如何的游戏中，我们的问题是：对方如何行动，而我又将如何应对才能取得胜利？这实行动，而我又将如何应对才能取得胜利？这实际上就涉及到了对策论的核心问题，即对策论际上就涉及到了对策论的核心问题，即对策论以对方的行为作为自己决策的依据，并寻求最以对方的行为作为自己决策的依据，并寻求最佳。

3、但对策论不仅仅是指游戏，它研究的是当佳。但对策论不仅仅是指游戏，它研究的是当人们的行为存在相互作用时的策略行为及其后人们的行为存在相互作用时的策略行为及其后果。社会生活中的许多现象，都带有相互竞争果。社会生活中的许多现象，都带有相互竞争与合作的特征，可以说，一切都在博弈或对策与合作的特征，可以说，一切都在博弈或对策之中。之中。7.2 7.2 对策模型的基本要素对策模型的基本要素为了对对策问题在数学上进行分析，需为了对对策问题在数学上进行分析，需要建立对策问题的数学模型，称之为对要建立对策问题的数学模型，称之为对策模型。根据所研究问题的性质的不同，策模型。根据所研究问题的性质的不同，可建立不同

4、的对策模型。不论模型在形可建立不同的对策模型。不论模型在形式上有何不同，但模型都必须包括以下式上有何不同，但模型都必须包括以下几个基本要素。几个基本要素。7.2 7.2 对策模型的基本要素对策模型的基本要素1局中人局中人在在一一个个对对策策行行为为中中，有有权权决决定定自自己己行行动动方方案案的的对对策策参参加加者者被被称称为为局局中中人人。一一般般要要求求一一个个对对策策中中至至少少有有两两个个局局中中人人。局局中中人人的的集集合合用用字字母母I表示。表示。7.2 7.2 对策模型的基本要素对策模型的基本要素局中人除了理解为个人外，还可以理解为局中人除了理解为个人外，还可以理解为集体（如球队

5、、交战国、企业公司等），也可集体（如球队、交战国、企业公司等），也可以把大自然理解为局中人（因为人类经常处于以把大自然理解为局中人（因为人类经常处于和大自然的斗争状态中）；另外，还假定局中和大自然的斗争状态中）；另外，还假定局中人都是聪明的，有理智的。人都是聪明的，有理智的。7.2 7.2 对策模型的基本要素对策模型的基本要素同同时时，为为使使所所研研究究的的问问题题更更加加清清晰晰，把把那那些些利利益益完完全全一一致致的的参参加加者者们们看看做做一一个个局局中中人人，因因为为他他们们利利害害一一致致，必必使使他他们们齐齐心心合合力力，相相互互配配合合行行动动如如一一个个人人。例例如如，桥桥牌

6、牌游游戏戏中中，东东西西双双方方利利益益一一致致，南南北北两两面面得得失失相相当当，所所以以虽虽有有四四人人参参加加，只只能能算算有有两两个个局局中中人人。我我们们称称只只有有两两个个局局中中人人的的对对策策现现象象为为“两两人人对对策策”（如如象象棋棋、桥桥牌牌），而而多多于于两两个个局局中中人人的的对对策策称称为为“多多人人对对策策”。另另外外，根根据据局局中中人人之之间间是是否否允允许许进进行行合合作作，还还可可有有“结结盟盟对对策策”和和“不不结结盟盟对对策策”等。等。7.2 7.2 对策模型的基本要素对策模型的基本要素2策略策略一局对策中，每个局中人都有供他选择的一局对策中，每个局中

7、人都有供他选择的实际可行的完整的行动方案。此方案不是某一实际可行的完整的行动方案。此方案不是某一步的行动方案，而是指导自始至终如何行动的步的行动方案，而是指导自始至终如何行动的一个方案。局中人一个可行的自始至终通盘一个方案。局中人一个可行的自始至终通盘筹筹划的行动方案，称为这个局中人的一个策略。划的行动方案，称为这个局中人的一个策略。而把这个局中人的策略全体，称做这个局中人而把这个局中人的策略全体，称做这个局中人的策略集合。的策略集合。7.2 7.2 对策模型的基本要素对策模型的基本要素例如，在下象棋中例如，在下象棋中“当头炮当头炮”只作为某一只作为某一个策略的组成部分，而并非一个策略。在齐王

8、个策略的组成部分，而并非一个策略。在齐王与田忌赛马的例子中，如果一开始就要把各人与田忌赛马的例子中，如果一开始就要把各人的三匹马排好次序，然后依次出赛。那么，三的三匹马排好次序，然后依次出赛。那么，三匹马排列的一个次序就是一个完整的行动方案，匹马排列的一个次序就是一个完整的行动方案，于是被称为一个策略。例如，用于是被称为一个策略。例如，用“上、中、下上、中、下”表示首先是上马出赛，其次是中马出赛，最表示首先是上马出赛，其次是中马出赛，最后是下马出赛这样一个策略。显然，各局中人后是下马出赛这样一个策略。显然，各局中人都有都有6个策略，即个策略，即7.2 7.2 对策模型的基本要素对策模型的基本要

9、素上上、中中、下下；上上、下下、中中；中中、上上、下下；中、下、上；中、下、上；下、中、上；下、中、上；下、上、中。下、上、中。这个策略全体就是局中人的策略集合。这个策略全体就是局中人的策略集合。如如果果在在一一局局对对策策中中，各各个个局局中中人人都都有有有有限限个个策策略略，则则称称之之为为“有有限限对对策策”（齐齐王王与与田田忌忌赛赛马马就就是一个有限对策）；否则称之为是一个有限对策）；否则称之为“无限对策无限对策”。7.2 7.2 对策模型的基本要素对策模型的基本要素3局势集合局势集合在对策过程中，从每个局中人的策略集合在对策过程中，从每个局中人的策略集合中各取一个策略，所组成的策略组

10、称做中各取一个策略，所组成的策略组称做“局势局势”，可能产生的各种局势的全体，被称为局势集，可能产生的各种局势的全体，被称为局势集合。局势集合用字母合。局势集合用字母表示。在某些局势下对局表示。在某些局势下对局结束，这种局势称为最终局势。结束，这种局势称为最终局势。7.2 7.2 对策模型的基本要素对策模型的基本要素4收益函数收益函数一局对策结束之后，对每个局中人来说，一局对策结束之后，对每个局中人来说，不外乎是胜利或失败，名次的前后，以及其他不外乎是胜利或失败，名次的前后，以及其他物质的收入或支出等，这些可以统称之为物质的收入或支出等，这些可以统称之为“得得失失”或或“益损益损”。在齐王与田

11、忌赛马的例子中，最后田忌赢在齐王与田忌赛马的例子中，最后田忌赢得得1千金，而齐王损失千金，而齐王损失1千金，即为这局对策千金，即为这局对策（结局时）双方的（结局时）双方的“得失得失”。7.2 7.2 对策模型的基本要素对策模型的基本要素实实际际上上，每每个个局局中中人人在在一一局局对对策策结结束束时时的的得得失失，与与局局中中人人所所选选定定的的策策略略有有关关。例例如如，上上述述赛赛马马的的例例子子中中，当当齐齐王王出出策策略略“上上、中中、下下”，田田忌忌出出策策略略“下下、上上、中中”时时，田田忌忌得得千千金金；而而如如果果齐齐王王与与田田忌忌都都出出策策略略“上上、中中、下下”时时，田

12、田忌忌就就得得付付出出三三千千金金了了。所所以以用用数数学学语语言言来来说说，一一局局对对策策结结束束时时，每每个个局局中中人人的的“得得失失”是是全全体体局局中中人人所所取取定定的的一一组组策策略略的的函函数数。通常称为通常称为“收益函数收益函数”。7.2 7.2 对策模型的基本要素对策模型的基本要素在在最最终终局局势势下下，局局中中人人kI的的收收益益函函数数记记做：做：H（k,）。）。在对策论中，每个局中人的在对策论中，每个局中人的“得失得失”是是“局势局势”的函数。如果在任一的函数。如果在任一“局势局势”中，全体中，全体局中人的局中人的“得失得失”相加总是等于零时，这个对相加总是等于零

13、时，这个对策就称为零和对策（上述齐王与田忌赛马就是策就称为零和对策（上述齐王与田忌赛马就是一个零和对策）。否则称为一个零和对策）。否则称为“非零和对策非零和对策”。7.2 7.2 对策模型的基本要素对策模型的基本要素对策分为静态对策与动态对策两大类；静对策分为静态对策与动态对策两大类；静态对策分结盟与不结盟两种；不结盟对策又以态对策分结盟与不结盟两种；不结盟对策又以局中人两个或多个，策略集有限或无限，收益局中人两个或多个，策略集有限或无限，收益函数之和是否为零，分成种种类型的对策模型。函数之和是否为零，分成种种类型的对策模型。例如，两人有限零和对策，多人有限零和对策，例如，两人有限零和对策，多

14、人有限零和对策，无限对抗对策；结盟对策有联合对策与合作对无限对抗对策；结盟对策有联合对策与合作对策两种（其中有阵地对策）。此外还有随机对策两种（其中有阵地对策）。此外还有随机对策、微分对策，等等。本教材仅仅讨论最基本策、微分对策，等等。本教材仅仅讨论最基本的两人有限零和对策模型。的两人有限零和对策模型。7.3.1矩阵对策（两人有限零和对策）的表示矩阵对策（两人有限零和对策）的表示下下面面继继续续讨讨论论齐齐王王赛赛马马的的例例子子：以以1（上上、中中、下下）表表示示齐齐王王以以“先先用用上上等等马马、再再用用中中等等马马、最最后后用用下下等等马马”次次序序参参加加比比赛赛。也也就就是是说说它

15、它是是齐齐王王的的一一个个策策略略。于于是是齐齐王王共共有有6个个策策略略（3的全排列的全排列P3 3！3 2 1 6），），即即7.3 7.3 矩阵对策矩阵对策（两人有限零和对策）（两人有限零和对策）7.3.1矩阵对策（两人有限零和对策）的表示矩阵对策（两人有限零和对策）的表示1（上、中、下）上、中、下）2（上、下、中）上、下、中）3（中、上、下）中、上、下）4（中、下、上）中、下、上）5（下、中、上）下、中、上）6（下、上、中）下、上、中）同理，对田忌来讲也有同理，对田忌来讲也有6个策略，分别为个策略，分别为1（上、中、下）上、中、下）2（上、下、中）上、下、中）3（中、上、下）中、上、下

16、）4（中、下、上）中、下、上）5（下、中、上）下、中、上）6（下、上、中）下、上、中）7.3.1矩阵对策（两人有限零和对策）的表示矩阵对策（两人有限零和对策）的表示当齐王选取策略当齐王选取策略1（上、中、下），田忌上、中、下），田忌选取策略选取策略1（上、中、下）进行比赛，就形成上、中、下）进行比赛，就形成一个局势（一个局势（1，1）。）。这时，由于在同等级的这时，由于在同等级的马中，田忌的马不如齐王的马，所以齐王在这马中，田忌的马不如齐王的马，所以齐王在这一局势下，每个等级的马都胜过田忌的马，齐一局势下，每个等级的马都胜过田忌的马，齐王他可以得到王他可以得到3千金。同理，在局势（千金。同理，

17、在局势（1，2）下，齐王可以得到下，齐王可以得到1千金，等等。齐王在不同千金，等等。齐王在不同局势下的不同收益可用矩阵表示为局势下的不同收益可用矩阵表示为7.3.1矩阵对策（两人有限零和对策）的表示矩阵对策（两人有限零和对策）的表示1234567.3.1矩阵对策（两人有限零和对策）的表示矩阵对策（两人有限零和对策）的表示矩阵中的元素矩阵中的元素1和和3是表示齐王得到的千金是表示齐王得到的千金数，同时也是田忌应付的千金数；数，同时也是田忌应付的千金数；1是齐王应是齐王应付的千金数，同时也是田忌所得到的千金数。付的千金数，同时也是田忌所得到的千金数。对于两人有限零和对策来说，局中人的收益矩对于两人

18、有限零和对策来说，局中人的收益矩阵给定之后，两个局中人就便于各自考虑选取阵给定之后，两个局中人就便于各自考虑选取最合适的策略，以谋取最大的收益。最合适的策略，以谋取最大的收益。7.3.1矩阵对策（两人有限零和对策）的表示矩阵对策（两人有限零和对策）的表示一一般般地地：用用、表表示示两两个个局局中中人人，局局中中人人有有m个个策策略略，即即1,2,m；局局中中人人有有n个策略，即个策略，即1,2,n。当当选取策略选取策略i，选取策略选取策略j，就形成就形成一个局势（一个局势（i，j），），这时局中人这时局中人的收益为的收益为aij，局中人局中人的收益为的收益为 aij（共有共有m n个局势）。个

19、局势）。矩阵矩阵A（a ij）称为局中人称为局中人的收益矩阵，即的收益矩阵，即7.3.1矩阵对策（两人有限零和对策）的表示矩阵对策（两人有限零和对策）的表示显然矩阵显然矩阵A (aij)完全确定了这个对策。完全确定了这个对策。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略例例7.1设有一矩阵对策，局中人设有一矩阵对策，局中人I的收益矩阵为的收益矩阵为试研究双方策略。试研究双方策略。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略解解由由A可以看出，局中人可以看出，局中人的最大收益值是的最大收益值是9，要想达到这个目的，他就

20、得选策略，要想达到这个目的，他就得选策略3。然而然而局中人局中人也在考虑，因为局中人也在考虑，因为局中人有出有出3的心的心理状态，要想使自己有较大的赢得，就想选理状态，要想使自己有较大的赢得，就想选3作为对策。这样不仅不能使局中人作为对策。这样不仅不能使局中人得到得到9，反而会失去反而会失去10（即得（即得 10）。同样，局中人）。同样，局中人也会想也会想有出有出3的可能，于是的可能，于是想出想出4来对付来对付，使他不但得不到，使他不但得不到10反而输掉反而输掉6，等等。，等等。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略这样一来，双方都必然要考虑风险，考

21、虑这样一来，双方都必然要考虑风险，考虑对方会设法使自己收入最小；因此，都应当从对方会设法使自己收入最小；因此，都应当从最坏处着想，去尽量争取最好的结果。这就是最坏处着想，去尽量争取最好的结果。这就是所谓的保守准则，保证最小收益，即所谓的保守准则，保证最小收益，即maxmin准则。准则。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略对局中人对局中人来说，若他选择策略来说，若他选择策略1，他的他的收益可能是收益可能是 8（当（当选择策略选择策略3），），这是他采这是他采取取1时能保证得到的最小收益。同样，他选择时能保证得到的最小收益。同样，他选择2、3、4时，他

22、能保证得到的最小收益分别时，他能保证得到的最小收益分别是（即对应行的最小元素）是（即对应行的最小元素）2、10、3；因此，；因此，当他采取策略当他采取策略2时，他可保证收益至少为时，他可保证收益至少为2，而，而当他采取其他策略时，他的收益可能小于当他采取其他策略时，他的收益可能小于2。在这个意义下（也即在这个意义下（也即maxmin准则），我们说准则），我们说2是是的最优策略。的最优策略。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略同同样样，局局中中人人采采取取策策略略1、2、3时时，他他的的损损失失分分别别为为（对对应应列列的的最最大大元元素素）9、2、

23、6。因因此此，他他的的最最优优策策略略（按按minmax准准则则）是是2，可保证损失不超过可保证损失不超过2。结果，局中人结果，局中人按按maxmin准则选取策略准则选取策略2，局中人局中人按按minmax准则选取准则选取2，双方都得双方都得到了他们预想的收益，这是一种最稳妥的行为。到了他们预想的收益，这是一种最稳妥的行为。我们把称（我们把称（2,2）称为对策称为对策G的最优局势。的最优局势。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略求求最最优优策策略略的的过过程程用用数数学学式式子子描描述述如如下下：对对局局中中人人来来讲，就是先在矩阵讲，就是先在矩阵

24、A每一行元素中取最小值，即每一行元素中取最小值，即min 6,1,88min3,2,4=2min9,1,1010min 3,0,63再从这些最小值中取最大值，即再从这些最小值中取最大值，即max 8,2,10,3 27.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略因因此此，由由上上面面矩矩阵阵A可可知知，局局中中人人的的最最优优策策略略为为2。对对局局中中人人来来讲讲，先先在在矩矩阵阵A每每一一列列元元素素中中取取最最大大值，即值，即max 6,3,9,3 9max1,2,1,0 2max 8,4,10,6 6再从这些最大值中取最小值，即再从这些最大值中取最小

25、值，即min9,2,6 27.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略因因此此，由由上上面面可可知知，对对局局中中人人来来讲讲最最优优策策略略为为2。2是对策是对策G的值，对策值用的值，对策值用VG表示，即表示，即VG 27.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略一一般般地地，设设局局中中人人、都都采采用用保保守守准准则则，保保证证最最小小收收益益，即即maxmin准准则则。那那么么对对局局中中人人来来说说，他他应应对对自自己己每每一一种种可可以以选选择择的的策策略略求求出出其其最最小小的的收收益益，再再选选择择最最

26、小小收收益益中中收收益益最最大大的的那那个个策策略略。对对收收益益矩矩阵阵A (aij)来来说说，就就是是先先对对每每一一行行中中求求最最小小值值，再再在在这这些些最最小小值值中中选选出最大值。即出最大值。即7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略对对局局中中人人来来说说，A是是他他的的损损失失矩矩阵阵，他他的的收收益益是是 aij；所所以以他他对对A使使用用保保守守准准则则时时，应应当当先先在在每每一一列列中中求求出出最最大大值值，再再在在这这些些最最大大值值中选择最小的那个，即中选择最小的那个，即7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策

27、略（两人有限零和对策）的纯策略通过上面讨论可以看到：在对策中，局中通过上面讨论可以看到：在对策中，局中人人、都采用保守准则，最后出现了一个平都采用保守准则，最后出现了一个平衡局势（衡局势（i*,j*），），这个局势双方均可接受，且这个局势双方均可接受，且对双方来说都是一个最稳妥的结果。我们把这对双方来说都是一个最稳妥的结果。我们把这个平衡局势（个平衡局势（i*,j*）称为鞍点。称为鞍点。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略鞍鞍点点的的定定义义：设设对对策策G的的收收益益矩矩阵阵为为A (aij)，若若，且且等等于于矩矩阵阵元元素素i*j*；那那么么

28、，(i*,j*)称称为为对对策策G的的一一个个鞍鞍点点，ai*称称为为局局中中人人的的最最优优纯纯策策略略，j*称称为为局局中中人人的的最最优优纯纯策策略略，VG i*j*称为对策称为对策G的值。的值。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略例例7.2设有一矩阵对策，局中人设有一矩阵对策，局中人的收益矩阵为的收益矩阵为求对策的鞍点和对策值，局中人的最优策略。求对策的鞍点和对策值，局中人的最优策略。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略解解对对局局中中人人来来说说，将将矩矩阵阵每每行行元元素素取取最最小值，即小

29、值，即第一行第一行第二行第二行第三行第三行第四行第四行7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略再从再从4个最小值中取最大值，即个最小值中取最大值，即故有故有7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略对对局局中中人人来来说说，将将矩矩阵阵的的每每一一列列元元素素取取最最大大值，即值，即7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略再从最大值中取最小值，即再从最大值中取最小值，即故有故有因为因为又有又有7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策

30、略所以对策值所以对策值VG 2，鞍点为（鞍点为（2，2），），局局中人的最优纯策略为中人的最优纯策略为2，局中人的最优纯策略局中人的最优纯策略为为2。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略例例7.3某单位采购员在秋季时要决定冬季某单位采购员在秋季时要决定冬季取暖用煤的采购量。已知在正常气温条件下需取暖用煤的采购量。已知在正常气温条件下需要用煤要用煤15吨，在较暖和较冷气温条件下分别需吨，在较暖和较冷气温条件下分别需要用煤要用煤10吨和吨和20吨。假定冬季的煤价随着天气吨。假定冬季的煤价随着天气寒冷程度而变化：在较暖、正常、较冷气温条寒冷程度而变化：

31、在较暖、正常、较冷气温条件下每吨煤的价格分别为件下每吨煤的价格分别为100元、元、150元和元和200元，又设秋季时每吨煤的价格为元，又设秋季时每吨煤的价格为100元。问在元。问在没有关于当年冬季气温情况准确预报的条件下，没有关于当年冬季气温情况准确预报的条件下，秋季时应采购多少吨煤才能使总支出最少？秋季时应采购多少吨煤才能使总支出最少？7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略这这个个问问题题可可看看成成一一个个对对策策问问题题。把把采采购购员员看看成成一一个个局局中中人人，他他有有3个个策策略略：分分别别是是在在秋秋天天时时购购买买10吨吨、15吨吨

32、、20吨吨煤煤，记记为为1、2、3；本本对对策策的的另另一一局局中中人人可可看看成成大大自自然然，它它也也有有3个个策策略略：分分别别是是出出现现较较暖暖、正正常常、较较冷冷的的冬季，记为冬季，记为1、2、3。7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略现把该单位冬季用煤的全部费用（秋季购现把该单位冬季用煤的全部费用（秋季购煤费用与冬季不够时再补购的费用之和）作为煤费用与冬季不够时再补购的费用之和）作为采购员的收益，得到收益矩阵如下：采购员的收益，得到收益矩阵如下：7.3.2矩阵对策矩阵对策（两人有限零和对策）的纯策略（两人有限零和对策）的纯策略由于由于知

33、该对策的解为（知该对策的解为（3,3），），即采购员秋季购煤即采购员秋季购煤20吨较好。吨较好。7.3.3矩阵对策的混合策略矩阵对策的混合策略由由上上面面讨讨论论可可知知，在在一一个个矩矩阵阵对对策策A (aij)中，局中人中，局中人能保证的最小可得收益为能保证的最小可得收益为局中人局中人能保证的最大所失为能保证的最大所失为7.3.3矩阵对策的混合策略矩阵对策的混合策略一一般般而而言言，局局中中人人的的收收益益不不会会多多于于局局中中人人的所失，所以总有的所失，所以总有即有即有7.3.3矩阵对策的混合策略矩阵对策的混合策略若等号成立，即当若等号成立，即当v1 v2时，矩阵对策在时，矩阵对策在

34、纯策略意义下有解，且纯策略意义下有解，且VG v1 v2。然而，然而，实际中出现的更多情况是等号不成立，即为实际中出现的更多情况是等号不成立，即为的情况。的情况。这时鞍点不存在，在纯策略意义下双方这时鞍点不存在，在纯策略意义下双方都不存在最优策略。此时，就需要采用混合都不存在最优策略。此时，就需要采用混合策略。策略。7.3.3矩阵对策的混合策略矩阵对策的混合策略例例7.4设矩阵对策，局中人设矩阵对策，局中人的收益矩阵为的收益矩阵为试问这个对策有没有鞍点？如果没有，任何求解？试问这个对策有没有鞍点？如果没有，任何求解？7.3.3矩阵对策的混合策略矩阵对策的混合策略解解求求出出每每一一行行的的最最

35、小小元元素素，即即第第一一行行：1；第二行：；第二行：2。这里第一行的这里第一行的1元素不是它所在列里的最元素不是它所在列里的最大元素；同样，第二行中的元素大元素；同样，第二行中的元素2也不是它所也不是它所在列里的最大元素。在列里的最大元素。7.3.3矩阵对策的混合策略矩阵对策的混合策略而而故故因而该对策不存在鞍点，没有纯策略意义下的解，因而该对策不存在鞍点，没有纯策略意义下的解，两个局中人也没有最优纯策略。两个局中人也没有最优纯策略。7.3.3矩阵对策的混合策略矩阵对策的混合策略面面对对这这种种情情况况，局局中中人人应应如如何何选选择择纯纯策策略略参加对策呢？参加对策呢？局中人局中人也许总想

36、选取第二个策略（即第也许总想选取第二个策略（即第2行），行），这是由于他最多可以赢得这是由于他最多可以赢得4元和最少可以赢得元和最少可以赢得2元。那元。那么他是不是总是采用这个策略呢？假若是，那么局中么他是不是总是采用这个策略呢？假若是，那么局中人人就会抓住这一点并选择第二个策略（即第就会抓住这一点并选择第二个策略（即第2列），列），因为选择这种策略，他只能输掉因为选择这种策略，他只能输掉2元。然而，局中人元。然而，局中人大概应该开始选择赢得大概应该开始选择赢得3元的第一个策略（即第元的第一个策略（即第1行）。行）。因为，在一个没有鞍点的对策里，局中人应该经常改因为，在一个没有鞍点的对策里，局

37、中人应该经常改变他们的策略，而不应当总是采用同一个策略。这就变他们的策略，而不应当总是采用同一个策略。这就要求随机地选择策略。要求随机地选择策略。7.3.3矩阵对策的混合策略矩阵对策的混合策略实实际际上上，一一个个局局中中人人应应制制订订一一个个使使他他的的对对手手不不能能发发现现的的策策略略的的变变更更模模型型，也也就就是是说说不不能能一一成成不不变变。例例如如，局局中中人人以以40%的的机机会会选选择择第第一一个个策策略略（具具有有概概率率为为0.4），局局中中人人以以80%的的机机会会选选择择第第二二个个策策略略（具具有有概概率率为为0.8），这这就就是是混混合合策策略略的的概概念念。这

38、这种种混混合合策策略略的的概概念念，在在对对策策论论中中是是非非常常重重要要而而有有用用的的。如如果果局局中中人人采采用用的的策策略略是是混混合合的的，那那么么这这种种对对策策称称为为混混合合策策略对策。略对策。7.3.3矩阵对策的混合策略矩阵对策的混合策略假定已经知道了每个局中人选择某一策略假定已经知道了每个局中人选择某一策略的概率。那么，当采用混合策略时，所谓的概率。那么，当采用混合策略时，所谓“对对策的收益策的收益”是多少呢？因为收益是根据一对纯是多少呢？因为收益是根据一对纯策略来确定的，而在混合策略的情况下，我们策略来确定的，而在混合策略的情况下，我们并不知道哪一个策略被采用，所以对于

39、只进行并不知道哪一个策略被采用，所以对于只进行一次的对策来说，是不可能确定收益的。然而，一次的对策来说，是不可能确定收益的。然而，对于进行多次的对策来说，应该知道每个策略对于进行多次的对策来说，应该知道每个策略被采用的概率；所以，可利用这个资料来计算被采用的概率；所以，可利用这个资料来计算对策的期望收益。对策的期望收益。7.3.3矩阵对策的混合策略矩阵对策的混合策略对于例对于例7.4，如果局中人，如果局中人以以50%的机会选的机会选择第一行和第二行，而局中人择第一行和第二行，而局中人分别以分别以30%和和70%的机会选择第一列和第二列，那么对策的的机会选择第一列和第二列，那么对策的期望收益就能

40、计算出来。例如，第一行第一列期望收益就能计算出来。例如，第一行第一列的策略是以（的策略是以（0.5）（0.3）0.15的机会被选的机会被选择，而这种策略有择，而这种策略有1元的收益，于是期望收益元的收益，于是期望收益将是（将是（1）（0.15）0.15（元）。表（元）。表7.1中的中的数据概括了所有这些情况。当这种策略被采用数据概括了所有这些情况。当这种策略被采用时，对策的期望收益就是时，对策的期望收益就是2.5元。元。7.3.3矩阵对策的混合策略矩阵对策的混合策略表表7.1例例7.4分析数据分析数据策策略略收益收益/元元概概率率期望收益期望收益/元元第一行第一行第一列第一列10.150.15

41、第二行第二行第一列第一列40.150.6第一行第一行第二列第二列30.351.05第二行第二行第二列第二列20.350.7合合计计1.002.57.3.3矩阵对策的混合策略矩阵对策的混合策略仔仔细细观观察察上上述述的的推推导导过过程程，可可得得知知如如何何确确定一个没有鞍点对策的期望收益。定一个没有鞍点对策的期望收益。一般而言，先估计选取各个策略可能性的一般而言，先估计选取各个策略可能性的大小来进行对策，也就是用多大概率选取各个大小来进行对策，也就是用多大概率选取各个纯策略，然后计算出期望收益。纯策略，然后计算出期望收益。7.3.3矩阵对策的混合策略矩阵对策的混合策略对对于于例例7.4来来说说

42、，假假定定局局中中人人以以概概率率x1选选取取纯纯策策略略1，以以概概率率x2选选取取纯纯策策略略2，其其中中x1+x2=1；同同样样，局局中中人人也也可可以以制制定定一一个个混混合合策策略略，即即以以概概率率y1选选取取纯纯策策略略1，以以概概率率y2选选取取纯纯策策略略2，其其中中y1+y2=1。这这时时，对对局局中中人人来来说说，其其收收益益期期望为望为7.3.3矩阵对策的混合策略矩阵对策的混合策略7.3.3矩阵对策的混合策略矩阵对策的混合策略由上式可见，当由上式可见，当时，时，就，就是说当局人是说当局人以概率以概率选取纯策略选取纯策略1时，其期时，其期望收益至少是望收益至少是。但并不

43、能保证他的期望值超。但并不能保证他的期望值超过过，这也是因为当局中人，这也是因为当局中人取取时，会时，会控制局中人控制局中人的收益不超过的收益不超过，因此，因此是局中是局中人人I收益的期望值。收益的期望值。7.3.3矩阵对策的混合策略矩阵对策的混合策略同同样样局局中中人人只只有有取取时时，才才能能保保证证他他的的损损失失不不会会多多于于。于于是是对对例例7.4来来说说，局局中中人人以以概概率率选选择择1，以以概概率率选选择择2；局局中中人人以以概概率率选选择择1，以以概概率率选选择择2，这这时时双双方方都都会会得得到到满满意意的的结结果果。从从上上述述分分析析可可以以看看出出，每每个个局局中中

44、人人决决策策时时，不不是是决决定定用用哪哪一一个个纯纯策策略略，而而是是决决定定用用多多大大概概率率选选择择每每一一个个纯纯策策略略，以以这这样样一一种种方方式式选选取取纯纯策策略略参参加加对对策策，是是双双方方的的最最优优策略。策略。7.3.3矩阵对策的混合策略矩阵对策的混合策略将将局局中中人人选选取取1、2的的概概率率，记记成成向向量量的形式，即的形式，即7.3.3矩阵对策的混合策略矩阵对策的混合策略同同样样，对对于于局局中中人人选选取取1、2的的概概率率记记成向量的形式，即成向量的形式，即分别称为局中人分别称为局中人和局中人和局中人的最优混合策略。的最优混合策略。7.3.3矩阵对策的混合

45、策略矩阵对策的混合策略混混合合策策略略是是指指某某一一个个局局中中人人以以一一定定的的概概率率随随机机的的采采用用各各个个策策略略，而而原原来来（例例7.1中中）的的策策略略就就称称为为纯纯策策略略。在在纯纯策策略略的的对对策策中中，一一个个策策略略一一经经采采用用后后便便在在各各局局对对策策中中总总使使用用它它。矩矩阵阵对对策策的的纯纯策策略略可可以以视视为为是是给给这这个个策策略略以以概概率率1的混合策略。的混合策略。7.3.3矩阵对策的混合策略矩阵对策的混合策略下面进一步观察一个下面进一步观察一个2 2矩阵矩阵所确定的两人零和对策。所确定的两人零和对策。7.3.3矩阵对策的混合策略矩阵对

46、策的混合策略假定该矩阵的局中人假定该矩阵的局中人以以x1、x2的概率选的概率选取策略取策略1、2，记成向量的形式记成向量的形式同同样样，局局中中人人以以y1、y2的的概概率率选选取取策策略略1、2，记成向量的形式记成向量的形式7.3.3矩阵对策的混合策略矩阵对策的混合策略这时局中人这时局中人的收益期望为的收益期望为可以证明局中人可以证明局中人的最优策略是的最优策略是7.3.3矩阵对策的混合策略矩阵对策的混合策略其中其中（7-1）这里，这里，同时满足条件同时满足条件x1+x2=1。7.3.3矩阵对策的混合策略矩阵对策的混合策略同样，局中人同样，局中人的最优策略是的最优策略是其中其中（7-2）这里

47、，这里，同时满足条件，同时满足条件y1+y2=1。7.3.3矩阵对策的混合策略矩阵对策的混合策略相应于这些最优策略的期望收益为相应于这些最优策略的期望收益为如果应用最优策略，那么对策的期望收益称为如果应用最优策略，那么对策的期望收益称为对策值对策值V。7.3.3矩阵对策的混合策略矩阵对策的混合策略例例7.5设矩阵对策，局中人设矩阵对策，局中人的收益矩阵为的收益矩阵为试确定最优策略和对策值。试确定最优策略和对策值。7.3.3矩阵对策的混合策略矩阵对策的混合策略解解直接应用式（直接应用式（7-1）得）得那么，局中人那么，局中人的最优策略是以的最优策略是以的概率选择第的概率选择第一行（策略一行（

48、策略1）和以和以的概率选择第二行（策略的概率选择第二行（策略2）。）。7.3.3矩阵对策的混合策略矩阵对策的混合策略同样，应用式（同样，应用式（7-2），可以得到），可以得到那么，局中人那么，局中人的最优策略是以的最优策略是以的概率选择第一的概率选择第一列（策略列（策略1）和以和以的概率选择第二列（策略的概率选择第二列（策略2）。）。7.3.3矩阵对策的混合策略矩阵对策的混合策略对策值对策值V为为7.3.3矩阵对策的混合策略矩阵对策的混合策略即局中人即局中人的最优策略为的最优策略为局中人局中人的最优策略为的最优策略为对策值为对策值为7.3.3矩阵对策的混合策略矩阵对策的混合策略一一般般情情况况

49、下下，在在矩矩阵阵对对策策中中，假假设设局局中中人人的的策策略略为为：以以概概率率采采用用纯纯策策略略i,局局中中人人以以概概率率采采用用纯纯策策略略j；则将选取纯策略集合对应的概率向量则将选取纯策略集合对应的概率向量分别称为局中人分别称为局中人和局中人和局中人的混合策略。的混合策略。7.3.3矩阵对策的混合策略矩阵对策的混合策略这时，局中人这时，局中人的收益期望为的收益期望为7.3.3矩阵对策的混合策略矩阵对策的混合策略局中人局中人仍按仍按maxmin准则选取策略，准则选取策略，即选择混合策略即选择混合策略x(x1，x2，xn)，使为使为最大，即最大，即7.4求解矩阵对策的方法求解矩阵对策的

50、方法7.4.1图解法图解法现现在在讨讨论论矩矩阵阵对对策策的的图图解解法法，这这种种方方法法不不仅仅为为收收益益矩矩阵阵为为2 n和和m 2阶阶的的对对策策问问题题提提供供一一个个直直观观的的解解法法，而而且且通通过过这这种种方方法法的的讨讨论论可可以使我们在几何上理解对策论的思想。以使我们在几何上理解对策论的思想。7.4求解矩阵对策的方法求解矩阵对策的方法下面利用例子来说明如何求出最优的策略。下面利用例子来说明如何求出最优的策略。例例7.6设设有有对对策策矩矩阵阵，其其中中矩矩阵阵中中的的元元素素表示局中人表示局中人的得分，即的得分，即试试求求出出每每个个局局中中人人的的最最优优策策略略，并

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

16 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 电子课件第七

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：电子课件第七章.ppt
链接地址：https://www.taowenge.com/p-70679736.html