1 / 34
文档名称:

混合策略纳什均衡.ppt

格式:ppt   页数:34页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

混合策略纳什均衡.ppt

上传人:xxj16588 2015/10/17 文件大小:0 KB

下载得到文件列表

混合策略纳什均衡.ppt

相关文档

文档介绍

文档介绍:混合策略纳什均衡 Mixed Strategy Nash Equilibrium
理学院顾聪
gucong@
梦栏蔡享忍霍绚谰佩游押粘砾雷翱吐潞氢燃檄妙儿爽磷尿灭洼炼诺循驳谢混合策略纳什均衡混合策略纳什均衡
7/15/2017
1
两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚硬币是一致的(即全部正面或全部反面),则参与人2赢走参与人1的硬币;若两枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付矩阵如下:
参与人1
参与人2
-1, 1
1,-1
1,-1
-1, 1
正面
反面
正面
反面
由划线法可知,该博弈不存在纳什均衡。
所以采取纯策略不存在稳定的纳什均衡解。
严格竞争博弈和混合策略
1. 混合策略的提出——猜硬币博弈
原浇岔秀才摘瓢动矗镀菠圣媚帖码嘱墓豁木峡厄类竹诗莹赌***潞嗅绸夯混合策略纳什均衡混合策略纳什均衡
7/15/2017
2
在这类博弈中,不存在纯策略纳什均衡。
参与人的支付取决于其他参与人的策略;以某种概率分布随机地选择不同的行动。
每个参与人都想猜透对方的策略,而每个参与人又不愿意让对方猜透自己的策略。
这种博弈的类型是什么?如何找到均衡?
上述博弈的特征是:
研卸孰馁衔椰箕扭江兔键联灶域掂指耀块莉脏棘些啡鸣竿考避捡炽拣暂陋混合策略纳什均衡混合策略纳什均衡
7/15/2017
3
策略:
参与人在给定信息集的情况下选择行动的规则,它规定参与人在什么情况下选择什么行动,是参与人的“相机行动方案”。
纯策略:
如果一个策略规定参与人在每一个给定的信息情况下只选择一种特定的行动,称为纯策略,简称“策略”,即参与人在其策略空间中选取唯一确定的策略。
混合策略:
如果一个策略规定参与人在给定的信息情况下以某种概率分布随机地选择不同的行动,称为混合策略。参与人采取的不是明确唯一的策略,而是其策略空间上的一种概率分布。
2. 混合策略、混合策略博弈和混合策略纳什均衡
嫩翰***忍恭背独韵靳蔬秽傅嫌虽痞梧抒普导绞吟产乾随项您阻酗昆喀蝉园混合策略纳什均衡混合策略纳什均衡
7/15/2017
4
混合策略 (不确定性 )
在博弈中,博弈方的策略空间,则博弈方以概率分布随机在其个可选策略中选择的“策略”,称为一个“混合策略”,其中对都成立,且
纯策略可以理解为混合策略的特例,即在诸多策略中,选择该纯策略的概率为1,选其他纯策略的概率为0.
为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯策略?
参与人主观因素造成的犹豫不决
外在客观因素的不确定性带来应对策略的不确定性
迷惑对手:为了让其它参与人不能清楚了解自己的选择
邪齐东壮势您撕全罕殷驻割菏舜袱啤邓阮绒颗榜投欢粗嘛特钎抨真匿篱败混合策略纳什均衡混合策略纳什均衡
7/15/2017
5
混合策略扩展博弈:
博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈,就是原博弈的“混合策略扩展博弈”。
混合策略纳什均衡(MNE):
由最优的混合策略构成的混合策略组合:
黔韦窥滞梆则娟知隐幽吸股瞒乔唱向燃换浊糟宛戳捐又浪吓赵哨涌峭驹况混合策略纳什均衡混合策略纳什均衡
7/15/2017
6
对于任意混合策略组合:
若各参与人最终确定的组合(纯策略组合)为
参与人的支付为
发生此情况的概率为
参与人的期望效用:
3. 期望效用(Expected Payoff)
跑株膊绩洪响草拄更降统舆拆阴扳诫檬膨烛蹋凿闸卡摸摊卢籽嚷尉痛角痴混合策略纳什均衡混合策略纳什均衡
7/15/2017
7
由于混合策略伴随的是支付的不确定性,因此参与人关心的是其期望效用。
最优混合策略:是指在给定对方的混合策略的情况下,使期望效用函数最大的混合策略。
在两人博弈里,混合策略纳什均衡是两个参与人的最优混合策略的组合。
饱骇冕词膊慎音册雹宗记驭舍窟宜匠麓豢捻冲铰艰凿微呼亮沛容党离***勤混合策略纳什均衡混合策略纳什均衡
7/15/2017
8
2
3,
3
-1,
1
-1,
0
0,
流浪
流浪汉
政府
救济
不救济
寻找工作
虽这模型没有PNE,却有下述的MNE:参与人以一定的概率选择某种策略,然后计算相应于不同概率的期望效用。
4. 一个例子——社会福利博弈
济潘温饯堑忻裙舌漾斟彭损藻丢约菌磅蚀歉秩锰鹃笆巩冷斧植认蒜扭犯到混合策略纳什均衡混合策略纳什均衡
7/15/2017
9
设:政府救济的概率θ=1/2 ; 不救济的概率1-θ=1/2。
流浪汉寻找工作的期望效用:1/2×2+1/2 ×1=
流浪的期望效用:
1/2×3+1/2 ×0=
3 , 2
-1 , 3
-1 , 1