文档介绍:序惯博弈与重复博弈
•序惯博弈(sequential game):参与人在前一个决
第6章策点的选择决定随后的子博弈的结构,因此,
重复博弈与合作行为从后一个决策点开始的子博弈不同于从前一个
决策点开始的子博弈,或者说,同样结构的子
张维迎教授博弈只出现一次;
•重复博弈(repeated game):同样结构的博弈重
北京大学光华管理学院复多次,其中的每次博弈被称为“阶段博弈”
(stage game).
重复博弈的三个特征重复博弈和信誉问题
•阶段博弈之间没有物质上的联系,也就•如果博弈不是一次的,而是重复进行的,参与
是说,前一阶段的博弈不改变后一阶段人过去行动的历史是可以观察到的,参与人就
的结构; 可以将自己的选择依赖于其他人之前的行动,
因而有了更多的战略可以选择,均衡结果可能
•所有参与人观察到博弈过去的历史; 与一次博弈大不相同。
•参与人的总支付(报酬)是所有阶段博•重复博弈理论的最大贡献是对人们之间的合作
弈支付的贴现值之和; 行为提供了理性解释;在囚徒困境中,一次博
弈的唯一均衡是不合作(即坦白)。但如果博
弈无限重复,合作就可能出现。
囚徒困境博弈重复博弈与战略空间的扩展
B •假定上属博弈重复多次或无限次;那么,每个参与人
有多个可以选择的战略:仅举几例:
合作不合作• All-D: 不论过去什么发生,总是选择不合作;
合作• All-C: 不论过去什么发生,总是选择合作;
3,3-1,4 •合作-不合作交替进行;
• tit-for-tat: 从合作开始,之后每次选择对方前一阶段的
A 不合作
行动;
4,-1 0,0 • trigger strategies: 从合作开始,一直到有一方不合作,
然后永远选择不合作。
“囚徒困境”的一般表示支付函数
•双方都不合作:
合作不合作
1
V(all-d,all-d) = P +δP +δ 2P +δ 3P +... = P
1−δ
合作 T,TS,R
•对δ的解释:
不合作 R,SP,P –贴现率;
–博弈继续的概率;
–二者的结合;
满足:R>T>P>S; (S+R)<T+T
–一般化:未来收益的重要程度
无名氏定理(Folk Theorem) Tit-for-tat
•在无限次重复博弈中,如果参与人对未•纳什均衡,但不是精炼纳什均衡:
来足够重视(δ足够大),那么,任何
1
程度的合作都可以通过一个特定的子博 V(TFT,TFT) = T +δT +δ 2T +δ 3T +...= T
弈精炼纳什均衡得到。 1−δ
δ
•这里“合作程度”定义为整个博弈中合作 V(All-D,TFT) = T +δP +δ 2P +δ 3P +...= T + P
出现的频率。 1−δ
•50年代就人所共知,但无人有发明权;
Why Not A Perfect NE Axelrod (1984)
•假定A在t=5的时候,没有合作。根据TFT战• Tit-for-tat 是成功率最高的战略
略,在t=6,B应该选择惩罚(不合作)。B会
这样吗?
•如果B相信A采取的是TFT战略,那么:如