博弈论经典案例—囚徒困境 转
博弈论经典案例—囚徒困境http://1832.img.pp.sohu.com.cn/images/blog/2008/7/1/10/21/11b81eb7f3f.jpg
博弈论(Game Theory),有时也称为对策论,或者赛局理论,是研究具有斗争或竞争性质现象的理论和方法。
具有竞争或对抗性质的行为成为博弈行为,在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。
博弈论思想古已有之,我国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论专著。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展,正式发展成一门学科则是在20世纪初。
对于博弈论的研究,开始于策墨洛(Zermelo,1913)、波雷尔(Borel,1921)及冯·诺伊曼(von Neumann, 1928),后来由冯·诺伊曼和奥斯卡·摩根斯坦(von Neumann and Morgenstern,1944,1947)首次对其系统化和形式化(参照Myerson,1991)。随后约翰·福布斯·纳什(John Forbes Nash Jr.,1950, 1951)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的的学科。
当代博弈论的“三大家”和“四君子”
"三大家" 包括约翰·福布斯·纳什、约翰·C·海萨尼以及莱因哈德·泽尔腾。这三人同时因为他们对博弈论的突出贡献而获得1994年的瑞典银行经济学奖(也称诺贝尔经济学奖)。
"四君子" 包括罗伯特·J·奥曼、肯·宾摩尔、戴维·克瑞普斯以及阿里尔·鲁宾斯坦。
囚徒困境悖论
(Prisoner's dilemma)
http://1802.img.pp.sohu.com.cn/images/blog/2008/7/1/10/9/11b81ccf66f.jpg
博弈论中一个有名有趣的应用例子是囚徒困境悖论
(Prisoner's dilemma)。
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
经典的囚徒困境如下:
警方逮捕A、B两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监20年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监一年。
[*]若二人都互相检举(互相“背叛”),则二人同样判监5年。
用图表概述如下:http://1822.img.pp.sohu.com.cn/images/blog/2008/7/1/10/26/11b81d92f12.jpg
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默、背叛会让我获释,所以会选择背叛。
[*]若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。
这场博弈的纳什均衡, 显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
(帕累托最优是指在不减少一方福利的情况下,就不可能增加另外一方的福利
;而帕累托改进是指在不减少一方的福利时,通过改变现有的资源配置
而提高另一方的福利。)
{:4_80:}有点看不懂 穷途困境简单化总结就是:把与自己利益关系的人聚集在一起共同抵抗困难。 本站发表读者评论,并不代表我们赞同或者支持读者的观点。我们的立场仅限于传播更多读者感兴趣的信息。 优点乱{:5_257:}
页:
[1]