返回主站|会员中心|保存桌面|手机浏览

《商场现代化》杂志

杂志等级
    期刊级别:国家级期刊 收录期刊:万方收录(中) 上海图书馆馆藏 国家图书馆馆藏 知网收录(中) 维普收录(中)
本刊往期
站内搜索
 
友情链接
  • 暂无链接
首页 > 杂志论文 > 阿克塞尔罗德合作进化理论的研究
杂志文章正文
阿克塞尔罗德合作进化理论的研究
发布时间:2024-07-08        浏览次数:34        返回列表

■周 昕 李佩亚 王海涛 浙江工商大学经济学院

[摘 要]本文全面地介绍了阿克塞尔罗德的重复博弈实验的内容和结果,并简述了合作策略的鲁棒性、稳定性和初始存活性。“一报还一报”策略在三次实验中都获得了胜利,它表明优秀的策略应该具有善良性、报复性、宽容性和清晰性。实验证明即使在缺少政府权威的人群里,合作与秩序的建立也是可能的,同时,友谊与预见也并非一定需要。

[关键词]合作 囚徒困境 重复博弈

一、引言

合作在社会的发展中起着重要的作用。但是,从最简单的囚徒困境的格局来看,追求自身利益最大化的理性人无法达成合作。于是,我们必须面对这样一个问题:在什么条件下,每个具有自私动机的人能够产生合作?也就是说,人类如何能够跳出“囚徒困境”的陷阱。

从历史上看,人类从来没有间断对这一关系自身福祉的问题的思考。中国古代的儒家思想中就有“忠恕”的观点。“忠”如果表述为忠君,则说明一个强权可以带来平衡并维系一种普遍的合作;“恕”则寄托于人与人之间的宽容。而在西方思想史上,霍布斯(Hobbes)则认为“在没有一个共同的权力使大家慑服的时候,人们便处在了所谓的战争状态之下”。卢梭(Rousseau)尽管声称“自由乃是人性的产物”以及“社会契约理论”,但通过对法国大革命及一系列历史事件的观察,却可以发现,卢梭的真实主张仍然是寄托于“集体理性”这种权威来达到普遍的服从与合作(朱学勤,1991)。

那么,能否从没有集权的利己主义者中产生合作呢?

基于上述的问题意识和博弈论、行为分析的学科背景,阿克塞尔罗德(Axelrod)教授组织了两轮“囚徒困境重复博弈计算机竞赛”,同时又对其复杂性进行了探讨,其结果在社会科学及进化生物学等多个领域产生了具有冲击性的影响。在具体讨论之前,先简单介绍一下阿克塞尔罗德教授。阿克塞尔罗德获芝加哥大学数学学士(1964),耶鲁大学政治学硕士(1966)和博士(1969),现为密歇根大学政治学与公共政策教授,美国科学院院士,因博弈论和复杂性问题的研究而广为人知。

二、合作的出现与建立

(1)囚徒困境

囚徒困境(the Prisoner Dilemma)是我们熟知的经典的博弈论模型,如图1。博弈者A和B只有两种选择,要么合作,要么背叛。

其中,R代表对双方合作的奖励;S代表自己合作而对方背叛时的收益,T代表对方合作而自己背叛的收益,即可认为是背叛的诱惑;P代表双方背叛时的惩罚。

对于变量的赋值要求满足T>R>P>S和R>(T+S)/2,这样可以保证博弈方不能通过轮流背叛来摆脱困境。为了便于计算,阿克塞尔罗德教授将其赋值为T=5,R=3,P=1,S=0。

根据博弈论的知识判断,在一次或者有限次的博弈中,双方都选择背叛是唯一的一个纳什均衡。那么在无限次博弈中呢,是否存在最好的策略在谋求自身利益最大化的同时达到合作?阿克塞尔罗德教授的实验就是要找到这些答案。

(2)两轮实验与生态分析的内容与结果

阿克塞尔罗德教授邀请了博弈论专家提送自认为最好的策略来参加计算机竞赛,每个策略都假设为囚徒困境中的一个博弈方,在每一步中选择合作或者背叛来应对对手以期达到收益的长期最大化。竞赛是循环进行的,每一个参赛程序都与其他程序相遇,同样,他们还要与自己和一个随机的程序相遇。每一局的支付矩阵与图一中的相同,双方合作每人3分,双方背叛没人1分,如果一人背叛一人合作,则背叛者得5分,合作者得0分。具体的计分方式为,在200次对局中,优秀成绩的基准线为600分,相当于总是合作的得分。差劣的基准线为200分,相当于双方从不合作的总得分。可以预计,大部分的得分应该在200到600之间。

第一轮竞赛中,有几个代表性的策略:

1. 一报还一报(Tit for Tat)。这是一个最简单的策略,它第一步选择合作,然后按照对方上一步的选择去做。对方合作,自己也合作;对方背叛,自己就背叛。

2. 唐宁(Downing)。如果对方似乎不对“唐宁”的行为作出反应,“唐宁”将试着背叛;如果对方背叛,“唐宁”就合作。

3. 乔斯(Joss)。这是一个狡诈的策略,它试图偶尔进行背叛而不受惩罚。

结果出乎意料,最简单的“一报还一报”策略赢得了竞赛,它的平均得分为504分。前8名的参赛者都是善良的,其他则都不是,善良者的得分在472到504之间,而不善良的平均得分为401。

作为一个善良的策略,“一报还一报”在与无论是善良或者不善良的策略相遇时,总能产生合作或者付出代价敦促对方合作。它从不主动背叛,而且事实上,它从没有战胜对手,它的成功建立在与对手共同繁荣的基础之上。

为了进一步研究,阿克塞尔罗德教授又组织了第二轮竞赛。而且第二轮的参赛者都得到了第一轮竞赛的详细报告。第二轮竞赛比第一轮更有说服力,因为不同的参赛者从前一轮竞赛中得到了不同的经验教训。

第二轮竞赛中除了“一报还一报”策略,同样有几个典型策略:

1.检验者(Tester)。专门用来欺负软骨头,如果对方报复,它就合作,而且它从不连续两次背叛。

2.镇定者(Tranquilizer)。它首先争取与对方建立合作关系,然后才偶尔尝试是否有便宜可占,而且尽量避免自己的行为太过分。

同时,在第二轮竞赛中也存在如“两报还一报”的更加宽容的策略。

结果,“一报还一报”再次赢得了竞赛。和第一轮一样,善良得到了回报。在前15名的策略中,只有一个不是善良的(位列第八)。在最后15名的策略中只有一个是善良的。一个策略的善良与否和它的竞赛得分的相关性是有意义的,其值为0.58。但是,很多善良的策略在第二轮中受到了如“检验者”和“镇定者”

的有效的剥削,尽管这两个策略自身的表现也并非突出。 从第二轮的实验来看,善良能得到好处,报复同样能得到好处。对付无缘无故的背叛者,就应该采取果断的行动予以报复。

接着,阿克塞尔罗德还借助进化生物学上的方法进行了生态分析,以判断在不大成功的策略消失后,“一报还一报”策略是否还能与当初就很不错的策略很好地相处。首先将最初的策略作为演化的第一代,然后根据每种策略产生的“后代”的数量的多少来判断其成功与否。到了第50代,名列最后1/3的策略实质上已经消失;到了第200代,不太成功的已经差不多完全消失,这意味着依靠“占便宜”为生的“诡计策略”已经没有了剥削的来源;到第1000代时,只剩下那些善良的策略了。这表明如果一个策略的成功是来自与其他成功的策略的相互作用的话,那么这个成功将孕育更多的繁荣。另[来自wwW.lW5u.com]一方面,一个策略的成功依靠占人家便宜而得到,那么,当不成的策略消失后,剥削者也得同样接受淘汰的命运。

通过三次实验,阿克塞尔罗德发现,一个成功的策略应该具有善良性、报复性、宽容性和清晰性。善良性表明它从不首先背叛以防止陷入不必要的麻烦;报复性使得对手在一次背叛后就不敢再背叛,这有助于引导对手进入合作的轨迹;宽容性有助于重新恢复合作,而不是陷入一个你死我活的无休止的争斗;最后,清晰性则有助于使它在三、五步对局内被辨识清楚,让对方很快认清规律,从而引出长期的合作。

三、合作的稳定及初始成活性

前面的两轮竞赛说明了基于回报的合作策略“一报还一报”的鲁棒性(robustness),即什么类型的策略可以在一个由其他采用多种多样的策略构成的环境中繁荣生长。但是,这样的策略一旦建立起来后能否阻止变异的侵入?

首先,阿克塞尔罗德给出了一个定义:如果一个策略不能被其他策略侵入,则这个策略是集体稳定的。如果“一直不合作”的策略与“合作和不合作交叉”的策略也不能入侵“一报还一报”的时候,其他策略就更不可能了,则“一报还一报”就是稳定的。

考虑到当前的利益重于往后的利益,取贴现系数为w。“一报还一报”与它自己相遇时的得益(payoff)为R+wR+w2R+……=R/(1-w)。“一直不合作”与“一报还一报”相遇时的得益为 T+wP(1-w),则当满足(1)式时它不能入侵“一报还一报”。

但是,即使某个策略是鲁棒的和稳定的,那它如何才能在不合作占优势的环境中立足呢?

假设存在几个采用“一报还一报”策略的个体。当他们与“总是背叛”相遇时,第一步得0分,以后每步得1分,累计得9分(取w=0.9,下同)。当他们与同样采取“一报还一报”的个体相遇时,累计得分为30。于是,假设他们与“一报还一报”的个体相遇的概率为M,与“总是背叛”相遇的概率为1-M,平均得分为30M+9(1-M)。当30M+9(1-M)>10时,“一报还一报”就比绝大多数采用的“总是背叛”要好。就是说,采用“一报还一报” 有5%的概率与其他采用“一报还一报”的个体相遇就行。

这就说明了合作的小团体的初始成活性,从生物学的角度可以把最初的小团体解释为具有血缘的关系的组织,接着它们就可以以领地等方式来立足。

四、结论

阿克塞尔罗德的实验得出了这样的结论,即在缺少政府权威的人群里,合作与秩序的建立也是可能的。同时,友谊与预见也并非一定需要,它们只是可以加速合作的进化过程。阿克塞尔罗德一直试图把实验的结果推进到现实研究中,因此他也参加了国家安全和军备控制委员会去近距离地观察国际政治的变化与发展。这些亲身经历使得他在后续的研究过程中设计了一些接近于人类[来自Www.lw5U.com]社会群体的现实情境,通过引入噪声和新的博弈规则,把模型从外生偏好的假设中解放了出来。

现实世界中,我们的确看到了不少这种“一报还一报”策略的身影,在国际贸易的领域,国际政治的交往,以及维系世界和平的核武器的控制(谢林,2006)等方面。但同时,也必须认识到,现实世界中博弈者的实力上并不是像“囚徒困境”中那样均等的,这样弱者的报复就毫无意义,这样的逻辑也许就能引申出一些恐怖主义的问题的现状。所以,尽管阿克塞尔罗德的计算机竞赛已经在揭示人类如何达到合作的机制上取得了重大的进展,但是,对于有着七情六欲的人类和纷繁复杂的社会来说,在进一步揭示其运行机理的过程中还需要不断的深入研究。

参考文献:

[1]托马斯 谢林,冲突的战略 [M],赵华 等译,华夏出版社,2006,1.

[2]霍布斯, 利维坦 [M],黎思复译,商务印书馆1985版,p94.