前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇经典博弈问题范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
引言
一、两个简单的例子
1.1 老鹰(Hawk)与鸽子(Dove)博弈
1.2 系统选择博弈
二、进化博弈理论的产生及其发展
2.1 理性的由来及其缺陷
2.2 心理学研究成果及有限理性概念的提出
2.3 进化博弈理论的产生及其发展
三、进化博弈理论的基本内容
3.1 进化博弈理论基本模型分类
3.2 进化博弈理论基本均衡概念-----进化稳定策略
3.3 进化博弈理论基本动态概念----模仿者动态
四、进化博弈理论的应用
五、传统方法的缺陷及进化博弈理论研究方法的现实性
5.1 新古典经济学均衡分析法的缺陷
5.3 进化博弈理论局部动态分析方法的现实性
5.3.1 局部动态分析法的均衡观
5.3.2 局部动态法的时间观
5.3.3 局部动态法的均衡选择观
5.3.4 局部动态法的特殊性
六、结论
参考文献
摘要
本文从两个简单的博弈例子出发,以通俗的语言全面介绍了进化博弈理论的理性基础及其形成、发展、基本内容和部分应用,在此基础上文章进一步比较了新古典经济学、经典博弈理论 ①及进化博弈理论在研究方法上的不同之处,并特别强调了进化博弈理论局部动态法的均衡观、时间观、均衡选择观及方法上的特殊性。进化博弈理论的局部动态分析方法既是经济学研究方法的一次创新又是经济学直面现实的有力武器。
关键词:沉默互动;社会互动;进化稳定策略;模仿者动态;均衡分析法;局部动态法
引言
为什么同样一项经济制度在某个地方对经济发展有积极的推动作用而在另一个地方对经济发展却起着消极的阻碍作用?为什么能够有效降低交易费用的中介在一些地方会出现而在另一些地方却不能出现?为什么同样的管理方法在一个地方显示出高效率而在另一地方却不具有效率?诸如此类的问题,新古典经济学利用均衡分析法都无法给出令人满意的答案。均衡分析法的最大缺陷是把经济系统中参与人看作是互不联系的单个人(仅研究单个生产者或消费者的行为),不能把其所考察的问题放在一定的环境中去,该方法完全忽略了制度环境、社会环境及人文环境等对参与人行为的影响,单纯考察某个条件与结果之间的一一对应关系。因而,无法对现实中出现的诸多现象给予合理的解释。博弈理论尽管把参与人之间行为互动关系纳入到了模型之中,但依然没能跳出新古典均衡分析法的基本框架,并且由于其对理性赋予更强的假定,使得该理论更加脱离现实。进化博弈理论则一反常规,从一种全新的视角来考察经济及社会问题,它所提供的局部动态研究方法是从更现实的社会人出发,把其所考察的问题都置于一定的环境中进行更全面的分析,因而,其结论更接近于现实且具有较强的说服力。进化博弈理论属于经济学的前沿理论,该理论从其理论框架建立到现在仅仅只有近三十年的历史,但其在经济学、社会学、生态学等领域却得到了广泛的应用,近年来已经成为主流经济的研究方法之一。在我国由于历史原因,对经济学的研究起步较晚,特别对进化博弈这样的前沿理论更是知者甚少,本文的主要目的是以通俗的语言介绍进化博弈理论的相关内容及其应用,让读者对该理论有一个全面的了解。
本文的结构如下:第一部分给出进化博弈理论的两个典型的例子;第二部分对进化博弈理论的产生及其发展进行阐述;第三部分对进化博弈理论的基本内容进行简要的介绍;第四部分概述进化博弈理论的有关应用;第五部分论述传统的经济学研究方法的缺陷及进化博弈理论研究方法的现实性;第六部分对进化博弈理论的发展及理论前景进行简要的说明。
一、两个简单的例子
为了下文说明的方便,本文先给出进化博弈理论中两个具有代表性的例子,在此基础上再进一步给出该理论的基本内容及其研究方法的基本特点。
1.1 老鹰(Hawk)与鸽子(Dove)博弈
假定一个生态环境中有老鹰与鸽子两种动物,它们为了生存需要争夺有限的资源(如食物或生存空间等)而竞争。老鹰一般比较凶悍,必要时在斗争中直到重伤。鸽子一般比较温驯,竞争时在强敌面前常常退缩。竞争中获胜者得到了生存资源就可以更好地繁衍后代,重伤者则不利于其后代生长,即会减少其后代的数量。如果群体中老鹰与鸽子相遇并竞争资源,那么老鹰就会轻而易举地获得全部资源,而鸽子由于害怕强敌退出争夺,从而不能获得任何资源(当然不会受伤);如果群体中两个鸽子相遇并竞争生存资源,由于它们均胆小怕事不愿意战斗,结果平分资源;如果群体中两个老鹰相遇并竞争有限的生存资源,由于它们都非常勇猛而相互残杀,直到双方受到重伤而精疲力竭,结果虽然双方都获得部分生存资源但损失惨重,入不敷出。假定竞争中得到全部资源为50个单位(该数字也可以表示为生物的适应度、繁殖成活率或后代数量);得不到资源则表示其适应度为零;双方重伤则用来表示。于是老鹰、鸽子两种动物进行的资源竞争可以用一个对称博弈来描述,博弈的支付矩阵如下:
操作依赖于该群体的初始状态。如果初始时,该宿舍有多于4人使用操作系统,那么该宿舍所有学生最终都会使用该操作系统;否则所有学生最终会使用操作系统。
二、进化博弈理论的产生及其发展
进化博弈理论是经济学研究方法的一次创新,该理论从否定传统理论赖以成立的基础----理性人假定出发而建立起来一个新的分析框架,它结合了生态学、社会学、心理学及经济学的最新发展成果,从有限理性的社会人出发来分析参与人的资源配置行为。
2.1 理性的由来及其缺陷
经济学自从古希腊哲学中分离出来并成为一门系统的学问,是在亚当•斯密1776年发表《国富论》之后。以斯密为代表的古典经济学关注的核心是资源的稀缺程度如何能被人类经济活动所减少,他们关注的重点不是资源配置问题而是国民财富的增长及国别差异的原因。1890年马歇尔《经济学原理》的出版,标志着新古典经济学的成形,马歇尔之后,新古典经济学关注的核心逐渐转向在给定稀缺程度下资源的最优配置问题。稀缺资源的配置是需要人的参与,也就是说经济学研究的问题演变为关于经济中参与人如何把稀缺的资源配置到效率最高地方去的问题,强调个体行为在资源配置中的作用。经济中参与人的决策行为是通过高度复杂的思维活动作出的,为了更好地从微观个体行为来解释资源配置问题,新古典经济学借用了哲学中“理性”概念对复杂的人类行为过程进行了抽象的假定。然而,理性一词用于经济学时却对其含义的理解与哲学中对其含义的理解已经有了明显的区别。哲学中的理性是指人类所特有的用以探索自然和社会奥秘的认知能力,当代伟大的哲学家康德在其著作《纯理性批判》一书中指出,人类理性即认知能力并不是万能的,而是有限的。经济学中的理性则是指一种行为方式,具体地说即是经济中参与人对其所处世界的各种状态及不同状态对自己支付的意义都具有完全信息,并且在既定的条件下每个参与人都具有选择使自己获得最大效用或最大利润的能力。
经济学家认为理性是至高无上的,人们凭借理性就可以完全地认识自然与社会。经济学中对理性的含义经过这样的处理以后,就使得经济学能够充分运用数学理论发展的成果来进行分析。为了应用数学工具并更好地处理经济问题,传统经济学家们从偏好,信念及理性三个方面来界定经济主体的特征,其中信念就是个体认为不同结果将会出现的基于个体所获信息之上的条件概率。偏好则是基于不同结果的信念之上的序。理性是根据上述偏好及信念,个体获得最优决策的程度以及个体根据已经获得的信息来修正其信念的能力。这三个特征使得经济学研究的对象由现实人转向了理想化的对象,经济学越来越偏离了现实。
由理性概念而引致的缺陷首先表现在理性人具有无限的信息收集及处理能力的均衡观,认为经济系统常常处于均衡状态,非均衡只是一种暂时的现象,当受到外生因素扰动而使系统偏离均衡状态时,系统会以线性的方式回归均衡,这种机械式线性反应的均衡观来源于牛顿力学,由此而得出的比较静态分析法完全忽视了系统受到非线性扰动及连续因素的影响。其次表现在由全知全能的理性人而引致的均衡跳跃观,认为经济系统达到均衡或者从一个均衡到另一个均衡是不需要时间的,认为时间是可逆的,即经济变量与物理学的变量一样,只要条件相同系统的均衡也就相同,市场和经济对于过去的记忆是短暂的或者是没有的。这种应用经典牛顿力学分析方法来分析高度复杂的参与人经济行为使得其预测效果大打折扣。最后表现在其比较静态分析方法上,传统经济学的最基本分析方法----比较静态分析法赖以成立的基础是假定经济系统只受到外界一个个相互独立、互不重叠的冲击的影响,或者当一个因素的影响消除之后,下一因素才开始对经济系统产生影响。我们知道现实世界是普遍联系的,各种因素之间不可能相互独立,系统中任何一个因素的变动都会引起其他因素的变动,这些因素之间相互作用的时间可能很短也可能很长,各因素对最终目标会产生不同程度的影响。比较静态法却只见局部不见整体,企图通过比较不同均衡来找出系统达到均衡的条件,因此得不出符合现实的结论,其研究方法上的局限性大大降低了其理论的现实意义。
2.2 心理学研究成果及有限理性概念的提出
随着经济学家对理论研究的深入,特别近来实验经济学的迅速发展,主流经济学赖以成立的基础“理性人”假定及其基本的比较静态均衡分析法越来越受到了人们的质疑。相继出现了许多其他的研究方法,其中在经济学中影响最大的就是心理学的研究方法。心理学应用于经济分析有着非常曲折的历史。事实上,斯密、马歇尔、庇古、费雪尔和凯恩斯等一批古典经济学家都仔细地分析了偏好和信念的心理学基础。但从1940’s开始,一方面受到萨缪尔森及希克斯等新一派基于理性假定经济学家的影响,心理分析在经济学中的地位慢慢地被降低了;另一方面理性模型也遇到了许多如Allais(1952)悖论等难以给出合理解释的经济现象。于是1960’s开始,许多微观经济学家再次运用心理学研究方法来解释现实中的异常现象,宏观经济学也把经验法则和适应性预期纳入到其模型之中,正是在这一时期心理学家Simon(1957)提出了其著名的“有限理性”概念。然而,1970’s初随着Robert Lucas等人提出的理性预期理论、Selten、Kreps等倡导的强调正确信念及贝叶斯修正的博弈理论及Stiglitz、Spence等研究的信息经济学理论相继成为主流经济学的一部分,经济学界再一次掀起了排除渗透在经济学领域中心理学研究方法的热潮,心理的研究方法在经济学界几乎无立足之地,严格理性假定席卷整个经济学界。行为经济学的发起者Amos Tversky在经济学界根本找不到志趣相投者。1970’s末期,随着心理学家Amos Tversky与Kahneman合作发表了一系列应用心理分析方法来研究经济学问题的原创性文章,如1974年他们在Science发表的Judgment under uncertainty: Heuristics and biases,1979年他们合作在Econometrica发表Prospect theory: An analysis of decision under risk,慢慢消除了经济学界中存在的对心理学分析方法的偏见,此后应用心理分析方法来解释经济现象的文献见诸于各种经济学期刊之中,心理分析方法也渐渐地成为了主流经济学的研究方法之一。
进入1980’s,随着经典博弈理论、生态理论及心理学理论研究的深入发展,特别是心理学家西蒙把其在心理学领域研究的成果直接应用经济分析并因此获得了诺贝尔经济学奖,极大地激励着经济及社会学家从现实人行为出发来解释经济及社会现象。心理学研究表明人类认知过程首先表现为人们通过一种“感知秩序”进行学习活动,并形成分散的非同质的知识,其中“感知秩序”是指人的理解力、知识和人类行动之间的关系;其次表现为个体通过学习所达到的理性程度的有限性,组织学习个体学习行为的整合而形成的多层次“理性结构”,个体理性便会在一个累积性的组织或制度环境中得到塑造和提高并发挥作用,在这个过程中,个体学习行为总会受到组织、习惯和文化等制度性的限制和影响。西蒙认为人类并不是完全理性而是有限理性的,因为人类认知能力有着心理的临界极限,人类进行推理活动需要消耗大量的能量,推理也是一种相对稀缺的资源,另外决策者决策时需要大量的信息,而这些信息是不可能免费获得的,获得决策所需要的信息是需要大量成本的。考虑到参与人有限的知识水平、有限的推理能力、有限的信息收集及处理能力,经济主体的决策行为并非总是最大化的结果,其决策受到参与人所处的社会环境、过去的经验、日常惯例及其他人相似情形下的行为选择等因素的影响。在有限理性条件下,由于参与人无法免费获得决策所需要的全部信息,并且参与人即使获得了决策所需要的全部信息也可能由于有限的计算能力而无法得出最优决策。因此,参与人只能采取模仿、学习等简单的直观决策方法或一些固定的常规来进行决策。人类的决策结果受到复杂的认知过程的影响,不同的人或者同一个人在不同时间即使给出相同的条件也可能会得出不同的决策结果,即决策结果受到认知过程的路径影响。
2002年诺贝尔经济学奖得主之一心理学家丹尼尔·卡内曼(Daniel Kahneman)将源于心理学的综合洞察力应用于研究在不确定条件下参与人的决策过程及行为结果并展示了人为决策是如何异于标准经济理论预测的结果。在1979年,他与有着深厚数学及哲学背景的心理学家特韦尔斯基(Tversky)提出了震撼经济学界的“前景理论”(Prospect theory)。他们的发现激励了新一代经济学研究人员运用认知心理学来研究经济学,使经济学的理论更加丰富。一个理论获得诺贝尔经济学奖不仅是对获奖者过去成就的肯定,更主要说明了获奖理论将会成为主流经济学未来的发展方向。2002年诺贝尔经济学奖授予给丹尼尔·卡内曼标志着经济学的研究对象从传统的“经济人”转向现实的“社会人”,经济学直面现实。如何从有限理性出发来研究参与人的行为,许多经济学家对之进行了广泛而深入的研究并提出了许多理论,在这些理论之中影响最大且受到了经济学界普遍接受的理论即进化博弈理论。
2.3 进化博弈理论的产生及其发展
进化博弈理论源于对生态现象的解释,1960年代生态学家Lewontin就开始运用进化博弈理论的思想来研究生态问题。生态学家从动植物进化的研究中发现,动植物进化结果在多数情况下都可以用博弈论的纳什均衡概念来解释。然而,博弈论是研究完全理性的人类互动行为时提出来的,为什么能够解释根本无理性可言的动植物的进化现象呢?我们知道动植物的进化遵循达尔文“优胜劣汰”生物进化理论,生态演化的结果却能够利用博弈理论来给予合理的解释,这种巧合意味着我们可以去掉经典博弈理论中理性人假定的要求。另外,1960年代生态学理论研究取得突破性的进展,非合作博弈理论研究成果也不断涌现并日趋成熟,进化博弈理论具备了产生的现实及理论基础。
进化博弈理论应用于研究经济学问题在学术界曾经引起极大的争议,争论的焦点在于理性假定。当时由于理性概念在经济学界已经根深蒂固。多数人认为利用研究生态演化的进化博弈理论来研究参与人的行为是不合适的。因为动植物行为是完全由其基因所决定的,而经济问题则涉及到具有逻辑思维及学习、模仿能力的理性参与人的行为,因此,借助于进化博弈理论来研究远比动植物复杂的人类行为显然是行不通的。但随着心理学研究的发展及有限理性概念的提出,越来越多的经济学家应用进化博弈理论来解释经济现象并获得了巨大的成功,利用进化博弈理论来研究并解释经济现象的文献大量出现于各种经济学期刊了。尽管如此,利用进化博弈理论来解释经济现象还是需要对该理论的基本分析框架作出相应的调整。如果去掉参与人偏好、信念及理性假定等条件,那么参与人是如何作出决策的呢?进化博弈理论在处理有限理性参与人决策问题时,常常假定参与人遵循某种比贝叶斯法则更简单的行为规则,这种行为规则应该告诉如何采取行动及如何根据经验来改变行为选择,这样参与人只要知道什么会发生,而不必知道为什么会发生。
1970年代,生态学家Maynard Smith and Price(1973)结合生物进化论与经典博弈理论在研究生态演化现象的基础上而提出了进化博弈理论的基本均衡概念----进化稳定策略(Evolutionarily stable stragegy ESS),目前学术界普遍认为进化稳定策略概念的提出标志着进化博弈理论的诞生。此后,生态学家Taylor and Jonker(1978)在考察生态演化现象时首次提出了进化博弈理论的基本动态概念----模仿者动态(Replicator Dynamics)。至此,进化博弈理论有了明确的研究目标。
1980年代以后,随着新古典经济学及博弈论固有的缺陷逐渐被人们所认识,有限理性概念得到了学术界的普遍认可,加之进化博弈理论在解释生态现象时获得的巨大成功,特别是经济学界于1992年在康奈尔大学召开的进化博弈理论学术会议,正式确立了该理论的学术地位。一大批如Larry Sameulson、Ken Binmore、Peyton Young等经济学家从不同的角度对传统的进化博弈理论分析框架进行拓展,并使之逐渐转化为描述经济行为的理论。目前,进化博弈理论的基本理论体系虽然已经形成但还是相当粗糙。因此,它仍然处于不断发展和完善的阶段,但该理论提供了比传统理论更具现实性且能够更准确地解释并预测参与人行为的研究方法,从而得到了越来越多的经济学家、社会学家、生态学家的重视,我们有理由相信该理论成为主流经济学的一部分已经为时不远。
三、进化博弈理论的基本内容
进化博弈理论结合经典博弈理论及生态理论研究成果,并以有限理性的参与人群体为研究对象,利用动态分析方法把影响参与人行为的各种因素纳入其模型之中,并以系统论的观点来考察群体行为的演化趋势。
进化生态学与博弈论的结合至少已有三十几年的历史,初看起来使人觉得奇怪,因为博弈论常常假定参与人是完全理性的,而基因和其他的演化载体常常被假定是以一种完全机械的方式运动。然而一旦用参与人群体来代替博弈论中的参与者个人,用群体中选择不同纯策略的个体占群体中个体总数的百分比来代替博弈论中的混合策略,那么这两种理论就达到了形式上的统一。尽管这两种理论在形式上达到了统一,但进化博弈理论与经典博弈理论还是存在本质区别。在进化博弈理论中每个参与人都是随机地从群体中抽取并进行重复、匿名博弈,他们没有特定的博弈对手 ④。在这种情况下,参与人既可以通过自己的经验直接获得决策信息,也可以通过观察在相似环境中其他参与人的决策并模仿而间接地获得决策信息,还可以通过观察博弈的历史而从群体分布中获得决策信息。对参与人来说,观察群体行为的历史即估算群体分布是非常重要的,首先,群体分布包含了对手如何选择策略的信息。其次,通过观察群体分布也有助于参与人知道什么是好的策略什么是不好的策略。参与人常常会模仿好的策略⑤ 而不好的策略则会在进化过程中淘汰,模仿是学习过程中的一个重要组成部分,成功的行为不仅以说教的形式传递下来,而且也容易被模仿。参与人由于受到理性的约束而其行为是幼稚的(Naive),其决策不是通过迅速的最优化计算得到,而是需要经历一个适应性的调整过程,在此过程中参与人会受到其所处环境中各种确定性或随机性因素影响。因此,系统均衡是达到均衡过程的函数,要更准确地描述参与人行为就必须考察经济系统的动态调整过程,动态均衡概念及动态模型在进化博弈理论中占有相当重要的地位。
3.1 进化博弈理论基本模型分类
进化博弈理论的基本模型按其所考察的群体数目可分为单群体模型(Monomorphic Population Model)与多群体模型(Polymorphic Populations Model)。单群体模型直接来源生态学的研究,在研究生态现象时,生态学家常常把同一个生态环境中所有种群看作一个大群体,由于生物的行为是由其基因唯一确定的,因而可以把生态环境中每一个种群都程式化为一个特定的纯策略。经过这样处理以后,整个群体就相当于一个选择不同纯策略(纯策略集的数目就相当于群体中的种群数)的个体。群体中随机抽取的个体两两进行的都是对称博弈,有些文献中称这类模型为对称模型(Symmetry model)。严格地说,单群体时个体进行的并不是真正意义上的博弈,博弈是在个体与群体分布所代表的虚拟参与人之间进行。如第一部分的老鹰----鸽子博弈,该生态环境中有两个种群老鹰与鸽子,它们代表两个不同的纯策略,用进化方法进行处理时认为该生态群体中每个个体都有两种可供选择策略即老鹰策略与鸽子策略,此时的博弈并不是在随机抽取的两个个体之间进行,而是每个个体都观察群体状态(选择老鹰策略与鸽子策略个体数在群体中所占的比例),给定此状态它就可以计算自己选择不同策略所得的期望支付(严格地说这并不是期望支付,但为了说明的方便本文仍然借用该概念)进而确定选择哪一个策略不选择哪一个策略,对物种而言这就意味着种群数量的增加或减少。
多群体模型是由Selten (1980)首次提出并进行研究的,他在传统单群体生态进化模型中通过引入角色限制行为(Role Conditioned Behavior)而把对称模型变为了非对称模型。在非对称博弈个体之间有角色区分,此时可以从大群体中区分出不同的小群体,群体中随机抽取的个体之间进行真正意义上的两两配对重复、匿名非对称博弈,有时又称之为非对称模型(Asymmetry model)。如果我们把系统选择博弈中的宿舍变成学校(整个学校相当于一个大群体)而把十个人变成十个班(每一个班看成是一个小群体,且同一班的同学无角色区分即与单群体情形一样),每个班的学生都有多种选择,此时该校学生所进行的计算机系统选择博弈就是非对称博弈。非对称博弈模型并不是对单群体博弈模型的简单改进,由单群体到多群体涉及到一系列的如均衡及稳定性等问题的变化。Selten(1980)证明了“在多群体博弈中进化稳定均衡都是严格纳什均衡⑥ ”的结论,这就说明在多群体博弈中,传统的进化稳定均衡概念就显示出其局限性了。同时,在模仿者动态下,同一博弈在单群体与多群体时也会有不同的进化稳定均衡。
按照群体在演化过程中所受到的影响因素是确定性的还是随机性的,进化博弈模型可分为确定性动态模型和随机性动态模型。确定性模型一般比较简单并且能够较好地描述系统的演化趋势,因而,理论界对之进行较多的研究。随机性模型需要考虑许多随机因素对动态系统的影响,一般比较复杂,但该类模型却能够更准确地描述系统的行为,近年来理论界对之也进行广泛的探讨[对随机动态的详细讨论可以参阅这方面的经典文献Foster, D., and P. Young.(1990), Fudenberg, D. and C. Harris (1992), Kandori, M. G. Mailath, and R. Rob(1993)]。
3.2 进化博弈理论基本均衡概念-----进化稳定策略
进化博弈理论的基本均衡概念---进化稳定策略⑦ [文献2、5有详细介绍]是由Maynard Smith and Price(1973)及Maynard Smith(1974)在研究生态演化问题时提出来的,其直观思想是:如果一个群体(原群体)的行为模式能够消除任何小的突变群体,那么这种行为模式一定能够获得比突变群体高的支付,随着时间的演化突变者群体最后会从原群体中消失,原群体所选择的策略就是进化稳定策略。系统选择进化稳定策略时所处的状态即是进化稳定状态,此时的均衡就是进化稳定均衡。下面给出Maynard Smith and Price(1973)对进化稳定策略的定义(此后本文称之为原初定义),用符号表示如下:
说是进化稳定策略,如果,存在一个<,不等式对任意都成立。其中A是群体中个体博弈时的支付矩阵;y表示突变策略;是一个与突变策略y有关的常数,称之为侵入边界(Invasion Barriers);表示选择进化稳定策略群体与选择突变策略群体所组成的混合群体。实际上相当于该吸引子对应吸引域的半径,也就说进化稳定策略考察的是系统落于该均衡的吸引域范围之内的动态性质,而落于吸引域范围之外是不考虑的,所以说它只能够描述系统的局部动态性质。至于系统是如何进入吸引域的原初的进化稳定策略定义所没有给予足够的重视。
要准确地理解进化稳定策略概念就必须正确理解突变者和侵入边界的含义。我们可借助于前面的两个例子来理解。在老鹰、鸽子博弈中,当该生态环境中只有老鹰(或只有鸽子)时,这时系统已经处于均衡状态,但它们都是不稳定的均衡,因为这两个均衡都可以被突变者侵入。开始时,假定该生态环境处于老鹰均衡,如果由于某种原因而进入鸽子时,那么随着时间的演化,整个生态系统最终就会稳定于一半为老鹰一半为鸽子的状态,即混合策略纳什均衡是进化稳定的。这说明该博弈中两个纯策略纳什均衡是不稳定的。因为,当系统处于纯策略所表示的状态时,只要存在突变者系统就会离开这种状态,所以它们都不是进化稳定的。相反混合策略纳什均衡却不一样,即当系统处于一半是老鹰一半是鸽子时,如果由于某种因素使得系统偏离该状态,那么系统会自动恢复到原来状态。另外,在系统选择博弈中突变者、侵入边界就更为明显,所谓突变者即是指选择进化稳定策略以外的策略者,且侵入边界与不同的均衡有关。该博弈有两个纯策略纳什均衡和一个混合策略纳什均衡(),前一个均衡所对应的侵入边界就是,也就是说如果选择操作系统的学生数占群体总数的比例大于(即学生数大于4),那么选择操作系统的突变者就不可能侵入到该群体中,如果选择操作系统的学生数占群体总的比例小于(即学生数小于4),那么选择操作系统的突变者就会侵入到该群体中而原来选择操作系统的学生会转而学习操作系统。
最初进化稳定策略定义有比较苛刻的条件限制,如单群体、群体中个体数目无限大、系统只受到不连续且互不重叠冲击的影响等。这些条件大大地限制该定义的应用,随着学术界对进化博弈理论研究的深入,许多理论家们从不同的角度对最初定义进行了拓展,如Selten 1980首次给出了适应于描述多群体均衡的定义;Schaffer 1988首次给出了适应于描述有限规模群体的均衡定义;Foster and Young(1990)首次给出了适应于描述连续随机系统的均衡定义等等(有关对进化稳定策略进行拓展的讨论见文献[5])。最初定义是在解释生态现象时提出来的,如果进行经济分析,时需要进行相应的改变。在分析生态现象时,把每一个种群的行为都程式化为一个策略,因此进化的结果将会是突变种群的消失(消失的原因在于生物的行为是由其遗传基因唯一确定的)。如果用于经济分析,那么进化的结果将是那些选择突变策略的个体最终会改变策略而选择进化稳定策略(因为人类可以通过学习、模仿等来改变自己所选择的策略)。
经典博弈理论中的核心概念纳什均衡即是指一种策略组合,在该策略组合下任何个人单独偏离都不会变得比不偏离好。纳什均衡是一个静态概念,不能描述系统的动态性质,用数学语言来说它是动态系统的不动点,纳什的成功就是在于他应用拓扑学的不动点定理证明了纳什均衡的存在性。进化稳定策略必定是纳什均衡策略,它是纳什均衡的精练,文献[3]对此有详细的介绍。在进化稳定策略的定义中引入突变者及侵入边界使之能够更好地描述系统的局部动态性质。第一部分的两个例子中,按照纳什均衡的概念是无法得知两个系统最终会选择哪一个均衡,但利用进化稳定策略却可以说明系统最终会稳定哪一个均衡并可以分析系统达到不同均衡的条件,在某种程度上,较好地解决了多重均衡选择问题。
3.3 进化博弈理论基本动态概念----模仿者动态
进化博弈理论来源于生态学的研究,该理论基本上从“优胜劣汰”的进化论观点来看待群体行为的调整过程。一般的进化过程都包括两个可能的行为演化机制:选择机制(Selection Mechanism)和突变机制(Mutation mechanism)。选择机制是指本期中能够获得较高支付的策略,在下期被更多参与者选择;突变是指参与者以随机(无目的性)的方式选择策略,因此突变策略可能获得较高支付也可能获得较低支付,突变一般很少发生。新的突变也必须经过选择,并且只有获得较高支付的策略才能生存(Survive)下来。进化博弈理论需要解决的关键问题就是如何描述群体行为的这种选择机制和突变机制。博弈理论家对群体行为调整过程进行了广泛而深入的研究,由于他们考虑问题的角度不同,对群体行为调整过程的研究重点也就不同,因而提出了不同的动态模型,如Weibull(1995) 提出的模仿动态(Imitation Dynamics)模型,认为人们常常模仿其他人的行为尤其是能够产生较高支付的行为;Börgers and Sarin(1995,1997)等提出并应用强化动态(Reinforcement Dynamics)来研究现实中参与人的学习过程;Skyrms (1986) 引入了意向动态(Deliberational Dynamics)模型对哲学中的理性问题进行了讨论;Swinkels(1993)提出了近似调整动态(Myopic Adjustment Dynamics);Borgers and Sarin(1995)提出了刺激—反应动态(Stimulus-Response Dynamics)等等。到目前为止,在进化博弈理论中应用得最多的还是由Taylor and Jonker(1978)在对生态现象进行解释时首次提出描述单群体动态调整过程的模仿者动态(Replicator Dynamics)。所谓模仿者动态是指使用某一策略人数的增长率等于使用该策略时所得的支付与平均支付之差。下面就给出Taylor and Jonker(1978)提出的模仿者动态的微分形式:
化的而且因素之间的互动作用也是需要时间的。因此,均衡只是一种暂时现象或者在多数情况下,系统根本不可能达到的现象,要更准确地考察参与人的行为就必须运用系统论的观点,把行为互动性、因素互动性及时间因素纳入到其模型之中。
5.2 经典博弈理论的策略互动分析法及其缺陷
考虑到新古典经济学没有把参与人行为之间的互动关系纳入到其模型之中,经典博弈理论则在理性人假定的基础上把参与人行为的互动关系纳入到其模型之中进一步考察了参与人的决策问题。在我国,对人类互动行为的研究至少可以追溯到三国时期田赛马的故事,但作为一种正式理论提出来,一般认为是始于冯·诺意曼和摩根斯藤(Von Neumann and O. Morgenstern, 1944)出版的《博弈论与经济行为》一书,直到纳什(Nash 1950)在研究非合作博弈的基础上提出著名的纳什均衡(Nash Equilibrium)概念才使得博弈论成为一门完整的理论。经过近五十年的发展,终于在1994年,三位杰出的博弈论大师:纳什(John F. Nash)、泽尔藤(Rechard Selten)和海萨尼(John C. Harsanyi)获得了经济学的最高荣誉——诺贝尔经济学奖,在全球经济学界再次掀起了对博弈论的研究热潮。经典博弈论为社会科学提供了一个新的研究视角,使我们能够以全新的方法来处理各种冲突与合作的问题。博弈论作为一种理论工具,其应用相当广泛。在信息经济学中得到了充分的应用,1996年诺奖得主Mirrlees等、2001年诺奖得主Akerlof等都对信息经济学研究作出了卓越的贡献。这充分说明了博弈论在经济学的地位可见一斑。
经典博弈理论的核心概念----纳什均衡就是由普林斯顿大学数学家纳什在研究非合作博弈时提出来的。纳什均衡即是指给定其他参与人选择的情况下,每一个人单独偏离均衡都不会变得比不偏离好,显然纳什均衡是一个静态均衡概念。经典博弈理论尽管把参与人的互动行为引入到其模型之中,并认为现实中参与人不是孤立地作出自己的决策,每一个参与人的决策不仅依赖于其自身所面临的条件及其所拥有的信息,而且也依赖于其他参与人的决策选择。但该理论却面临着其自身无法克服的缺点。首先,博弈论中的互动是一种“沉默互动⑨ ”,这种互动不允许参与人之间存在任何形式的交流,即假定参与人都是一个个只会理性计算的孤立经济人而非社会人,一旦引入社会互动,许多博弈都无法进行分析,也就是说经典博弈理论中的互动并不“社会互动”而是孤立的“沉默互动”。其次,博弈论的基本均衡概念纳什均衡要求博弈各方都是理性的,并且理性是共同知识,博弈时如果某一方选择了非理,那么博弈就无法进行下去。特别地该理论在利用后向归纳法(Backward Induction)对纳什均衡进行精练时,不但要求参与人完全理性,而且还要求参与人的行为满足序贯理性(Sequential Rationality)要求。这一比理性更强的要求使得博弈论更加远离现实人。再次,在处理参与人所面临的不确定性时,不仅要求各参与人知道世界的各种状态,而且要求参与人知道每一种状态所出现的概率,并且给定一个先念信念,当出现任何新信息时,每个参与人都能够应用贝叶斯法则修正自己的先念信念,也就是说参与人不但具有很强的计算、推理能力,而且能够在一个大的状态空间上应用贝叶斯法则解决相当复杂的问题。现实中多数情况下,参与人并不都具有这种计算、推理能力。最后,博弈论碰到了其最棘手的问题就是多重均衡的处理,当博弈出现多重均衡特别是多重严格纳什均衡时,尽管许多理论家提出了一些方法(Selten(1965)提出的子博弈精炼纳什均衡概念,Selten(1975)提出的颤抖手精练纳什均衡,Kerps—wilson(1982)提出的序贯均衡,Schelling(1960)提出的聚点均衡等)来处理多重均衡问题,但始终没能获得一致认可的结论。
与新古典经济学相比,经典博弈理论虽然在其模型中纳入了行为的“沉默互动”关系,但该理论给出的研究方法仍然没能跳出新古典经济学的均衡分析框架,这种只注重结果而忽略达到结果的过程的分析方法依然把对经济系统的影响因素都看作为一个个孤立因素,依然认为影响因素与决策结果是一一对应的关系,依然没能把参与人所处社会环境等因素纳入到其模型之中,因而不能准确地描述现实中人的决策行为,其结论也仅仅具有理论意义而缺乏政策含义。
5.3 进化博弈理论局部动态分析方法的现实性
进化博弈理论利用达尔文“优胜劣汰”的生物进化论、经典博弈理论并结合心理学的研究成果,从西蒙提出有限理性(Bounded Rationality)的参与人群体出发,通过对群体行为的研究进一步得出参与人个体的行为。进化博弈理论跨越了完全理性的“经济人”与有限理性的“社会人”的鸿沟,实现了经济学研究方法革命性的突破。与传统均衡分析法相比,进化博弈理论的局部动态分析方法在以下几个方面独具特色。
5.3.1 局部动态分析法的均衡观
传统的均衡分析方法认为完全理性参与人能够对环境的任何变化作出迅速的最优反应,因而,经济系统是常常处于均衡状态的,分析参与人的行为只需要研究均衡结果,并以此来预测经济人的行为,通过比较不同均衡结果来寻找系统达到均衡的条件。这种处理方法为了数学上处理的方便而撇开现实中“因素互动”而分别考察单个因素对均衡的影响,使得理论更加缺乏现实基础。进化博弈理论则完全摒弃传统理论中非现实的“理性人”假定,直接从有限理性参与人群体出发而提出的一种全新的研究方法----局部动态法。局部动态法把经济系统达到均衡结果的过程纳入到其模型之中,认为经济系统达到均衡需要一个长期的渐进过程,均衡结果依赖于达到均衡的过程,也就是说任何一个结果都是路径依赖的,它与混沌经济学完全动态的研究方法具有某种程度的相似之处。
5.3.2 局部动态法的时间观
传统的均衡分析法并没有纳入因素互动关系并且理性计算是不需要时间的,所以得出经济系统常常是均衡的结论。进化博弈理论的局部动态法一个显著特征就是把参与人的决策过程时间及因素互动的时间纳入到其基本模型之中,强调系统达到均衡的过程,并认为经济系统由于受到各种互动行为及互动因素的影响,有些系统达到均衡可能只需要很短的时间,有些系统达到均衡可能需要很长的时间,有些系统可能无法达到均衡。时间因素对经济学研究有着非常重要的意义,如均衡分析法无法考虑宏观经济政策中“时滞”使得许多实施时有效的政策在发生作用时却出现了与原意相反的结果。时间是度量政策效率的一个很重要的因素,如果不考虑时间因素有些政策可能很有效率,但纳入时间因素,一些需要太长时间才能使系统达到意愿均衡的政策可能根本就没有效率。进化博弈理论把时间纳入到模型分析中并充分应用数学中的相图来描述经济系统达到均衡的路径,这样有利于决策者控制经济系统使之朝向既定的目标前进,也有利于决策者寻找能够最大限度地促进系统向意愿均衡转化的因素,使系统尽快达到有效率的均衡。
5.3.3 局部动态法的均衡选择观
新古典经济学研究的逻辑有理性就有均衡,然后在既定均衡下通过对不同均衡的比较来寻找系统达到不同均衡的条件,即比较静态法,最后结合条件找出希望达到的均衡,因此,该理论不存在真正意义的均衡选择问题。经典博弈理论提供的分析方法在多数情况下都存在其自身所无法处理的多重均衡问题。如老鹰与鸽子博弈及系统选择博弈中多重均衡问题。进化博弈理论的局部动态法引入突变因素就能够较好地解决了多重均衡的选择问题,在老鹰与鸽子博弈中,尽管全是老鹰(全是鸽子)都是均衡的,但这两个均衡都极不稳定即都不是进化稳定均衡,一旦有鸽子(老鹰)突变者进入该系统就会使系统偏离,随着时间的推移而使得系统趋向于混合策略进化稳定均衡即一半鸽子一半老鹰(该均衡是一个全局吸引子);在系统选择博弈中经典博弈理论无法解释系统最终会趋于哪一个均衡,局部动态法引入了突变因素就能够很好地解决了均衡选择问题,即系统最终会趋于哪一个均衡依赖于系统的初始状态即路径依赖。进化博弈理论的基本均衡概念----进化稳定均衡描述的是当经济系统一旦进入到某一均衡的吸引域内时,系统就会对其他的突变策略具有一定程度(即在突变边界内)的抵抗力。
5.3.4 局部动态法的特殊性
新古典经济学与经典博弈理论均衡分析法都是以单个消费者、单个生产者、单个市场为研究对象来考察参与人的最优决策行为,并由此研究整个社会的资源配置问题。然而它们却碰到了如何由个体行为转化到群体行为的困难,因为这种转化过程涉及到各种互动因素的影响。一个明显的例子是经典博弈理论中囚徒困境博弈,在该博弈中两个囚徒都从个体理性出发,但得到了集体非理性均衡的结论。也就是说,均衡分析法根本无法实现从个体行为向集体行为的过渡,在此框架内寻找宏观经济的微观基础的困难是非常大的。进化博弈理论的局部动态法则从人的社会性出发,利用系统论的处理方法来看待参与人的决策行为。该理论直接以参与人的群体为其研究的逻辑起点,在考虑到影响参与人行为的社会因素、文化因素、民族习俗及个体生活习惯等因素的基础上进一步考察群体中有限理性个体的行为互动关系,很巧妙地避开由个体行为向集体行为转化问题,因而能够更加真实地反应现实人的决策过程及其决策结果。
六、结论
进化博弈理论是经济学领域的前沿理论,它来源于对生态现象的研究,虽然该理论应用于经济分析的时间不长,但它为经济学研究提供了一个全新的分析方法,较好地克服了新古典经济学及经典博弈理论中理性假定及多重均衡的困难。并且,应用进化博弈理论来研究经济系统能够获得比传统理论更准确的结果,能够更加现实地解释经济现象,因而在短期内为多数经济学家所接受。从某种意义上说引入进化博弈理论局部动态法来分析经济中参与人的行为是经济学研究方法的一次创新。
注释: ①本文把源于冯·诺意曼和摩根斯藤经纳什发展而成的博弈理论称之为经典博弈理论。 ②即无性生殖,这样假定的意思就是说后代继承其母体的策略,并且永远不改变,当然用于研究人类的行为时,需要作相应的调整。 ③所谓近视调整即是指参与人不管未来怎么样,只知道使当前的支付最大化 ④ 经典博弈理论中每一个参与人都有特定的博弈对象,并且,在重复动态博弈中,后行动者通过观察先行动者的理而利用贝叶斯法则来修正自己的先念信念,然后,在此信念下选择使自己获得最大支付的策略。 ⑤好的策略即是指能够获得较高支付的策略。 ⑥所谓严格纳什均衡即是严格占优纳什均衡。给定对手选择的情况下,每个人都通过选择严占优的策略而组成的纳什均衡。 ⑦事实上,这与Selten提出的颤抖手均衡概念具有相似性,所谓颤抖手均衡是指一个战略组合,只有当它在允许所有参与人都可能犯错误时仍是每一个参与人的最优战略的组合时才是一个均衡,其严格定义可以参阅张维迎的《博弈论与信息经济学》。其中的颤抖或者犯错误与进化稳定策略中的突变因素有差不多的含义,但它们之间存在本质上的不同。 ⑧由模仿者动态方程进行支付变换,可得。 ⑨这一点我们可以从博弈论一个著名的捐款----回赠实验中看出,募捐者要求每一个人都自愿捐款,最终募捐者以3倍于捐款总额的钱平均分派给每个捐款者,为了使得博弈能够分析下去,募捐者要求自愿捐款时每个人都不得与其他人讨论,否则该博弈就无法进行下去,因此,本文称博弈论中的互动是一种沉默互动而非社会互动。这个实验充分体现了古典经济学及博弈论研究对象上的一致性,即它们都是研究单个个体的行为而排除了人的一个重要特征----社会性。参考文献
[1] 王则柯(1999):《博弈论平话》,中国经济出版社。
[2] 张维迎(1999):《博弈论与信息经济学》,上海三联出版社。
[3] 张良桥,冯从文(2001):《进化稳定均衡与纳什均衡:兼谈进化博弈理论的发展》,《经济科学》,3,103-111。
[4] 张良桥(2001):《理性与有限理性:论经典博弈理论与进化博弈理论之关系》,《世界经济》,8,74-78。
[5] 张良桥(2003):《论进化稳定策略》,《经济评论》,2,70-74。
[6] 张良桥,郭立国(2003):《论模仿者动态》,《中山大学学报自然科学版》,3。
[7] 杨小凯(2000):《新兴古典经济学和超边际分析》,中国人民大学出版社。
[8] 青木昌彦, 奥野正宽(1999):《经济体制的比较制度分析》, 魏加宁等译, 北京: 中国发展出版社.
[9] Allais, M., (1952): The foundations of a positive theory of choice involving risk and a criticism of the postulates and axioms of the American school, in expected utility hypotheses and the Allais Paradox, edited by M. Allais and O. Hagen, Dordrecht: Teidel.
[10] Börgers, T. and R. Sarin (1997): Learning Through Reinforcement and Replicator Dynamics, Journal of Economic Theory, 77, 1-14.
[11] Börgers, T. and R. Sarin, (1995): “Learning through Reinforcement and Replicator dynamics”, Mimeo University College London.
[12] Conlisk, J.(1980): Costly Optimizers Versus Cheap Imitators, Journal of Economic Behavior and Organization, 1980, (1): 275-293.
[13] Cowen , Tyler, and Randall Kroszner, The Development of the New Monetary Economics, Journal of Political Economy , 1987, (95): 567-590.
[14] Crawford, Vincent, P. (1989): “An Evolutionary explanation of Van Huyck. Battalio, and Beil’s Experimental Results on Coordination,”Manuscript, Department of Economics, University of California, San Diego.
[15] Daniel Kahneman and Amos Tversky (1979):Prospect theory: An analysis of decision under risk, Econometrica, 1979, (47), 263-291.
[16] Foster, D., and P. Young.(1990) Stochastic Evolutionary Game Dynamics, Theoretical Population biology, (38): 219-232.
[17] Fudenberg, D. and C. Harris (1992): Evolutionary Dynamics with Aggregate Shocks, Journal of Economic Theory, 1992, (57): 420-441.
[18] Jones, R.. The Origin and Development of Media of Exchange, Journal of Political Economy, 1976, (84): 757-775.
[19] Kahneman, D. and A. Tversky(1974) : judgment under uncertainty: heuristics and biases, Science, 185, 1124-1131.
[20] Kahneman, D. and A. Tversky(1979) : Prospect theory: An analysis of decision under risk, Econometrica, 47, 263-291.
[21] Kandori, M. G. Mailath, and R. Rob (1993): Learning, Mutation, and Long-run Equilibria in Games, Econometrica, 61, 29-56.
[22] Kreps. D., and Wilson,(1982): Signaling Games and Stable equilibrium, Econometrica, 50, 863-894.
[23] Lewontin, R. C. (1960): Evolution and the Theory of Games. Journal of Theoretical. Biology. 1, 382-403.
[24] Maynard Smith, J. and G. R. Price.(1973): “The Logic of Animal Conflicts”, Nature, , (246): 15-18.
[25] Nash, Jr. John F.(1950), The Bargaining Problem. Econometrica.
[26] Nash, Jr. John F.(1951), Noncooperative games, Annals Mathematics 54.
[27] Schelling, T. (1960): The Strategy of Conflict, Harvard University Press, Cambridge, MA.
[28] Schelling, Thomas(1960), Strategy of Conflict, Harvard U. Press.
[29] Selten, P. (1978): The chain store paradox,Theory and decision 9, 127-159.
[30] Selten, R. (1980): A Note on Evolutionarily Stable Strategies in Asymmetric Games Conflicts, Journal of Theoretical. Biology. 84, 93-101.
[31] Selten, R.(1975), Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games, International Journal of Game Theory, 4, 25-55.
[32] Selten, R., (1965): Spieltheoretische Behandlung Eines Pligopolmodells mit Nachfagetragheit, Zeitschrift fur die gesamte Staatswissenschaft, 12, 301-324.
[33] Simon, H. A., (1955): A behavioral model of rational choice, Quarterly Journal of Economics, 69,99-118.
[34] Skyrms, Brian (1986): Deliberational Equilibria, Topoi, 5, 59-67.
[35] Smith, V. L. (1979): Indirect revelation of the demand for public goods: An overview and critique, Scottish Journal of political economy, 25, 183-189.
[36] Swinkels, J. (1993): Adjustment Dynamics and rational Play in Games, Games and Economic Behavior, .5, 455-484.
[37] Taylor, P. D. and L. B. Jonker.(1973): Evolutionarily Stable Strategy and Game Dynamics, Mathematical Social. Science (40): 145-156.
[38] Tversky, A. and D. kahneman(1992): Advances in prospect theory: cumulative representation under uncertainty, Journal of risk and uncertainty, 5, 297-323.
[39] Von Neumann, John and Oskar Morgenstern(1944), Theory of Games and Economic Behavior, Princeton U Press.
[40] Weitzman, Martin(1984): The Share Economy.Cambridge, Harvard University Press.
【关键词】蜈蚣博弈,悖论,不完全信息动态博弈,海盗分金
“蜈蚣博弈”是罗森塞尔(Rosenthal)于1981年提出的一个动态博弈问题,由于其扩展形很像一条蜈蚣而得名。两个博弈方A和B,轮流进行策略选择,可供选择的策略有“合作”或“背叛”,我们假设A和B均为完全理性人,博弈次数是有限次,且支付给定如下:
A ------ B ------ A --………….-- A ------ B ------ A ------ B ------ (10,10)
| * * * | * * * | * *………* * | * * * | * * * | * * * |
(1,1) (0,3) (2,2) (8,8) (7,10) (9,9) (8,11)
博弈从左向右进行,横向表示合作,纵向表示背叛,括号中表示(A的收益,B的收益)。考虑最后一步:B选择背叛的收益为11,大于合作收益10,则B一定选择背叛;A知道B这样想,所以在上一步时不会选择合作,如此推论下去,结论是A在一开始就不会选择合作,两人收益各得1,博弈结束。而直观上看,如果合作下去两人的收益似乎都要更多更有利,因此逆推法的逻辑和直觉出现了悖论。
另外一个利用逆推法的经济学模型是海盗分金。5个海盗抢了100枚金币,他们通过抽签来决定顺序,每人提出一个分配方案进行全体投票表决,超过半数的人赞成则方案通过,否则提出方案者就要被扔到海里喂鲨鱼。假定所有海盗都是聪明的理智人,还是从后往前推:当1至3号都被扔到海里只剩4号和5号时,无论4号提出何种方案5号都可以投反对票以独吞所有金币,4号必死无疑,因此他定会无条件支持3号的方案。3号知道4号的想法,因此轮到他时,会提出(100,0,0)的方案,这样虽然4号一枚金币都得不到仍然会投赞成票,再加上自己的票,3号的方案会获得通过。而2号也洞悉了3号的想法,他会提出(98,0,1,1)的方案,这样4号和5号的结果比3号主持分配时要好,因此2号得到了两人的支持,方案获得通过。1号推知2号的方案后,会提出(97,0,1,2,0)或(97,0,1,0,2),这样3号能得到一枚金币,比2号的方案要好,4号或5号也能比原先多得到一枚金币,因此会支持1号的方案,最终结果1号独得97枚!这样,排在最前面的人看似不利,有着更高被扔到海里的风险,结果成为这场博弈的最大赢家;而最后的人看似安全,甚至能坐收渔翁之利,却不得不接受别人的方案只能分得一小杯残羹。海盗分金可谓是逆推法在完全信息动态博弈中应用的经典案例,但许多人不禁要问:其他四个海盗真的会眼睁睁看着1号把绝大部分金币收入囊中吗?其实,我们在这个模型中假设了所有博弈方均能完全了解其他人的策略,倘若有人不,那么博弈定不会在第一步就结束,这就涉及到了不完全信息动态博弈。笔者认为这种情况要比完全信息在现实中利用的更为广泛,不妨举三国鼎立时期的孙刘联盟为例分析。
公元208年,孙刘两家联手抗曹,合作时间越长越有利,但其中有个诱使联盟破裂的因素――荆州。两人都可以选择一开始就撕破脸皮开打,这样协议撕毁,两人都无法从合作中取得收益。他们也可以选择搁置争议,先合作下去,但荆州在刘备手里,搁置时间越长孙权要回来的可能性就越小。不妨假设N年后,孙权就永远要不回来了。博弈者孙权想,不如在第N-1年的时候撕毁协议把荆州抢回来,孙刘少联盟一年损失也不太大。另一博弈方刘备想,与其等到第N-1年的时候孙权把荆州抢了,不如先下手为强,在第N-2年的时候翻脸,联盟时间少那么一年对打败曹操影响也微乎其微。博弈就这么进行下去,直到孙权想,孙刘联盟对抗曹操起码要维持11年,在这之前刘备不敢跟我翻脸,那11年一到,就让吕蒙抢了荆州。而刘备是博弈中占优的一方,因为他具有荆州的实际控制权,因此行动更为保守,他估计的联盟时间要比孙权长,孙权担心时间太久荆州要不回来,故比较激进,终于在公元219年直取荆州,孙刘联盟破裂。在这个例子中,博弈双方不知道对方的底线,所以最终只能是在某一时间点一方选择背叛。孙权除了夺回荆州别无选择,而刘备不得不继续占据,否则两者的地位就会互换,刘备将面临和孙权一样的窘境。
其实对于蜈蚣悖论,西方研究博弈论的专家已经尝试通过实验来寻求解答。实验发现,不会出现一开始选择“不合作”策略而双方各得收益1的情况,双方会自动选择合作性策略,从而走向合作。这种做法违反逆推法的结论,然而我们会发现,即使双方开始能走向合作,这种合作也不会坚持到最后一步。理性的人出于自身利益的考虑,肯定在某一步采取不合作策略。逆推法肯定在某一步要起作用,使得合作不能进行下去。蜈蚣悖论在现实中的对应情形是,参与者不会在开始时确定他的策略为“不合作”,但他难以确定在何处采取“不合作”策略,孙刘联盟破裂的例子就是典型。
参考文献:
关键词:博弈论;本科;教学改革
中图分类号:G642 文献标志码:A 文章编号:1673-291X(2012)22-0251-02
现代经济学、管理学的最新发展中有一个引人注目的特点,那就是博弈论在经济学和管理学的教学、科研以及在社会各个层面的应用中受到越来越多的重视。所以,许多高校的经济与管理专业都与时俱进地将《博弈论》作为本科学生的一门必修课程。然而,由于《博弈论》发源于运筹学,对数学理论的要求较高。尽管博弈论中许多案例(例如“囚徒困境”、“性别大战”等)具有较强的趣味性,但一旦从形象的案例讲解转入到抽象的理论推演,学生难免会遇到较大的学习困难。因此,如何使学生既掌握基本理论又能够加以运用,就有必要对大学本科阶段的《博弈论》课程从教学内容和方法上进行深入的探讨。
一、博弈论课程的教学特点
1.教学过程通常浅入深出。谈及博弈论,人们往往会想到“囚徒困境”、“田忌赛马”等经典案例,这使得博弈论的内容显得比较生动,也易于吸引人们的注意力。因此,通常博弈论的教学会以简单的案例分析为切入点,以激发学习者的兴趣。但随着讲授内容从纯策略的纳什均衡分析,逐渐向合作博弈、演化博弈、重复博弈等较为复杂的博弈分析过渡时,往往会涉及到一些较为复杂的数学定理和推演方法。这使得博弈论的教学体现出浅入深出的特点。
2.需要较好的数理基础。早期,博弈论又被称为对策论,它是现代数学的一个新兴分支,也是运筹学的一个重要组成部分[1]。因此,经过科学抽象化的博弈理论,一般采用严谨的数学语言来进行表述。例如,对问题的描述是以集合的形式表达,对关系的刻画是以函数形式表达,并通过严谨的数学证明得到最终的结果。这需要本科生在此前具有较好的高等数学、数理统计和运筹学基础。
3.应用范围广泛。由于真实的社会中存在各种各样的矛盾冲突,使博弈理论可用于经济、政治、外交乃至战争等广泛的领域。博弈论可以将生活中的经济现象进行数学的抽象,并通过严谨的数学推导,揭示该经济现象的发展趋势和可能产生的最终结果[2]。例如,演化博弈理论,有助于理解生物种群之间的进化行为;信号传递原理,有助于理解军事中的策略互信行为;委托—理论,有助于理解劳动力市场的抉择问题以及二手车市场的交易问题。
二、博弈论教学中存在的问题
1.案例支撑还不够丰富。博弈论的教学必须以案例作为引导,这需要课程案例具有以下特征:(1)案例必须紧密联系现实;(2)案例要能充分体现一方面的博弈思想;(3)案例需具备一定的参与性,使学生通过情景模拟的方式深刻地感受到博弈的法则。尽管在博弈论的教学中已经累积了一定量的案例,但仍显得不够丰富。特别是对于经管专业的本科生而言,需要把理论的学习融入对经济活动实践的研究和认识之中,以提高学生分析经济现象以及解决经济问题的能力。
2.数理推演比较枯燥。博弈论中的数理推演较为复杂。国外学者普遍认为,要理解博弈论的数学精髓,那么测度论、随机过程、实变函数与泛函分析、数学分析、拓朴学等知识是非常必要的[3]。例如,在纳什均衡存在性的证明,就需要用到Katutani不动点定理[4]。而现在许多高校经管专业本科生都是文理兼招,由此导致学生的数学功底不一。因此,教师讲授难度较大,学生也不易理解。
3.实验与实践教学重视不够。博弈论实践性较强,需要运用实验教学手段来使学生作为直接利益主体参与决策,并引导他们分析博弈结果背后的内在驱动机制,从而达到帮助学生理解知识和提升学生解决问题能力的目的。但是,许多学生受传统“填鸭式教学”的影响,参与的积极度有限;同时,实验教学的重要性也有待于进一步认识和深化。这使得实验与实践教学不充分,即使学生掌握了理论模型,也难以用于实践,导致“学”与“用”脱离。
三、互动式教学的应用探讨
从上述分析可见,将互动式教学引入博弈论课程具有鲜明的意义。第一,通过亲身参与,有助于学生理解博弈基本思想;第二,有助于学生掌握理论模型,并促进学与用的结合;第三,有助于活跃课堂气氛、提高教学效率。笔者在博弈论课程中,尝试性地进行互动式教学探索,主要包括以下几个方面:
1.尽可能地为博弈论中的基本思想寻找可供学生参与的游戏。例如,运用“猜数字”游戏来呈现重复剔除劣势策略的思想、运用“山地攻守战”游戏来讲述共同知识的含义、运用“模拟选举”游戏来分析中间人选民定理。在实际教学中,笔者通常会按照既定游戏规则让学生分组参与,并记录下游戏过程和结果。而在对博弈结果进行归纳和分析时,还往往采用情景再现的方式,让学生体会博弈中的奥妙,进而加深对理论的理解。
2.提升学生参与的积极性。这就需要任课教师深刻理解博弈的主要内容,恰当地设计游戏规则使得其趣味性更强;同时,需要赋予一定的游戏奖励,来提高学生的参与热情。①教育是一个兴趣导入的过程,然后才成为科学获知的一部分。要在一堂课里面始终吸引学生的注意力并不容易,这就需要教师合理掌控行课节奏,使趣味教学贯穿于课堂进行的始终,而不是头重脚轻。通过合理的实践教学安排,使学生感到博弈论的学习,是在“玩中学、乐中学”的氛围中进行的。
3.注重思想传授,淡化数学推演。互动式教学的目的,在于让学生理解博弈论的重要思想,能够运用该思想去分析一些现实问题。对于一些较为复杂的数学推演,只是简单介绍其基本过程,② 而将其内涵的思想融入互动式教学,引导学生运用知识来解决现实问题。
历史上有个很著名的故事,叫“指鹿为马”,说的是秦国的赵高在准备清除异己之前事先搞了次民意调查,牵了只鹿来到大殿上硬说是马。借此考验群臣的立场,看到底哪些人跟自己是铁杆,属于那种“心心相印”,跟自己统一战线,至少暂时能够捆绑在同一辆战车上的。
撇开道德的因素不谈,赵高确实人如其名,这一招棋实在是高!对于当时大殿上的群臣来说,这道看似简单的题目,其复杂性并不比相对论逊色多少,究竟该说鹿说马呢?群臣心里都没底。众所周知,站错队的危险性不比私带易燃易爆物溜上火车的危险性低,君不见曾经煊赫一时的曹雪芹祖父不就是因为在雍正的问题上站错了队,落得家破人亡吗!所以赵先生这个题目后来自然而然要了很多人的脑袋。
于是,很多听说过这个故事的人牢牢吸取了这个教训。时间一晃过去很多年,等到唐末乱世的时候,又出了个有名的枭雄朱全忠,也就是朱温。说这朱全忠虽然是草寇出身,但人家毕竟没事的时候也喜欢听听评书,普及一下自己的历史知识。一天,朱大人和一群幕僚外出游玩,看到一棵柳树,朱大人无意中说了句好大的一株柳树啊!幕僚们都觉得这是个不错的溜须拍马的好机会,遂纷纷上前附和。
老朱一看这事不对劲!这群平时看上去满嘴仁义道德的先生遇到事情咋都这德行,这可对以后与群雄争夺天下、逐鹿中原不利啊。于是,老朱等幕僚们说完,又接着说,这么好的一棵柳树应该可以做多好的一个车轱辘啊!老朱话还没落音。幕僚们又开始纷纷附和。等该附和的都附和完了,老朱一扫满脸的笑容,露出狰狞的目光说:“我听人说秦时有人指鹿为马,今天明摆着的一棵不能用作栋梁之材的柳树竟然被你们说成这样。你们到底是怎么想的?”幕僚们诚惶诚恐、大惊失色,老朱一不做二不休,吩咐左右把刚才附和的几个幕僚一刀“喀嚓”了事。
几乎是同样的一个故事却导致了两个不一样的结局:开头是正直、坚持己见的人掉了脑袋,后来是圆滑的人丢了性命!为什么会出现这样的结果?
西方经济学里有个所谓的信息不对称原理,把信息的掌握分为三个标准:完全掌握信息、掌握了一部分信息、没有掌握任何信息。在这两个故事中,出题和答题双方对答案所指向的信息的掌握,显然是有层次的。
赵高和朱温无疑都是信息的完全掌握者,因为他们既是运动员也是裁判。而殿上的群臣和幕僚们手中掌握的信息量是极其有限的,只能凭一时的观察和往常的经验积累来揣度出题人的意图。在群臣与赵高的博弈中,正直、坚持己见的人忽略了是鹿非鹿这个常识性问题背后隐藏的信息。而在幕僚与朱温的较量中,幕僚们却在一味逢迎的时候失去了理智,忘了去分析朱温这个不合常理的举动究竟包含着什么样的目的。最后有人掉脑袋也就在所难免了。
本书共有7章:1.概述:电力系统凸优化的近展、概要、本书所使用的缩写;2.凸优化与电力系统的背景介绍:2.1凸函数和计算的复杂性;2.2常用优化算法,包括线性规划、二次规划、锥形规划、二次约束的二次规划、混合整数规划和各种算法的成熟度;2.3松弛算法,包括升降和投影、图论的使用、如何使用松弛算法;2.4经典优化算法与元启发式算法的比较;2.5电力系统建模,包括稳态系统的主要参数、三相平衡系统、发电机和负载建模以及标幺制系统;2.6本章小结;3.电力系统潮流优化:3.1基本公式;3.2电压极坐标系下的线性简化,包括潮流的线性化、潮流的解耦、网络流;3.3松弛算法,包括精确的辐射网络、实数坐标系统、分支流模型和深入讨论几部分;3.4负载潮流,包括精确负载潮流及其线性化;3.5内容拓展,包括直流网、无功功率能力曲线、非凸发电成本曲线、二阶锥多面体松弛;3.6章小结;4.系统控制:4.1时变最优潮流控制,包括限制、能量的存储控制、模型预测控制的实现;4.2稳定性和控制,包括摆动方程、线性二次调控;4.3是单位功率因数控制,分析了目标和约束;4.4重构,包括放射状约束、潮流和目标、过渡过程;4.5章小结;5.基础设施规划:5.1点的放置和大小,包括规划类型与贪婪算法、功率源、多场景模式、能量存储;5.2传输扩展,包括基本方法、线性模型、支路流近似、松弛和可能性问题;5.3章小结;6.经济分析:6.1背景介绍,包括拉格朗日对偶、定价和福利定理、博弈论;6.2电力市场,包括节点电价、时变价格和动态价格、传输价格定位、非凸定价;6.3市场的反馈作用,包括供应函数均衡、互补模式、竞价;7.未来方向:7.1不确定模型,包括随机规划和鲁棒优化;7.2分布式优化;7.3博弈论拓展,包括动态模型和机制设计。
本书首席作者Joshua Adam Taylor 是多伦多大学电气与计算机工程系的助理教授。
本书面向电气工程的学生和研究人员,为产业界和学术界提供电力系统优化和控制的领先技术。