博弈最优策略(精选5篇)

前言：想要写出一篇令人眼前一亮的文章吗？我们特意为您整理了5篇博弈最优策略范文，相信会为您的写作带来帮助，发现更多的写作思路和灵感。

博弈最优策略

博弈最优策略范文第1篇

[关键词]公地悲剧；博弈论；内生规则

[DOI]1013939/jcnkizgsc201529111

1968年英国哈丁教授（Garrett Hardin）在《The tragedy of the commons》一文中首先提出“公地悲剧”这一概念，它意味着“环境的退化会发生在任何时候，只要许多人共同使用一种稀缺资源”。本文把博弈论的概念和思想引入到“公地悲剧”这一现象中，致力于找出化解“公地悲剧”的方法。

1“公地悲剧”的博弈论模型

假设在由n个牧民共同拥有的草原上，每个牧民都养羊，根据世代多年放牧的传统，他们都知道这片草原上羊的最优的饲养数量，我们把这一数量设为Q1，那么每个牧民的最优饲养量为Q1/n。由于草原是公共的，只要有利可图，牧民养羊的饲养数量越多越好。假定每个牧民能获得收益的饲养量不低于Q1/n，这样，每个牧民羊的饲养数量有两个可能，一是超额饲养，二是根据统一的指标限额饲养。

为了使我们的分析更具有一般的普遍性，把草原上的n个牧民简化为两个典型性的代表A和B，A和B共同在这片草原上放牧，把羊的饲养量的确定过程看作是A和B相互之间的博弈，那么A和B就有两个可选择的策略，即超额或限额。在A、B选择不同的策略的情况下，A、B会出现收益变化：①A超额、B限额，在市场均衡的情况下，A的饲养里比B的饲养量多，收益也多，A的收益为a，B的收益为b，则a>b；②B超额、A限额，A的收益为b，B的收益为a，同理，有a>b；③A、B都限额，总收益为T，达到社会最优，A、B共享收益π，每人π/2，由公地放牧会导致非帕累托最优，有π>a+b，④A、B都超额，那么A、B的收益均为τ/2，有τ

2博弈模型分析

首先，假定以上“公地悲剧”博弈模型是在完全信息的情况下进行的，即A、B都知道对方的策略和收益；之后，将A和B的博弈分为同时博弈和序贯博弈两种情形。下面将对以上两种情形进行叙述分析。

当A和B同时博弈，对A来说，当B采取限制饲养数量的策略时，A的收益a>π/2，A的最优选择是超额；当B采取超额饲养策略时，A的收益b>τ/2；由以上分析可知对A不存在占优策略，A所采取的策略需要根据B的策略进行选择。对B来说，当A采取限额策略时，B的收益为a>π/2；当A采取超额策略时，B的收益b>τ/2，B的最优选择是限额；同样，B也不存在占优策略，B所采取的策略需要根据A的策略进行选择。

由以上分析可知，在同时博弈的情形下，A、B之间有着两个纳什均衡，即（限额；超额）与（超额；限额）。因为同时博弈存在的阶段性，纳什均衡不具有唯一解，这说明在实际情况下A和B会面临策略选择上的困境，在这样的情形下，为了实现自身利益的最大化，A和B均有可能以一定的概率选择超额策略或限额策略。那么，我们假定A选择限额策略的概率是r1，选择超额策略的概率是1-r1；B选择限额策略的概率是r2，选择超额策略的概率是1-r2，那么，A的最优化模型为：

VA=r1[[SX（]π[]2[SX）]r2+（1-r2）b]+（1-r1）[ar2+（1-r2）[SX（]τ[]2[SX）]]

求A在概率r1下的收益最大值Max[DD（X]r1[DD）]VA，有：[SX（]π[]2[SX）]r2+b（1-r2）-ar2-[SX（]τ[]2[SX）]（1-r2）=0，则，r2=[SX（]b-[SX（]τ[]2[SX）][]（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]>0

根据支付矩阵的对称性，可推出：r1=r2=[SX（]b-[SX（]τ[]2[SX）][]（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]

综上可知：r*1=r*2=[SX（]b-[SX（]τ[]2[SX）][]（1+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]为混合策略的纳什均衡，这一均衡说明了当A以概率r*1选择限额策略时，A进行策略选择时没有必要参考B的策略选择来进行，同样的，B以概率r*2选择限额策略时的策略选择也不需要考虑A的策略选择。

根据以上描述可得到以下结果：A、B选择限额策略的联合概率分布为：P（A=不超额；B=不超额）=r*1×r*2=[SX（]（b-[SX（]τ[]2[SX）]）2[][（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）]2[SX）]；A、B选择超额饲养策略的概率分布为：P（A=超额；B=超额）=（1-r*1）（1-r*2）；A、B选择相异策略的概率为：r*1（1-r*2）+r*2（1-r*1）=2η*（1-r*2）=2r*2（1-r*1）。A和B中只要有一人选择了超额饲养策略，草原的饲养量将偏离帕累托最优，出现“公地悲剧”现象，出现的概率为：P（A=超额；B=超额）+P（A=超额；B=不超额）+P（A=不超额；B=超额）=（1-r*1）（1-r*2）+2η*（1-r*2）；根据概率的相关知识，“公地悲剧”出现的概率也可表示为1-P（A=不超额；B=不超额）=1-r*1×r*2∈[0，1]。

把A和B两个牧民决定羊的饲养数量的决策过程看作是一个博弈，根据以上计算可知，“公地悲剧”这一现象会以一定的概率出现在博弈的收益中，这样，从博弈论的视角分析“公地悲剧”就有了可行性。

其次，A、B连续博弈。当A和B两个牧民中有一个人在某些方面优于另一个人即具备先行者的优势时，那么先行者就有观望和利用先行者优势两种选择，这时A、B之间的博弈不再是同时博弈而是连续博弈。这里假设在完全信息的情况下，A是先行者，A先行动、B后行动，收益矩阵和同时博弈的时候相同。

对A来说，A知道假如他选择超额策略，由于b>[SX（]π[]2[SX）]，B的最优策略为限额策略，那么，A将获得a的收益，B获得b；假如A选择限额策略，那么B一定超额，那么A获得收益b，B获得a。当A具有先行者优势时，A能够先行动，并获得a的收益（a>b），所以无论如何A也会选择超额策略，这时，博弈的均衡解释（超额；限额）。这就表示在连续一次性的博弈过程中，A、B两个牧民的羊的总的饲养数量将超过草原上的帕累托最优数量，出现“公地悲剧”。

从上文中的分析可知，理论上，在一次博弈的情形下，不管是同时博弈还是连续博弈，“公地悲剧”都可能发生，但在实际情况下，因为养羊这个活动是不间断连续进行下去的，那么草原上牧民之间养羊数量的决策过程就是重复博弈的过程。一旦存在重复博弈，牧民之间由于人际关系、文化等原因会形成一种相互牵制的情况，最终使草原上羊群的饲养数量限制在符合集体利益最大化的帕累托最优数量上面。

3对策研究

由以上分析可知，A、B因为存在a-[SX（]π[]2[SX）]的超额收益而产生了超额饲养羊的投机心理。A和B都是理性人，都是自私的，都不愿意因为自己限额而损失了额外的收益，更不愿意看到因为双方都超额而带来的共同损失。当不存在一个实际有效的机制来约束双方行为时，为了能减少自身的损失，在博弈的过程中，博弈双方会透露这样的信息：如果在社会交换的过程中出现了违约者，则拒绝与他合作，而拒绝合作给违约者造成的损失大于他不违约的损失，这样就形成了一种可信的、有效的威胁。A和B在牧羊博弈的过程当中自主地限制羊的数量，使其形成一个内生的规则。当限额策略合理地解决了“公地悲剧”问题时，在接下来的重复博弈中，人们会将这一行为坚持下去，就成为了一种制度，一种内生的制度，“公地悲剧”便得到了解决，不再出现。

4结论

通过以上分析，当牧民们在选择羊的饲养数量时，相互之间存在一种相互约束、制约机制，并且这一博弈是重复进行时，那么，饲养羊数量的限额将成为一个内生的博弈规则，它不需要借助外界或第三方的力量来保证实施便能自己起到约束双方行为的作用，因而“公地悲剧”能够依靠内部的约束机制自发解决。

参考文献：

博弈最优策略范文第2篇

【关键词】无线电博弈论纳什均衡

一、博弈论的概述

1.1概念

博弈论（game theory）是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题的理论[20]。也就是说，博弈论研究当一个主体，譬如说一个人或一个企业的选择受到其他人（其他企业）的选择的影响，而且反过来影响到其他人（其他企业）选择时的决策问题和均衡问题。所以在这个意义上说，博弈论又称为“对策论”。博弈论是一种使用严谨数学模型来解决现实中利害冲突的理论，由于冲突、合作、竞争等行为是现实中常见的现象，因此很多领域都能应用博弈论，如军事领域、经济领域、政治外交等。

1.2博弈论模型简介

博弈论自产生到发展至今已形成了较成熟的理论体系，它并不是经济学的一个分支，它是一种方法，应用范围不仅包括经济学，政治学、军事、外交、国际关系、公共选择，还有犯罪学等都涉及到博弈论。不过博弈论也具有自身的基本模型，可以对一个博弈过程用5个方面来描述，G={P，A，O，I，U}

① P（player）：博弈的参与方。

② A（action）：博弈方可选择的全部行为或策略的集合

③ O（orders）：博弈的次序。

④ I（information）：博弈的信息。

⑤ U（utility）：博弈方的收益。

以上五个方面是定义一个博弈时必须首先设定的，确定了上述五个方面就是确定了一个博弈。博弈论就是系统研究用上述方法定义的各种各样的博弈问题，寻求各博弈方合理选择策略的情况下博弈的解，也既是均衡。

1.3博弈论的分类

现实中各种博弈可以按照不同的办法进行分类。根据参与人的多少，可以将博弈分为两人博弈和多人博弈；根据参与人是否合作，可以将博弈分为合作博弈和非合作博弈；根据博弈结果的不同，又可以将博弈分为零和博弈、常和博弈和变和博弈。

1.4纳什均衡

1.4.1纳什均衡的定义

纳什均衡（Nash Equilibrium）[20]是一种策略组合，它能够使得每个参与者的策略都是对其他参与者策略的最优反应。“最优反应”指的是该策略带给采用它的博弈方的利益或期望利益，大于或至少不小于其它任何策略能带来的利益。博弈的目的，就是为了寻求这样的一个最佳的策略组合。

1.5 一些特殊的博弈模型

1.5.1重复博弈模型

重复博弈是目前人们了解的最为透彻的一类动态博弈，参与人每一期都面对同样的“阶段博弈”或“选民博弈”，而且参与人的全部收益是每阶段所得收益的加权平均。参与者基于对博弈过程的认知，例如对过去行为的了解，对未来的预期和对当前情况的观察，在每一个阶段的博弈中选择自身的策略。这些策略可以是固定的，也可以随其它参与者行动的改变而变化，甚至可以是自适应的。

1.5.2潜在博弈模型

潜在博弈是一般形式博弈中的一种特殊类型，存在函数u：SR当单方面的背离发生时，u的变化Δu将被反映到单方面背离博弈者的效用上。

二、在无线通信系统资源分配问题中应用博弈论的可行性分析

随着无线通信系统的飞速发展，许多概念和技术与现有系统相比都有很大的变化。通信系统将具有智能的资源管理，采用大量动态的、分布式的、自适应式的资源管理方式。

三、基于博弈论的动态频谱接入方法

如何利用博弈论方法对认知无线电技术的研究进行分析，其中的关键是如何将博弈论引入到相应算法的设计和分析中，找到算法的纳什均衡点。在开始具体的算法研究之前，需要将所研究的问题抽象成博弈论问题模型。

3.1 分布式自适应频谱接入方法

博弈论模型适用于分析认知无线电系统各用户竞争频谱的分布式行为，各用户根据自己获得的信息单独进行决策。

博弈最优策略范文第3篇

[关键词]合作困境　博弈分析　现实对策

中图分类号：D125・4　文献标识码：A　文章编号：1007-1369(2007)2-0046-05

石油是现代经济的血液，对于经济快速发展的中国和资源匮乏的日本具有重大的战略意义。从“安大线”、“安纳线”较量到东海海洋权益争端，再到现在日趋浮现的在非洲石油输出国的竞争，石油因素在两国关系及其政治话语中已具有重要地位。鉴于中日两国政治关系的脆弱性，以及国际能源环境变化的不确定性和全球化、区域化下的双边、多边能源合作的快速发展，加强中日海外石油合作，对于发展面向21世纪的稳定的中日关系具有重大的现实意义。

本文采用博弈论的分析方法，通过对中日之间在海外石油市场上竞争态势的分析，探讨中日在海外石油上采取合作策略的制约困境与现实对策。

制约困境的博弈分析

1.博弈理论的一般说明博弈是假定为理者的个人、团体或组织，面对一定的环境，在一定的约束条件下，依靠所掌握的信息，同时或先后，一次或多次，从各自可能的行为或策略中进行选择并实施，各自从中取得相应结果或收益的过程。由于它强调理者之间相互影响的制衡关系，因此在全球化不断发展，国家间联系不断增多的情况下，博弈及其研究理论日益被用来描述、研究国家间日趋复杂的相互依存关系。鉴于国际社会天然的无政府状态与国家不懈的自助努力，因此在博弈理论中，非合作博弈又成为现代博弈论研究的重点。

按照博弈理论的一般分类，根据行为者所占有的信息集的完全程度和行为的行动顺序，非合作博弈可分为：

其中，完全信息静态博弈是其他博弈分析的起点，有着较为严格的条件假设--它要求追求利益最大化的理者掌握完全的信息集(即对博弈策略与利益有清楚的了解)，并且在决策时不存在相互间的信息交换，而且一旦决策后就只能等待结果。因此，对于行为者来说，尽管此类博弈中占有完全的信息集，但是由于决策时信息交流的阻断，导致行为者无法确定对方是否会采取“背德”行为使自己利益受损，以致为了实现自身利益的最大化而不得不采取自己的“最优策略”，所以由此看来，在完全信息静态博弈中，主导行为者最优决策思维的并非是帕累托最优，而是风险上策均衡。其结果便是，行为者从自身利益最大化出发，不约而同地采取了“坦白”策略，却最终得到了“集体利益”最小化的“囚徒困境”。而在目前中日两国的海外石油竞争中，此种情况却大量存在。

比如在中日在俄输油管线的较量中，本来中俄议定的“安大线”全长只有2400公里，造价只有20～25美元(其中俄方17亿，可从中方获得50％的贷款)，且所经地区自然环境优越，便与施工养护。假如日本在此问题上合作，共担建设费用和管理成本，共享由此获得的石油收益，那么两国各自在投资上必然小于20～25美元。但是，由于日本担心中国在俄的输油管建设威胁其“太平洋石油管线”“战略计划”，所以在“安大线”即将开工之际，日本便提出了从西伯利亚地区安加尔斯克至海参崴地区纳霍德卡的“安纳线”计划。该线不仅全长3 765公里，造价50亿美元(全部由日本承担，而且日本还需再追加10亿美元助俄管道建设)，而且所经地区有1100公里的地震区，施工养护条件恶劣。此后，中日两国展开了激烈的竞争，其结果便是俄罗斯改建“泰纳线”(从泰舍特至纳霍德卡)，日本不仅要为此方案提供50亿美元贷款，中国亦愿意向该工程陆续投放120亿美元的贷款，而且还让俄罗斯给中日两国附加上了“安全保障”。所以与先前的“安大线”相比，可见其代价之巨大。

但是，值得注意的是，完全信息静态博弈的理论假设之一是行为者在决策时不发生任何的信息交换。可从现实来看，中日之间在多边与双边层次上存在着不同程度、不同形式的对话交流，比如在多边层次上，中日两国可通过联合国、亚太经合组织、东盟论坛、东亚峰会等场合进行对话交流；在双边层次上，中日之间可借助中日战略对话和东海问题磋商等会议进行信息交换和对话磋商，所以可以认为，当中日两国的决策者在进行策略选择时，可以从多种渠道了解对方的策略意图--从目前来看，实现石油供应源的多样化，稳定石油来源等已成为中日两国各自对对方能源战略的基本认知，而世界石油的储量、价格、交易、运输等信息更是两国都能掌握的公共信息。所以这不得不令人发问：中日两国为何在具备信息交流的情况下，还不能突破困扰两国的“囚徒困境”?

要回答这问题，完全信息静态博弈由于其严格的条件限定，已不能担此重任，而需借助于条件限定较为放宽的完全信息动态博弈。在完全信息动态博弈中，行为者追求利益最大化的本性与掌握完全信息集的要求并未改变，但是允许行为者在做出策略选择时有先后顺序，后行动者可以根据先行动者的行为信息做出自己的策略选择，从而实现一定程度的信息交流，因此比较适合用于分析中日两国在海外石油博弈中所遇到的“囚徒困境”。

实际上，假如采用“大历史观”的审视问题视角，从技术角度看待事物之间的相互联系与历史脉络，将中日两国在海外石油上的博弈放人中日两国“双重崛起”(即中国的和平发展与日本谋求政治大国的诉求)的背景下，将中日“双重崛起”下的国家战略性博弈与其他次国家层面或超国家层面的各类博弈总计为G，将中日在海外石油市场上的博弈记为g，那么在g与G之间便因石油本身在现代社会政治话语中所具有的战略性意义，不仅自然联系起来，形成一个简化的次数为2的“有限次重复博弈”，而且使石油在g中得益在G中的作用直接体现出来，使构建得益函数UG=UG(ug)成为可能。

在有限次重复博弈中，在每次重复博弈之前，以前博弈的结果各行为者都能观察到，成为下次博弈中行为者行动的参考依据，所以在有限次重复博弈中，行为者不能只考虑某个阶段的得益，而需顾及前次博弈的得益对后次博弈的影响以及最后的总得益。因此对于中日两国间由g与G构成的有限次重复博弈，中日双方不仅要考虑g的得益，还要考虑g的得益对G的影响以及最后的总得益。由于是有限次数重复，所以可以借助“逆向归纳法”对此作具体的博弈分析。

2.具体的博弈分析

首先，进行条件假设。由于石油作为一次性能源的不可再生性，其探明储量与产量在特定时期，技术发展既定的情况下是有限的，所以石油资

源人类活动约束已呈现出“存量约束”的形式。所以可假定在只有中日两国的封闭系统中，海外石油资源存量为X，中国对外石油的依赖度为d，那么中国就需要从外进口石油量为dX，假如中国能实现这一进口量，那么日本获取海外石油量为(1-d)X。由此根据基数效用理论假定出中国在g中的得益为ugl=AdX-BP，日本在g中的得益为ug2=C(1-d)X-DP(其中A、B，C、D分别为中日在g中的得益系数，在一定的技术条件下A、B，C、D恒定，但是，从现实来看，在一定技术条件下，日本的技术水平在常态分布上高于中国，所以A

其次，用逆向归纳法对上述假设进行具体分析。由于中日之间政治互信度比较低，在中日之间双重崛起的背景下，一方面中国政府由于日本对历史问题的虚无主义态度，对华关系的定位(目前日本将中日关系定性为“协调与共存”、“竞争与摩擦”混在的关系)以及近来日本对周边的一些举动等，担心日本走向政治大国后的政策走向；另一方面，日本政府面对中国快速的和平发展和自己过去所经历的“丧失的十年”，心理上难以调适并担心发展起来的中国危及自身的战略利益，特别是日本作为目前国际体系的既得利益者，其固有的保守心态是它尤其担心作为后发国家的中国缩小与它的差距，从而改变现有利益布局，所以在中日两国的博弈中，日本政府的最优策略便是使U1'

求解导数R∞=U1’，可得U1’=Ad{1+[E(b1)/(1+r1)]}①，同理可得U2'=C(-d){l+[E(b2)/(1+r2)]}②(这里“一”表示中日两国间的负相关关系，比较时取其绝对值)，比较①与②，可以发现，由于从2003-2006年间，中国经济的r1一直保持高位运行，分别是10.O％、10.1％、10.4％、10.7％，日本经济的r2则为1.4％、2.6％、0.8％、2.8％，所以1，(1+r1)必然小于1/(1+b)。而在E(h)函数上，由于日本在2001年的能耗强度为0.91，而同期中国的能耗强度却为8.45，换句话讲，就是同等能耗，日本将有更多的产出，因而也就对生更大的影响，即E(h1)

究其原因，症结就在于未能将纳什均衡贯彻于动态博弈的各个阶段，实现子博弈精炼纳什均衡。按照子博弈精炼纳什均衡的条件要求，行为者的最优策略必须贯彻于博弈的各个阶段，以便在博弈的各个阶段实现纳什均衡。而在上述分析中，δ与E等系数借助影响单位X增益而作用于G博弈在日本政府的最优策略中得到了体现，尽管借此可实现策略选择在G博弈中的纳什均衡，但是却忽视了最优策略在g博弈中的贯彻，因而也就未能在g博弈中实现纳什均衡。所以对于日本政府来说，将最优策略进一步贯彻于g博弈中以便在g博弈也实现纳什均衡，就成为其必然的策略选择。从上述表达式来看，U1

实际上，日本政府选择阻扰或干扰中国海外油源拓展的对抗策略，就是这一策略考量的直接体现。因为在贴现系数存在的情况下，尽管阻扰或干扰中国海外油源的拓展的举动并不能必然带给日本单位x的增益，但是由于r1>r2，带来δ1

自己在既得利益分布中的地位。而对中国来说，情况亦是如此，只能采取“针锋相对”的策略，不断拓展自己稳定的海外油源(这在客观上起到了阻扰或干扰日本海外油源拓展的作用)，才能保证自己的损失总小于日方。由此可以看出，双方的对抗策略借助对d的影响将纳什均衡贯彻到了博弈中，从而实现了在整个次数为2的有限性重复博弈中的子博弈精炼纳什均衡。由此也就可以理解为何在海外石油市场上，中日之间不断出现拓展、干扰、再拓展、再干扰……局面的原因。

最后，经过上述分析，基本可以得出如下结论：

(1)双方缺乏政治互信，才使得双方不断追求相对得益，奉行自我利益占优的纳什均衡策略。

(2)减弱d的影响，缓解相互制约的负相关关系，既是双方贯彻最优策略，在博弈的两个阶段实现纳什均衡的着力点，也是双方实现子博弈精炼纳什均衡后的客观结果。

(3)油价因素在上述条件下的博弈中并不发挥主要作用。换言之，高油价并不必然导致合作产生，有时高油价还会导致对稳定油源的进一步争夺。

现实对策：订立基于互信的政治契约

1.订立基于互信的政治契约的必要性

基于上述分析，可以看出，中日两国缺乏政治互信是导致两国不断追求相对利益，奉行自我利益占优的纳什均衡策略的主要原因。按照新现实主义的看法，感到不安全的国家总关心收益如何分配，它们并不注重参与者两方是否都收益，而只关心谁多得益。如果收益分配不均，得益的国家总想要削弱对方以改变自己在利益分配中处于不利地位，即使利益分配的双方有获得绝对收益这种愿望，但都害怕对方的实力增强对自己有威胁，所以合作起来就不成功。

因此，要实现中日在海外石油上的合作，就必须首先在双方之间订立基于互信的政治契约，消除因对对方不信任而产生的不安全感以及由此引发的对相对收益的追求。而一旦这种政治契约得以订立，那么按照新制度经济学的判断，将促进双方实现“记忆编码”，使其参与的博弈转变成“制度支持的完美记忆”(institution-assisted perfectrecall)博弈，从而大大提高信息交换的效率，稳定双方在博弈中的行动策略与心理预期，进而缓解双方因对方政策可能出现的突变性而产生的不安全感，降低谈判中的“讨价还价”成本，推动合作进程的快速发展。

在这一点上，法德和解给与了历史的佐证。在1963年，法德两国签署了《法德友好条约》。其意义不仅在于标志着法德双方和解的开始，更在于它还是法德之间基于互信订立的一种政治契约，使得双方从此可以秉信释疑，开诚布公地探讨地区合作事宜，携手推动欧洲一体化的发展。

2.订立基于互信的政治契约的着力点

任何政治契约的订立，都是缘于对利益的关注，也都以利益为订立契约的着力点，所以中日之间订立基于互信的政治契约，也必须以两国利益为着力点。

根据上述困境分析，减弱d的影响，缓解相互制约的负相关关系是双方在整个有限性博弈中贯彻最优策略，实现各自利益占优的着力点：日本政府借此缓解中日之间相互制约的负相关关系的策略是对抗，即阻挠或干扰中国海外油源的拓展，导致中国也不得不采取针锋相对的策略，最终形成了双方追求各自利益占优的子博弈精炼纳什均衡。

实际上，在当今世界，保证稳定的油源，缓解相互制约的负相关关系一直有两条思路：一是直接拓展油源，保证有稳定的石油供给，上述中日博弈也就是在这方面展开；二是寻找替代能源，发展节能技术。如果说前者在中日博弈中证明其占优策略为对抗的话，那么第二种则要在合作中实现自我利益最优。所以只要中日双方转换思维，加强双方在替代能源、节能技术上的合作，那么就可以规避在前者中面临的纳什均衡，在合作中实现各自利益的最优。因此，中日双方订立基于互信的政治契约，其着力点就可以放在寻找替代能源，发展节能技术上。首先在“节流”上培养双方的信任度，随后在一定程度时将此信任度“外溢”至“开源”领域，从而实现双方“记忆的编码”，缓解双方在此领域的担心与焦虑，进而达到订立互信政治契约的目的，最后消除双方的不安全感，使双方摒弃对相对收益的追求，在“开源”领域实现合作的最优收益。

而且从现实来看，此种着力点也有其存在的客观现实性：

第一，中国有寻找替代能源，发展节能技术的积极愿望。“节能优先”已成为中国可持续能源战略的重要组成部分。

第二，日本有着较为发达的开发替代能源、发展节能技术的科技水平。比如2005年9月，日本与印度签署的两国在能源领域进行综合性合作的共同声明，已堪称能源合作的典范。

博弈最优策略范文第4篇

【关键词】倾销反倾销博弈分析

一、前言

随着经济全球化和贸易自由化的不断发展，进口关税、配额和出口补贴等贸易保护手段作为保护本国经济的一种手段，其作用越来越弱。反倾销作为一种被世界贸易组织所允许的合法而有效的手段，被越来越多的国家所采用。改革开放以来，中国对外贸易迅速发展，但随之而来的是国外反倾销调查的迅速增加。根据WTO统计，截止至2012年12月，我国所遭受反倾销调查数量为885件，是全球遭受反倾销调查最多的国家。世界各国对我国频繁实施的反倾销诉讼已经严重阻碍了我国对外贸易的健康发展。

倾销是指以低于成本的价格将一国商品销售到另外一国市场的行为。WTO反倾销协议规定，如果一项产品从一国出口到另一国的出口价格低于在出口国国内消费的正常贸易过程中的同类产品的可比价格，则该产品被认为是倾销产品。反倾销指进口国当局依法向对进口国产业造成损害的倾销行为采取征收反倾销税等措施，以抵消损害后果的法律行为，这是一种被世界各国普遍认可的限制进口手段。

目前，国外对倾销与反倾销的博弈研究既有理论研究，又有实证分析。理论研究主要集中在完全信息条件下双寡头静态博弈，如Brander、Krugman、Spencer等。Prusa、Tharakan等则对反倾销进行了实证分析，并从博弈角度论述了反倾销法作为指导局中双方博弈的规则尚有不完善的地方需要修订。国内运用博弈论分析倾销与反倾销问题的尚不多见，张维迎和马捷从产权角度研究了产权对倾销问题的影响，杨仕辉就外国对华反倾销的逆向选择作了实证分析，杨仕辉和张娟通过构建不完全信息条件下的倾销与反倾销动态博弈模型对反倾销效应进行了理论推导。本文在参考国内外文献的基础上，运用博弈论为分析工具，建立了倾销与反倾销的博弈模型，对倾销与反倾销中出现的问题进行分析。

二、倾销与反倾销的博弈论分析

（一）倾销与反倾销的完全信息博弈分析

假定国外企业不进行倾销而国内企业不进行反倾销诉讼，其效用分别为u1 和u2；国外企业进行倾销，倾销成本为c1，同时国内企业不进行反倾销时国外企业进行倾销的利润为m；国内企业进行反倾销，反倾销成本为c2。通常m>c1，m>c2。博弈矩阵如图1。

当国外企业倾销时，如果国内企业进行反倾销，国内企业的效用为u2-c2；如果国内企业不进行反倾销，国内企业的效用为u2-m，由于u2-c2>u2-m，国内企业的最优策略是进行反倾销。当国外企业不倾销时，如果国内企业进行反倾销，国内企业的效用为u2-c2；如果国内企业不进行反倾销，国内企业的效用为u2，由于u2-c2

如果一个人采取混合战略，其对手不能准确地猜出他实际上会选择的战略。假定国外企业进行倾销的概率为p，不倾销的概率为1-p；国内企业进行反倾销的概率为q，不进行反倾销的概率为1-q。

（二）倾销与反倾销的不完全信息博弈分析

假设进行倾销与反倾销博弈的参与人仍是国外企业和国内企业，他们追求利润最大化。但信息是不完全的，潜在国外企业决定是否对某国进行倾销，国内企业并不知道国外企业的成本函数。假定国外企业有两个可能的类型：低成本或高成本；国外企业是低成本时，实施低价策略不会导致国内企业反倾销的成功，而高成本时国外企业的低价策略会导致国内企业反倾销的成功。两种成本情况下的支付矩阵如图2所示。

国内企业在博弈开始时只知道国外企业是高成本的概率为p，低成本的概率为1-p。无论国外企业是低成本还是高成本，出口到某国的选择都有低价格和高价格。博弈的第一阶段，当国外企业选择低价策略，国内企业的最优选择是反倾销；当国外企业选择高价格，国内企业的最优选择是不反倾销。博弈的第二阶段，国内企业是否对国外企业的价格策略实施反倾销，依赖于国内企业对国外企业成本的判断，如果国外企业是低成本的时候，国内企业的最优选择是不反倾销，当国外是高成本，选择低价格的时候，国内企业的最优选择是反倾销；反之，则不反倾销。国内企业是否进行反倾销，依赖于他对国外企业成本的判断。高成本国外企业如果选择价格a21时，会招致国内企业的反倾销，因此，高成本企业可能会选择价格a11或a12，以避免招致国内企业的反倾销。在观测到国外企业的第一阶段的价格选择后，国内企业会修正对国外企业的成本函数的先验概率p。如果国内企业观测到国外企业选择低价格a21，就可以推断国外企业一定是高成本，采取反倾销就是最优选择。国内企业看到国外企业选择低价策略，可以估计国外企业在低价条件下低成本和高成本的概率，即P（c1∣p1）和P（c2∣p1）。

假设p=0.5，低成本条件下选择低价格策略的概率大于高成本条件下选择低价格的概率，即a1>a2，可以得出P（c1∣p1）>P（c2∣p1）。如果国内企业作出这样的估计，就不会对国外企业进行反倾销了，反之，则选择进行反倾销。如图3，博弈方国外企业选择了低价策略，这个低价策略可能来自两种不同的成本类型。博弈方国内企业在决策点有两种选择，即反倾销和不反倾销。如果国外企业是低成本类型，即没有倾销行为，国内企业的最优选择是不反倾销，因为b11b32。如果国内企业估计A 是高成本类型的，他会选择进行不反倾销，但是国内企业估计错误，那他会选择不进行反倾销，而事实上却遭受了倾销，这样给贸易双方都带来了一定的损失。

三、结论

近些年，我国在外贸出口取得巨大成就的同时，面临严重的反倾销危机，中国企业在面对反倾销调查时，大都采取消极避战的态度，助长了国外对华反倾销的气焰。从博弈的角度来看，主要是因为我国企业还没有积极参与国际市场的博弈过程，不能通过主动介入改变被动局面。要改变这种局面，必须积极参与博弈，并利用可置信威胁改变对方的博弈路径，以获取利润最大化。同时，在企业选择价格策略时，要从长远利益出发，注意进口国对自己价格策略的反应，尽量不给进口国一个低价倾销的印象，以免使自己陷入反倾销的诉讼中。

参考文献

[1]张维迎，马捷.恶性竞争的产权基础[J].经济研究，1999（06）.

[2]杨仕辉.反倾销博弈与逆向选择[J].世界经济，2000（01）.

[3]杨仕辉，张娟.不完全信息条件下倾销与反倾销动态博弈[J].中国管理科学，2000（03）.

博弈最优策略范文第5篇

【关键词】博弈论；非合作博弈；纳什均衡；应用

文章编号：ISSN1006―656X（2013）12-0043-01

一、博弈论的概述

博弈论（game theory），又称对策论，是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题，也就是一些个人或组织，面对特定的环境条件，在一定的规则约束下，同时或先后，一次或多次，从各自的行为或策略中进行选择并加以实施，各自取得相应结果的过程。

一个完整的博弈一般包含几个要素：参与者，行动，策略，结果，均衡等。参与者、行动和结果统称为博弈规则，博弈分析的目的是使用博弈规则来决定均衡。但是，博弈的行动不等同于博弈的策略，博弈的结果不等同于博弈的均衡。根据参与人的数量，可分为二人博弈和多人博弈；根据参与人是否合作，可分为合作博弈和非合作博弈；根据博弈结果的不同，可分为零和博弈、常和博弈和变和博弈。

博弈论对我们的经济生活有重要意义，人们之间决策行为相互影响的例子有很多：从国家角度出发，在国际贸易中合理运用博弈论可使本国和其他国家都受益，取得双赢效果；从个人角度出发，在生活中合理运用博弈论可使自己选择最优策略，减少不必要的成本开支。

二、非合作博弈――纳什均衡

非合作博弈是指不允许存在有约束力协议的博弈。完全信息静态博弈属于非合作博弈，该博弈中，每个博弈方的策略都是针对其他博弈方策略或策略组合的最佳对策，具有这种性质的策略组合，正是非合作博弈理论中最重要的一个概念“纳什均衡”。

用表示一个博弈，如果有个博弈方，每个博弈方的全部可选策略的集合称为“策略空间”，用表示；表示博弈方的第个策略，其中可取有限个值（有限策略博弈），也可取无限个值（无限策略博弈）；博弈方的得益用表示，是各博弈方策略的多元函数。个博弈方的博弈常写成。在博弈中，如果由各个博弈方的每一个策略组成的某个策略组合中，任一博弈方的策略，都是对其余博弈方策略组合的最佳对策，即

，对任意都成立，则称为的一个“纳什均衡”。

纳什均衡的求解，常采用得益矩阵法。在囚徒困境中，每个参与者都能猜出对方策略，称该纳什均衡为纯策略纳什均衡。囚徒困境问题反映了非合作博弈的根本特征，体现了个人理性与集体理性的矛盾。两寡头企业选择产量的博弈就是囚徒困境问题在经济学上的应用。若两企业联合形成卡特尔，选择垄断利润最大化的产量，每个企业都能得到更多利润。但卡特尔协定不是纳什均衡，给定对方遵守协议，每个企业都有增加产量的冲动，最后每个企业只能得到纳什均衡产量的利润，它严格小于卡特尔产量下的利润。

在某类博弈中，每个理性人都不能猜出对方的策略，参与人是以一定的概率选择某种策略的，这样的策略称为混合策略，相应的均衡称为混合策略纳什均衡。纯策略是混合策略的特例。相关的例子有日常生活中的打扑克、划拳等。

三、治理河流污水排放的制度设计

环境保护，人人有责，限制企业的污水排放符合社会各界的呼声。检查和制止排污是政府的职责，对于以利润最大化为目标的企业，其一直采取各种措施尽可能降低生产成本。政府和企业间的关系可用经济学中的监督博弈来解释。

该博弈的参与者是政府和企业，政府的策略选择是检查或不检查，企业的策略选择是排污或不排污。假设是企业治理污水（不排污）增加的生产成本，若排污，为自己多得的收益。是政府检查所需成本。是政府对企业排污的罚款金额。是企业排污对社会利益的损害。假设且，即政府对排污企业采取重罚措施。对应不同策略组合的得益矩阵可见下表。

政府和企业的得益矩阵

在以上假设条件下，政府和企业都猜不出对方会采取何种策略，因而不存在纯策略纳什均衡，只能求解混合策略纳什均衡。如果假定条件不成立，通过劣策略剔除可得到占优策略，即（检查，不排污）或（不检查，排污）为占优均衡。

在得益矩阵中，用表示政府检查的概率，表示企业排污的概率。给定，政府检查和不检查的期望收益分别为：

由，得。即如果企业排污概率小于，政府的最优选择是不检查；如果大于，政府的最优选择是检查；如果等于，政府随机地选择检查或不检查。

政府的最终目标是降低企业排污概率并保护环境。据的结果，有两种措施：一是增大分母，即采取重罚措施，使企业平日不敢排污；二是减小分子，即降低检查成本。现阶段可行做法是设立举报电话，避免政府盲目检查，提高办事效率。

再者，给定，企业选择排污和不排污的期望收益分别为：

由得，即如果政府的检查概率小于，企业的最优选择是排污。现实中，政府对排污的惩罚越重，企业因排污获得的收益越低，企业的排污概率就越小。反之，企业的排污概率就越大。

企业因排污获得收益的大小，政府难以准确把握。前面谈到的企业都是以利润最大化为目标的企业，适于民营企业。现实中大多排污者是国有企业，这就涉及企业经营的控制权收益问题。企业因排污获得的生产成本降低部分可以很容易转化为企业经营者的控制权收益，这些收益包括奖金、福利或者因企业效益上升而带来的升迁机会。反过来，如果企业因为排污而受罚，经营者并没有控制权损失，因为罚款由企业出，经营者只是没有控制权收益而已。

四、小结

本文以纳什均衡为理论基础，分析了纯策略纳什均衡和混合策略纳什均衡在经济生活中的应用。但本文探讨的只是博弈论中一个很小的方面，对均衡问题中的子博弈精炼纳什均衡等没有涉及到，但它们的应用也很广泛。在日常经济生活中，小到购物时的讨价还价，大到企业间的竞争与合作、国家间的倾销与反倾销等，都可归结为博弈问题。

参考文献：

博弈最优策略

博弈最优策略范文第1篇

博弈最优策略范文第2篇

博弈最优策略范文第3篇

博弈最优策略范文第4篇

博弈最优策略范文第5篇

AI文章写作

相关推荐更多

热门文章排行更多

相关期刊更多

管理工程学报

逻辑学研究

供应链管理

精品文章排行更多

在线服务