愿景驱动、演化博弈与环境污染治理进路

2018-10-18 08:04王先甲夏可

江汉论坛 2018年7期

王先甲夏可

摘要：运用演化博弈理论来解决环境污染治理问题的本质是分析演化过程中相应系数变化对于结果的影响，这里的演化结果为合作比例，合作比例是指参与节能减排企业占整体企业数量的比例。当政府必须同时权衡考虑收益系数、成本和愿景水平以及选择强度的情况时，相应系数之间会互相影响，而较低的收益系数、较低的成本和较高的愿景水平需要不断加强保持，而选择强度的讨论需要通过理论模型进行相应取舍，从而需要政府采取措施来进行最优化决策，使得节能减排比例提高，而节能减排比例的提高意味着参与节能减排的企业数量增加，从而越有利于环境污染的治理。当政府采取奖励金机制和罚金机制共同使用时，需要重新构建环境污染治理演化博弈路径，考量相应系数对于节能减排比例的影响，当选择强度处于最优临界条件时，也能最大限度地促进节能减排比率的增加，从而促进环境污染问题的改善。

关键词：环境污染治理；演化博弈；愿景驱动规则；节能减排比例

中图分类号：F224 文献标识码：A 文章编号：1003-854X（2018）07-0037-07

一、引言

在演化博弈过程中，每个个体会更新策略，即按一定的概率和状态转移来更新策略，这个称为策略更新规则。主要的策略更新规则包括一般生灭规则、愿景驱动规则和模仿规则，对应于不同的策略更新规则，演化博弈过程会有显著的差异。对于演化博弈的研究主要在于测度相应系数变化对于演化稳定策略的影响，这里的演化稳定策略是指当演化时间足够长的时候，种群中个体选择各种策略的情况。因此，需要研究当演化时间足够长的时候，种群中选取各种特定策略的个体占整个种群的比例，而这一比例就反映了演化稳定策略。

对于不同情况，演化稳定策略的衡量方式不同。无限种群的演化博弈模型主要关注相应系数对于演化均衡點的影响。这里的演化均衡点是指对于无限种群，选取各种特定策略的个体占整个种群的比例的集合，这里的演化均衡点和演化均衡策略在意义上是相同的。对于有限种群的演化博弈模型而言，当状态转移方程是有吸收态的马尔科夫链的时候，主要研究合作策略的扎根概率、条件扎根时间和非条件扎根时间。在有限种群的演化博弈模型中，当状态转移方程是无吸收态的马尔科夫链的时候，研究合作策略的平均丰度；当状态转移方程是无吸收态的马尔科夫链的时候，即使种群中选取特定策略的个体占领整个种群或者种群中选取特定策略的个体从种群中完全消亡，由于马尔科夫链无吸收态的特性，对于种群中选取特定策略的个体占领整个种群的情况，很快又会产生其它的策略个体入侵种群，而对于种群中选取特定策略的个体从种群中完全消亡的情况，很快又会产生新的这种特定策略的个体入侵种群，故而达到演化稳定状态时，演化状态又会马上变动而偏移演化稳定状态，此时不存在绝对的演化稳定状态，但是可以通过研究平均丰度来分析相对的演化稳定状态，即相对的演化稳定策略。

本文基于策略更新规则的多人演化博弈模型，结合愿景驱动规则下相应系数的变化对于平均丰度的影响进行分析对比。运用演化博弈理论来解决环境污染治理问题的本质是分析演化过程中相应系数变化对于结果的影响。这里的演化结果为合作比例，合作比例是指参与节能减排企业占整体企业数量的比例。研究意义有三个方面：（1）关注愿景驱动规则下相应系数变化对于平均丰度的影响，补充了之前研究对于愿景驱动规则的比较分析；（2）将弱选择条件推广到了一般选择条件，对于相应的演化博弈过程进行了深化，进而对多人演化博弈的本质进行了推广。同时，通过引入突变概率将具有吸收态的马尔科夫链转化为无吸收态的马尔科夫链，从而分析平稳分布的相关特性；（3）将实用性很高的博弈模型推广到多人演化博弈模型中，并根据系数的不同进行分类讨论。

二、相关文献综述

愿景驱动规则在自然界的生物演化中占有重要地位，比如鱼群的寻找食物和蚁群的觅食，以及鼠群的行为演化过程①。根据W. Hoppitt（2013）的研究，人类社会演化过程中，愿景驱动规则具有重要作用②。愿景驱动规则是指个体会将自身的收益函数和自己的愿景水平进行比较，从而决定是否改变策略，据此进行策略更新。Stefan Napel（2003）考虑到愿景驱动规则的两人最后通牒演化博弈模型，与一般模型中假设愿景水平不变的情况不同，这里假设愿景水平是演化时间的函数，并且会受到干扰，其研究结论为最小惯性行为水平的增加会使得谈判成功率增加，愿景衡量系数、干扰概率、愿景方差对于谈判成功率的影响同样是成正比的③。Lili Deng等（2016）基于方格结构的多人最后通牒演化博弈模型，将策略分为利己策略和利他策略来测度平均期望水平、愿景水平和演化时间对于合作水平的影响，强调要把握这些因素的影响需要考虑不同临界值点④。Frederick A. Matsen（2004）分析了完全图、超立方体网格和环结构中愿景水平、演化时间和节点数量对于凝聚系数的影响，认为在足够长的演化时间之后，适当的愿景水平和节点数量的组合会使得凝聚系数达到最大，而且完全图、超立方体网格和环结构的相应组合是有区别的，并且得到了以愿景水平和节点数量为自变量凝聚时间的表达式⑤。Jun Zhang等（2011）引入空间结构的多人囚徒困境演化博弈模型，研究了合作收益、愿景控制系数、节点度和演化时间对于演化合作水平的影响，强调这些系数的影响不能一概而论⑥。Tadeusz Platkowski（2015）假设愿景水平是演化时间的函数，测度了愿景水平系数、演化时间对于演化合作水平的影响，结论是当愿景水平为内生变量时，在适当条件下能保证对于任意的种群数量和初始情况，其演化合作水平都达到最高值⑦。

国内学者不仅分析政府和企业之间基于演化博弈的环境污染治理问题，还会研究中央政府和地方政府之间基于演化博弈的环境污染治理问题，特别是分析各级政府的环境污染治理政策的设计。同国外演化博弈研究有所区别的是，国内的演化博弈研究主要集中于基于策略更新规则的两种群两人演化博弈和两种群多人演化博弈，对于单种群演化博弈研究较少。

卢方元（2007）引入演化博弈和环保部门监督惩罚机制的水污染治理模型，同时引入了地方政府环保部门问责制度，即对水污染排放监督力度不够的环保部门将受到惩罚，而对水污染排放监督力度优秀的环保部门将得到奖励，主要探讨了环保部门监测水污染成本、环保部门对排污企业的罚金、环保部门受惩罚成本和环保部门的奖励金对于节能减排比例的影响，认为必须适度提高对排污企业的罚金，同时推动环保问责制度，增加对于水污染排放监督力度不够的环保部门的处罚，采取措施降低环保部门的环境监测成本⑧。李昌峰等（2014）引入演化博弈和上下游地区的水污染治理模型，这里上游地区和下游地区的水污染治理存在显著差异，需要引入生态补偿机制，认为上游地区为保护生态环境而损失的机会成本、下游地区补偿上游地区的货币金额、上游地区因为保护环境而获得的生态效益以及生态补偿金额都对节能减排比例产生影响，强调适度的生态补偿机制能有效解决上下游地区的水污染治理问题，从而促进节能减排比例的增加⑨。范如国等（2015）引入演化博弈和产业集群的碳排放治理模型，研究了集群增益能力、调节系数、企业度指标权重和投入指标权重对于节能减排比例的影响，主张为提高增益系数适当的企业度指标和收入指标权重有利于促进企业节能减排比例的提高⑩。

从现有文献可以发现关于环境污染治理问题的研究有许多成功的方法和经验，也存在缺陷：第一，将企业视为整体，分析政府和企业的环境治理问题，或是各级政府间的基于演化博弈的环境治理问题，而没有考虑不同企业间互相作用的情况。第二，数据分析较少，即相应的静态比较分析较少。本文将环境污染治理问题转换为多人公共物品博弈，从而建立了基于演化博弈规则的环境污染治理演化博弈模型，测度相应系数对于节能减排比例的影响，从而提出政府调控环境污染治理的政策建议。

三、模型构建

我们假设，每个企业有两个策略可以选择，合作（C）或是不合作（D）。如果选择合作策略C，则会付出节能减排成本c。如果选择不合作策略D，则会付出节能减排成本0。很明显，所有企业的节能减排成本之和越高，表明污染量越低，环境越好。而政府会根据节能减排成本之和的具体情况对企业给予奖励，此时奖励金等于企业节能减排成本之和乘以收益系数r，这笔奖励金将平分给每个企业。因此，政府可以通过政策调控相应节能减排成本c和收益系数r来促进更多的企业参与节能减排。

不少研究对于环境污染问题的设定是对于每个企业进行污染物监测，设定标准，然后进行补贴和罚款。但是对每个企业的监测会使得政府负担巨大的监测成本和政策实施成本。也许有人认为，将奖励金平分给每个企业的设计会使得每个企业都期待别的企业节能减排，而自己不节能减排，从而只享受奖励金而不负担节能减排成本，最后导致三个和尚没水吃的现象发生。但是通过演化博弈的设计和最后结果表明，只要政府适当调控节能减排成本c和收益系数r，一定会出现节能减排的企业，而且可以得到很高的节能减排比例，也就是说很多的企业会参与节能减排。这样不仅使得很多企业参与节能减排，还节省了政府的环境监测成本和政策实施成本。

演化博弈的一个重要特点是每个企业都会根据策略更新规则来更新策略或者说换策略，即上一个阶段企业选择合作（参与节能减排），而下一个阶段企业可能选择合作（参与节能减排）也可能选择不合作（不参与节能减排）。上一个阶段选择不合作的情况类似。我们采用愿景驱动规则来更新策略。愿景驱动规则是一种策略更新规则，代表了演化博弈中企业X会更新策略的概率。在愿景驱动规则下，企业X会改变策略的概率。其中ω表示选择强度，πx表示个体X在演化博弈中得到的收益，α表示个体X的愿景水平。这里的选择强度ω是外生变量，由政府调控。这个愿景水平代表了企业在决定参与节能减排时所期望的收益，即预期收益。这个变量表面上是由企业自主决定，实际上政府能通过环保宣传、增加公众对于环境污染情况了解等方法来影响企业的预期收益，即政府能通过政策调控愿景水平。

值得注意的是，这里我们还需要考虑突变系数δ。这个突变系数的意义为企业X会以δ的概率采用愿景驱规则来改换策略，會以（1-δ）的概率在下一个阶段继续采用本阶段的策略。假设企业总数量N，而且每个企业有两个策略可以选择：策略C和策略D。

多人演化博弈的过程是：（1）任意选取一个企业，记为企业M，同时在剩下的（N-1）个企业中选取（d-1）个个体。（2）企业M选择博弈策略，即在策略C和策略D中选择一个策略，同时（d-1）个企业分别选择博弈策略，同样是在策略C和策略D中选择一个策略。（3）这d个企业发生博弈，取得相应的博弈收益。值得注意的是这里的d-1≤N-1，即每一个企业只和另外的数量为（d-1）的企业发生博弈，而不是和整个种群中其他（N-1）个企业发生博弈。

我们将这个过程称之为一个阶段，具体演化过程是按照这个阶段不断重复。由于存在着策略更新规则，所以不断重复的过程中企业会根据愿景驱动规则更新策略，从而使得相应的演化过程发生变化。之所以每一个企业只和另外的数量为（d-1）的企业发生博弈，是为了减轻政府的监测成本，政府只需要将企业按临近程度等因素划分区域，只需要监控出相应区域的节能减排成本之和的情况，就能通过奖励金机制来促进相应的区域的企业进行节能减排。

我们首先分析个体M的博弈收益。个体M的博弈收益取决于三个方面：第一，自己选取的策略，选取策略C或是选取策略D。第二，遇到的其他个体采取的策略，选取策略C或是选取策略D。第三，假设在这（d-1）个个体中选取策略C的个体数量为k，而在个（d-1）个体中选取策略D的个体数量为（d-1-k）。此时，对应于（d-1）个个体中选取策略C的个体数量k，当个体M采取策略C的时候，此时个体M的博弈收益为ak。此时，对应于（d-1）个个体中选取策略C的个体数量k，当个体M采取策略D的时候，此时个体M的博弈收益为bk。

当k取得不同值的时候（k=0，1，2，…，d-1），ak和bk会发生变化，即相应的企业M的博弈收益会发生变化。由此可以得到在对k进行不同的取值情况下个体M的博弈收益，即单种群多人演化博弈单次博弈中个体M的收益矩阵，如表1所示。

我们结合数据分析来对理论进行验证和扩展，定义种群数量N=100，突变概率δ=0.005，选取的种群数量d=15，成本c=1，愿景水平α=1，采用三组不同的收益系数r，分别为r=1.12，r=1.30，r=1.48。此时选择强度ω不断变化，而对应的节能减排比例如下图所示：

观察图1可以发现：

（1）在种群数量N，突变概率δ，选取的种群数量d，成本c，愿景水平α固定的情况下，当收益系数r处于低水平时，随着选择强度ω的不断增加，节能减排比例会不断增加。当选择强度ω在初始增加的时候，此时节能减排比例增加的速度很快；当选择强度ω增加到足够大的时候，节能减排比例增加的速度开始减缓，最后节能减排比例的变化趋于平稳。当收益系数r处于中间水平和高水平时，随着选择强度ω的不断增加，此时节能减排比例先减小再增加。当选择强度ω在初始增加的时候，此时节能减排比例减小的幅度很大。当选择强度ω增加到临界值时，此时节能减排比例从减小变为增加。当选择强度ω超过临界值然后继续增加时，节能减排比例增加的幅度很大。当选择强度ω继续增加到一定数值时，节能减排比例增加的幅度开始减小，最后节能减排比例的变化趋于平稳。

（2）在种群数量N，突变概率δ，选取的种群数量d，成本c，愿景水平α固定的情况下，随着收益系数r的增加，节能减排比例会减少。低的收益系数r对应着高的节能减排比例，而中间的收益系数r对应着中间的节能减排比例，同时高的收益系数r对应着低的节能减排比例。

2. 成本对于节能减排比例的影响

在种群数量N，突变概率δ，选取的种群数量d，收益系数r，愿景水平α固定的情况下，分析成本c变化时选择强度ω的变动对于节能减排比例的影响。

我们利用数据分析来对理论进行验证和扩展，定义种群数量N=100，突变概率δ=0.005，选取的种群数量d=15，收益系数r=1.30，愿景水平α=1，采用三组不同的成本c，分别为c=0.87，c=1.13，c=1.39，此时选择强度ω不断变化，而对应的节能减排比例如下图所示：

观察图2可以发现：

（1）在种群数量N，突变概率δ，选取的种群数量d，收益系数r，愿景水平α固定的情况下，随着选择强度ω的不断增加，此时节能减排比例先减再增加，当选择强度ω在初始增加的时候，此时节能减排比例减小的幅度很大。当选择强度ω增加到临界值时，此时节能减排比例从减小变为增加。当选择强度ω超过临界值然后继续增加时，节能减排比例增加的幅度很大。当选择强度ω继续增加到一定数值时，节能减排比例增加的幅度开始减小，最后节能减排比例的变化趋于平稳。

（2）在种群数量N，突变概率δ，选取的种群数量d，收益系数r，愿景水平α固定的情况下，随着成本c的增加，节能减排比例会减少。低的成本c对应着高的节能减排比例，而中间的成本c对应着中间的节能减排比例，同时高的成本c对应着低的节能减排比例。

3. 愿景水平對于节能减排比例的影响

在种群数量N，突变概率δ，选取的种群数量d，收益系数r，成本c固定的情况下，我们讨论在愿景水平α变化时选择强度ω的变动对于节能减排比例的影响。

我们利用数据分析来对理论进行验证和扩展，定义种群数量N=100，突变概率δ=0.005，选取的种群数量d=15，收益系数r=1.30，成本 c=1，采用三组不同的愿景水平α，分别为α=1.15，α=1.40，α=1.65，此时选择强度ω不断变化，而对应的节能减排比例如下图所示：

观察图3可以发现：

（1）在种群数量N，突变概率δ，选取的种群数量d，收益系数r，成本c固定的情况下，随着选择强度ω的不断增加，此时节能减排比例不断增加。当选择强度ω在初始增加的时候，此时节能减排比例增加的幅度很大，当选择强度ω增加到临界值时，此时节能减排比例增加的幅度开始减缓，最后节能减排比例的变化趋于平稳。

（2）在种群数量N，突变概率δ，选取的种群数量d，收益系数r，成本c固定的情况下，随着愿景水平α的增加，节能减排比例会增加。低的愿景水平α对应着低的节能减排比例，而中间的愿景水平α对应着中间的节能减排比例，同时高的愿景水平α对应着高的节能减排比例。

五、研究结论及其启示

本文的研究结论如下：

（1）在种群数量N，突变概率δ，选取的种群数量d，成本c，愿景水平α固定的情况下，当收益系数r处于低水平时，随着选择强度ω的不断增加，节能减排比例不断增加。当选择强度ω在初始增加的时候，此时节能减排比例增加的速度很快。当选择强度ω增加到足够大的时候，节能减排比例增加的速度开始减缓，最后节能减排比例的变化趋于平稳。当收益系数r处于中间水平和高水平时，随着选择强度ω的不断增加，此时节能减排比例先减小再增加；当选择强度ω在初始增加的时候，此时节能减排比例减小的幅度很大；当选择强度ω增加到临界值时，此时节能减排比例从减小变为增加；当选择强度ω超过临界值然后继续增加时，节能减排比例增加的幅度很大；当选择强度ω继续增加到一定数值时，节能减排比例增加的幅度开始减小，最后节能减排比例的变化趋于平稳。在种群数量N，突变概率δ，选取的种群数量d，成本c，愿景水平α固定的情况下，随着收益系数r的增加，节能减排比例会减少。

（2）在种群数量N，突变概率δ，选取的种群数量d，收益系数r，愿景水平α固定的情况下，随着选择强度ω的不断增加，此时节能减排比例先减小再增加；当选择强度ω在初始增加的时候，此时节能减排比例减小的幅度很大；当选择强度ω增加到临界值时，此时节能减排比例从减小变为增加；当选择强度ω超过临界值然后继续增加时，节能减排比例增加的幅度很大；当选择强度ω继续增加到一定数值时，节能减排比例增加的幅度开始减小，最后节能减排比例的变化趋于平稳。在种群数量N，突变概率δ，选取的种群数量d，收益系数r，愿景水平α固定的情况下，随着成本c的增加，节能减排比例会减少。

（3）在种群数量N，突变概率δ，选取的种群数量d，收益系数r，成本c固定的情况下，随着选择强度ω的不断增加，此时节能减排比例不断增加；当选择强度ω在初始增加的时候，此时节能减排比例增加的幅度很大，当选择强度ω增加到临界值时，此时节能减排比例增加的幅度开始减缓，最后节能减排比例的变化趋于平稳。在种群数量N，突变概率δ，选取的种群数量d，收益系数r，成本c固定的情况下，随着愿景水平α的增加，节能减排比例会增加。

由此判断，我们得到的启示如下：

一是在不考虑成本和愿景水平的情况下，政府应采取措施使得收益系数保持在相对低的水平，同时将选择强度保持在较高的水平，从而最大限度促进节能减排比例的提高。此时值得注意的是，收益系数降低的过程中，节能减排水平会出现从先减少再增加的趋势变动到一直增加的情况，故而相对低的收益系数需要不断加强保持。

二是在不考虑收益系数和愿景水平的情况下，政府应采取措施使得成本保持在相对低的水平，同时将选择强度保持在较高的水平，从而最大限度促进节能减排比例的提高。此时值得注意的是，选择强度的增加过程中，节能减排水平会出现先减少再增加的情况，故而相对高水平的选择强度需要不断加强保持。

三是在不考虑收益系数和成本的情况下，政府应采取措施使得愿景水平保持在相对高的水平，同时将选择强度保持在较高的水平，从而最大限度促进节能减排比例的提高。当政府必须同时权衡考虑收益系数、成本和愿景水平以及选择强度的情况时，相应系数之间会互相影响，而较低的收益系数、较低的成本和较高的愿景水平需要不断加强保持，而选择强度的讨论需要通过理论模型进行相应取舍，从而需要政府采取措施来进行最优化决策，使得节能减排比例提高，而节能减排比例的提高意味着参与节能减排的企业数量增加，从而越有利于环境污染的治理。

值得注意的是，本文的演化博弈模型没有考虑到复杂网络下的情况。当引入复杂网络情况时，对于规则网络、小世界网络、无标度网络和随机网络，对应于不同的网络拓扑结构，相应的多人演化博弈模型会发生显著变化，愿景驱动规则的作用机制需要进一步探讨，此时相应系数需要进一步扩展，需要考虑度分布、聚类系数、平均路径长度等因素对于演化状态的影响。从模型广度来看，本文只分析了多人雪堆演化博弈和考虑阈值的多人公共物品演化博弈，对于其他博弈模型没有过多涉及。例如多人猎鹿演化博弈和多人资源竞争演化博弈，都是非常有意义的多人演化博弈模型，适合进行下一步讨论的模型。

本文研究的选择强度为一般选择条件下，而当选择强度为弱选择条件时，得出平均丰度公式之后，通过理论和数据分析来研究相应系数变化对于平均丰度的影响，本文涉及很少，这些留作进一步讨论。政府可以通过设计政策使得收益系数处于低水平，同时成本处于低水平，而且愿景处于高水平，此时能最大限度地促进节能减排比率的增加，从而促进环境污染治理问题的解决。政府还可以通过设计政策使得选择强度处于中间水平，当选择强度处于最优临界条件时，此时能最大限度促进节能减排比率的增加，从而促进环境污染治理问题的解决。

注释：

① B. G. Galef， E. E. Whiskin， Conformity in Norway rats Animal Behaviour， 2008， 75， pp.2035-2039.

② W. Hoppitt， K. N. Laland， Social Learning： An Introduction to Mechanisms， Methods and Models， Princeton University Press， 2013， 342（6160）， pp.801-802.

③ S. Napel， Aspiration Adaptation in the Ultimatum Minigame， Games & Economic Behavior， 2003， 43（1），pp.86-106.

④ L. Deng， W. Zhang， C， Wang et al.， The Dynamics of the Discrete Ultimatum Game and the Role of the Expectation Level， Discrete Dynamics in Nature and Society， 2016，（5）， pp.1-8.

⑤ F. A. Matsen， M. A. Nowak， Win-stay， Lose-Shift in Language Learning From Peers， Proceedings of the Na-tional Academy of Sciences of the United States of America， 2004， 101（52）， pp.18053-18057.

⑥ J. Zhang， Y. P. Fang， W. B. Du et al.， Promotion of Cooperation in Aspiration-based Spatial Prisoners Dilemma Game， Physica a Statistical Mechanics & its Applications， 2011， 390（12）， pp.2258-2266.

⑦ T. Platkowski， Aspiration-Based Full Cooperation in Finite Systems of Players， Applied Mathematics and Co-mputation， 2015， 251（251）， pp.46-54.

⑧ 盧方元：《环境污染问题的演化博弈分析》，《系统工程理论与实践》2007年第9期。

⑨ 李昌峰、张娈英、赵广川等：《基于演化博弈理论的流域生态补偿研究——以太湖流域为例》，《中国人口·资源与环境》2014年第1期。

⑩ 范如国、张应青、罗会军：《考虑公平偏好的产业集群复杂网络低碳演化博弈模型及其仿真分析》，《中国管理科学》2015年第S1期。

作者简介：王先甲，武汉大学经济与管理学院教授、博士生导师，湖北武汉，430072；夏可，武汉大学经济与管理学院博士研究生，湖北武汉，430072。

（责任编辑陈孝兵）