公平分配与讨价还价博弈

2020-12-14 04:06张宏芝

合作经济与科技 2020年23期

张宏芝

[提要] 如果将分配问题中所涉及的分配对象划分为尽可能小的“粒度”，不被公平分配均衡状态所吸引的大多数初始状态会被接近于公平分配的多态所吸引，最终达到一个非公平分配但是公平分配的均衡稳态情形。虽然也会有打破公平分配的均衡状态可能性，但是处在公平分配的均衡状态相对更多。通过动态演化机制深入考察公平的稳态，以及从纯策略均衡、混合策略均衡的博弈论视角，运用Netlogo仿真发现，无论出于什么原因，不管是纯策略还是混合策略，向着公正的演进是一个均衡稳态。由于制度变迁中的路径依赖，当前民生政策走向影响未来福利制度模式。我国民生政策需要顶层设计，当务之急是扩大社保覆盖面，把城镇居民、公共部门、农民工整合进全国一盘棋的一元结构，实行基于公平正义的救助型福利政策。

关键词：纯策略;混合策略;Netlogo仿真

中图分类号：C913.7 文献标识码：A

收录日期：2020年8月18日

正义是人们在具体情境中进行理性选择和群体选择双重力量作用的结果，是在博弈均衡状态下达成的一种社会契约，是社会演化的结果。通过引入博弈论模型研究正义问题，可以得出代表正义的社会契约不仅具有稳定和效率特征，而且是平等的。博弈是人类或者动物在任何情况之下的互动。参与者所计划采取的行动称为策略。当一个人的策略给定时，那么另一个就不可能通过改变自己的主张以达到更好的结果，同样的情况反过来也一样，这种情形我们称为达到均衡，这样的均衡就是博弈论中的核心概念。最早提出这种概念的是1838年法国经济学家安东尼·奥古斯丁·库尔诺（古诺），这是纳什均衡应用的最早版本，这种均衡在约翰·纳什证明了具有普遍存在性之后，通常被称为“纳什均衡”。纳什均衡是一种策略组合，主要分为纯策略均衡和混合策略均衡。对于每一个参与人所选择的策略都是对于其他参与人的策略所做出的最优反应。这种均衡具有强制力，在这种均衡状态下，如果一方偏离这个均衡结果，他不仅事实上将一无所获，而且会因为他对均衡的偏离，带来比均衡状态下更加糟糕的结果。这种具有超强稳定性质的均衡叫做“严格纳什均衡”。

所以，以肯·宾默尔的公正博弈理论为依托，辅以计算机演化仿真工具，得出不管是纯策略的演化，还是出现多态情况的混合策略，对于公平分配问题最后都趋于一种稳定均衡状态。如果政府关心民生，那么正义的规则就是最大的民生。当所谓民生政策指向福利主义时，它其实已经背离了真正的民生。对于公平分配趋于一种稳定均衡状态的研究，对我国福利政策正义规则的制定具有一定参考价值。

一、原初状态的讨价还价与策略均衡

原初状态是约翰·罗尔斯在《正义论》里试图推出社会契约的正义所设置的一个初始状态，是“作为公平的正义”概念的研究起点。我们为什么会关注公平？肯·宾默尔认为，因为我们先祖的生活总是在博弈中，公平是均衡选择问题的演化解。他将罗尔斯《正义论》所推论的关于正义的条件看作是人类公平标准的普遍深层结构。约翰·罗尔斯认为在原初状态下，理性讨价还价将会得到一个公平的社会契约，这个契约首先保障一些基本的权利和自由，然后余下的是分配问题，罗尔斯使用“差别原理”得以解决。罗尔斯的差别原理被解释为一个讨价还价问题的平等主义的解，所谓差别原理的核心就是“最大最小化标准”，即最好的社会契约会使那些处在最劣势的人（或阶层）尽可能过得好一些，没在社会重复博弈中，这个“解”才能胜出。

（一）纯策略均衡。所谓“纯战略”，是提供给参与主体要如何进行博弈的一个完整的定义。特别的是，纯战略决定在任何一种情况下要做的移动，相应的纯策略均衡就是参与其中的主体都采用纯策略。公平在多方决策过程中扮演关键角色。

早在20世纪80年代初由德国经济学家古斯等人进行了第一场最后通牒博弈实验。最后通牒博弈是一种由两名参与者进行的非零和博弈。在这种博弈中，一名提议者向另一名响应者提出一种分配资源的方案，如果响应者同意这一方案，则按照这种方案进行资源分配;如果不同意，则两人都会什么都得不到。随后经济学家对最后通牒博弈实验做了近千次的实验。大量的行为实验的研究者都发现，人们并非像经典理论所预测的那样，必然会通过背叛来增进自身利益。这些实验对“经济人”和“理性人”的自利假设构成了系统性背离。根据宾谟的研究发现，“实验结果呈现多样化，但是提议者提出的方案很可能在50∶50附近，接近一半对一半的分配结果。而对响应者而言，如果其分配的数额不少于1/3，他将趋向于接受”。在最后通牒博弈实验中，提议者与响应者面对着二者相互作用的最优化问题，问题的解决方案是二者相互作用的最优化问题解的均衡解，最终会达到一个稳定的状态。

（二）混合策略均衡。“混合战略”是指允许参与主体随机选择一个纯战略，是对博弈中策略的一种扩充，也就是在原来给定的策略中，按照一定的随机规律来选择策略。我们不妨做以下假设：假设1：群体中有人主张分得2/3的蛋糕（称之为“贪婪者”）;假设2：群体中有人主张分得1/3的蛋糕（称之为“谦虚者”）;假设3：群体中有人主张分得1/2的蛋糕（称之为“公平者”）。通过假设1和假设2可以得到一个讨价还价的博弈图。其中，一个贪婪者碰到另一个贪婪者与碰到另一个谦虚者的机会是均等的。如果一个贪婪者碰到了另一个贪婪者，由于他们主张分割的蛋糕之和超出了整块蛋糕100%，所有他们各自将一无所获;如果一个贪婪者碰到了一个谦虚者，贪婪者就会得到2/3的蛋糕，谦虚者得到1/3的蛋糕;如果一个谦虚者碰到一个贪婪者，谦虚者分得1/3蛋糕，贪婪者分得2/3蛋糕;如果这个谦虚者碰到另一个谦虚者，他们各自分得1/3蛋糕。其中，贪婪者-贪婪者的（0，0）是不稳定的，会趋向收益更高的贪婪者-谦虚者;谦虚者-谦虚者的（1/3，1/3）也是不稳定的，也会趋向收益更高的謙虚者-贪婪者的（1/3，2/3）。最终形成贪婪者-谦虚者的（2/3，1/3）收益以及谦虚者-贪婪者的（1/3，2/3）收益的强稳定性。

以上不管对于纯策略均衡还是混合策略均衡的讨论，都无法从直观揭示重复博弈n次收敛于某个均衡解，或者博弈是否存在收敛。这时，我们需要求助于计算机演化仿真工具，直观显示这一稳定均衡解。

二、NetLogo演化仿真分析稳定均衡：Divide The Cake模型

混合策略被用来标示一个种群的状态，混合策略的概率指定给已有的纯策略的概率，被认为是等同于这个种群中的动物或人通常使用的纯策略概率。这样的话，我们就能够通过观察代表目前种群状态混合策略是怎样随时间变化的，来描绘演化过程的轨迹。

NetLogo是由Uri Wilensky在1999年发起的，由连接学习和计算机建模中心（CCL）负责持续开发，它是一个用于对自然和社会现象进行仿真的可编程建模环境。Netlogo特别适合对随时间演化的复杂系统进行建模，这使得研究微观层面上的个体行为与宏观模式之间的联系成为可能，这些宏观模式是由许多个体之间的交互涌现出来的。Netlogo工具中的Divide The Cake模型是基于William Harms的“分蛋糕”模型，是一个进化博弈模型。在最初的模型中它是蛋糕，但是本文把它想象成可食用的草。

NetLogo软件主要由两个基本要素构成：第一个要素是“世界”，也就是软件出现的主视图界面;第二个要素是“主体”或者“行动者”，是指执行指令的个体。每个主体都同时执行各自的行为。本文模型中的主体有三个：谦虚主体（modest简称为M，要求分割1/3）、公平主体（fair简称为F，要求分割1/2）和贪婪主体（greedy简称为G，要求分割2/3）。运行NetLogo后，主体们四处活动争夺草地，主体需要草才能产生后代，因此随着时间的推移，获得更多草的主体类型将倾向于增加数量。草地上有三个主体，即有谦虚（棕色）、公平（红色）和贪婪（蓝色）。公平的主体尽量吃1/2的草，谦虚的主体尽量吃1/3的草，贪婪的主体尽量吃2/3的草。如果两个主体请求的总金额大于100%，则两个主体都将死亡，否则每个主体都将获得其请求的修补程序资源份额。所以，我们可以将前面的假设1、假设2、假设3用Sample模型库中的Divide The Cake模型进行具体仿真实验来验证。我们可以将前面介绍的假设1、假设2、假设3用Sample模型库中的Divide The Cake模型进行具体仿真实验来验证。通过不同的变量数值设置，本文假设了以下4种情形进行演化仿真，实验发现不管是否进行平均分配不同主体的数量，在演化仿真1，000次后，都会保持一种稳定均衡的状态。

情形1：将1，000个主体平均分配，M、F、G各占33%，试图验证M、F、G相同数量的情况下，主体之间是如何相互作用。这种情形下，每个主体的数量相同，不同的是不同主体要求分割的蛋糕数量不同。模拟仿真1，000次之后，数据显示F明显占据多数，也就是公平者占多数，说明M在整个过程中，需求1/3，但是贪婪者需求2/3，在演化1，000次后，谦虚者和贪婪者都会死亡，最终剩下公平者占据大多数，达到一个公平的稳定均衡状态。

情形2：将1，000个主体分成M占10%，剩下的F与G平均分配，各占45%，试图验证当M数量很少的时候，主体之间如何相互作用。模拟仿真1，000次之后，F还是占据大多数，与情形1中的情况类似甚至多余情形1中的百分比，最终达到一个稳定的均衡状态。

情形3：将1，000个主体分成G占10%，剩下的M与F平均分配，各占45%，试图验证当G数量很少的时候，主体之间如何相互作用。模拟仿真1，000次之后，F还是占据大多数，与情形1和情形2中的情况类似，最终达到一个稳定的均衡状态。

情形4：将1，000个主体分为F占10%，其余的M与G平均分配，各占45%，试图验证当F数量很少的时候，主体之间如何相互作用。模拟仿真1，000次之后，虽然没有涌现出像情形1、2、3那样F的数量占据大多数，但是演化1，000后，最终也呈现出谦虚者数量最多，贪婪者次之，公平者数量最少，这样的一个趋于稳定的均衡状态。

通过演化仿真，我们可以看出在除了情形4仿真过程中F的初始数量很少的极端情况下，仿真演化出的F数量很少之外，在情形1、2、3仿真过程中G很快灭亡于这个群体，M也很快灭亡于这个群体，只不过灭亡的速度会比贪婪者灭亡的速度要慢很多，最终F公平主体的数量占据较高的百分比。这也就可以主观展示了前面我们论述的不管在纯策略还是混合策略演化过程中，都存在一个稳定的均衡，其中趋于公平的分配模式处于一种稳定均衡的状态。

三、结语

Netlogo非常适用于个案中个体或群体间互动性关系的研究，不仅适用于人口学、社会学、政治选举、公共卫生、新闻传播等领域，特别是本文的博弈行为领域有广泛的使用。随着复杂性科学的深入，已经有越来越多的学者开始重视社会科学中的计算机仿真方法了，演化仿真的方法已经深入了社会科学的各个领域，相信这对于我国社会科学领域是一次全新的挑战，也是一次全新的机遇。基于本文的研究，不管是纯策略的演化还是出现多态的情况，对于公平分配问题最后都会趋于一种稳定均衡状态。在对称的讨价还价博弈中，公平分配是独特的演化稳定均衡策略，它的强稳定性保证了在模仿者动态策略演化过程中，一直是极具吸引力的均衡结果。即使存在为了获得更大利益而提高要求分配比例的策略趋势（或者可能性），公平分配依然是动态演化过程中的稳定策略，因为任何单方面的背离公平分配策略的行为都将导致更加糟糕的回报。

所以，未来我国的社会福利制度要实行“补救型主导，分类共存多元主义福利”。补救型模式注重弱势群体救助和社会稳定，因此提出补救型为主导，分领域实行不同福利制度类型、多元主体提供的福利制度战略，既符合我国传统和转型现实也符合福利国家经验，最终才能达到一个公平分配的稳定均衡状态。

主要参考文献：

[1]（美）布莱恩·史盖姆斯著（Brian Skyrms）.社会契约演化论[M].申海波，杨培雷，译.上海：上海财经大学出版社，2012.

[2]（英）肯·宾默尔（Ken Binmore）著.博弈论与社会契约（第2卷·下册）：公正博弈[M].潘春阳，等，译.上海：上海财经大学出版社，2016.

[3]（美）约翰·罗尔斯.正义论[M].何怀宏，何包钢，廖申白，译.北京：中国社会科学出版社，2009.

[4]叶航.公共合作中的社会困境与社会正义——基于计算机仿真的经济学跨学科研究[J].经济研究，2012.47（08）.

[5]葉航，王国梁.排他性机制的重构和准公共产品受益的均等化--一种实现包容性增长的1新路径[J].浙江大学学报（人文社会科学版），2011.41（06）.