基于Swarm的逆向物流渠道冲突协调

2015-12-24 11:03刘龙青张国庆

福建农林大学学报（哲学社会科学版） 2015年3期

刘龙青，张国庆

(浙江农林大学经济管理学院，浙江临安311300)

一、现状调查与文献回顾

(一)现状调查

逆向物流渠道就是可再利用的废旧品从产生、回收、处理到再利用的通道。在我国逆向物流渠道运营过程中，废旧品一般由走街串巷的个体户(以下简称“散户”)收购并处理，而有经营资质和技术规范的企业回收处理主体(以下简称“公司”)却没有稳定的废旧品来源，产能闲置，成为目前逆向物流渠道的主要矛盾。据笔者调查分析，消费者之所以将废弃的物品交给散户回收，主要原因是便利、价格可以接受、缺乏正规公司回收渠道信息以及环保意识薄弱等。而散户选择自己处理主要是能够带来更高利润，但散户自己拆解处理会带来很多社会问题，如其对废旧品焚烧、破碎、浓酸提取、废液直接排放等处理方法会造成生态环境破坏和资源严重浪费等。这就不可避免地引发“柠檬市场”问题(由于信息不对称造成的逆向选择和道德风险)，增加了管理难度[1]，加上监管部门对污染排放的监督行为有限，处罚力度不大，因此为最大限度克服可能产生的“柠檬市场”，必须要求监管部门设计出监督、约束、激励等综合协调机制，科学合理地管理和实施综合利益最大化行为。笔者运用博弈分析方法，基于Swarm仿真系统对我国逆向物流渠道冲突根源进行分析，从而找到政策制订的切入点和破解冲突的方法。

(二)文献回顾

在逆向物流渠道研究方面，学者们围绕渠道相关主体的责任、行为以及政策环境等方面展开相关研究。渠道主体方面，R.C.Savaskan等将废旧家电逆向物流渠道分成制造商、零售商和第三方等形式，指出每种渠道形式的利润分配不同[2];为了协调各方主体利益，王文宾等提出设立专门运作和协调机构[3]。渠道行为方面，高阳等认为对渠道的规范包括政策和个体认知等方面，规范个体回收行为是建立逆向物流规范体系的微观基础[4];江源认为社会经济状况、居民认知度以及个体的社会－经济属性都对回收行为产生影响[5]。渠道政策环境方面，刘慧慧等认为监管部门立法、经济管制及经济政策对规范系统作用更明显[6]。在监管部门的激励政策方面，周垂日等提出促进废旧品回收利用的补贴问题[7];钟永光等提出在对非法拆解小商贩惩罚的同时提高正规回收经营者的服务和回收价格[8];O.Kaya研究了经济性与非经济性激励相结合、集中和分散式相结合的回收渠道协调机制问题等[9]。在研究方法上，博弈分析方法运用得较多，也有部分学者运用实证研究方法。以往的研究观点和方法为本研究打下了坚实的基础，笔者将运用演化博弈理论结合仿真运行，剖析缓解渠道冲突的机制设计。

二、演化博弈与Swarm仿真

(一)演化博弈理论

由于散户和监管部门的行为选择都受到群体行为及政策环境的影响，是一个比较选择的过程，所以适合用博弈分析方法。但完全理性的人不可能存在，所以以完全理性为前提条件的传统博弈论有一定的局限性，而演化博弈理论基于人的有限理性，以参与人所在群体为基础，假设各方都有一定的事后判断能力，采用从群体到个人的局部动态方法来分析参与人的决策行为。其核心不是最优的策略选择，而是群体成员经营策略的调整和发展趋势判断，即群体成员选择特定策略的比例不变，而不是其整体策略不变。所以，即使现实中散户和监管部门没有选择上述策略的能力，很难找到各自最佳概率，也就是该博弈很难做到多次反复进行，但只要群体成员有事后判断能力并能根据周围人的经营结果来改变自己的经营策略能力，就有可能反复进行。因为纳什均衡中关于理性主义和群体行为两部分理论可以有效解决该问题:理性主义就是个体在进行策略选择时的理性程度或频率，而群体行为则是当群体所有主体在面临同一问题或事件所采取的应对策略的比例。由该理论可知散户和监管部门对混合策略的选择，可以分别理解为某个地区不规范拆解即不合作行为发生的比例和该地区监管部门监管行为发生的频率，演化博弈理论中的混合策略纳什均衡就是分析相关主体行为发生频率或比例间的均衡关系[10]。该分析方法不要求散户和监管部门等主体有选择某种特定行为概率的意识或能力，而是根据环境变化和收益比较后的行为选择过程。该分析方法与现实中的逆向物流各主体决策过程比较接近，适合分析社会化回收系统中散户和监管部门间的博弈过程。

(二)Swarm仿真

Swarm是由美国Santa Fe研究所开发的一个仿真平台。其建模思想就是通过创建逆向物流运行系统中一系列独立的渠道智能体(散户/政府监管部门Agent)，并通过独立事件进行交互的“自下而上”或“基于过程”的建模工具，它是面向对象程序设计的多智能体仿真平台，没有对模型要素间的交互作任何约束，模拟智能体对废旧品回收处理决策过程，随着行为时序表Schedule的推进，研究不同政策机制下系统状态的变化趋势与运行结果，并由Observer Swarm记录下来。模拟思想及过程是:系统里的智能体将根据环境、伙伴及对手行为的变化及其结果，判断该变化结果是否对自己产生影响，从而调整自己未来行为的决策过程。所以，Swarm仿真平台较好地模拟了逆向物流系统中各类主体的行为选择过程，即把群体成员的选择结果作为自己行为选择的重要参考依据，利用Swarm可以很方便地对逆向物流复杂系统主体冲突进行仿真研究。

三、模型构建

(一)博弈模型

根据笔者的调查，由于中国目前还没有实行EPR(生产者责任延伸)，社会化回收还是废旧品回收主渠道，而公司很难建立自己的回收渠道和网络，其废旧品来源主要还是依靠以散户为主的社会化回收力量，否则其正常的生产经营活动将受到影响，所以公司的选择一定是与散户合作。但散户是否选择与公司合作则是在比较其合作与不合作的收益情况后确定。故本文的研究核心就是如何提高散户的合作概率。而提高散户的合作概率需要监管部门的政策激励、约束和引导，所以社会化逆向物流渠道冲突协调问题就是散户和监管部门间的博弈关系问题，而演化博弈方法与现实中逆向物流系统各主体决策过程比较接近，所以本文拟采用该方法建立多Agent博弈模型，各主体分别由相应的Agent表示，这些Agent(散户和监管部门)都能识别并比较不同政策环境下自己和群体其它主体的收益情况，并进一步采取相应行动(表1)，行动过程为:(1)将各Agent的共同知识用“知识Agent”表示;(2)散户和监管部门Agent均可通过与知识Agent交互获取信息;(3)散户和监管部门Agent都将在比较其它Agent行为和环境对自己产生影响及其程度的基础上进行决策并选择行为策略。

表1 散户和监管部门博弈的支付矩阵Table 1 Payment matrix of the game between retail investors and regulators

在此基础上，假设某个地区散户选择不拆解(合作)的概率为P1，则私自拆解(不合作)的概率1－P1;监管部门选择监管的概率为P2，则不监管的概率为1－P2。在散户选择合作策略条件下，监管部门采取监管策略时，散户获得额外收益为E(奖励所得);监管部门选择不监管时散户额外收益为0，监管部门收益为C(节约监管成本收益)。而在散户选择不合作策略条件下，监管部门采取监管策略时，散户的额外收益为－F(罚款损失)，监管部门收益为－L(环境污染和废旧品利用率低造成的社会损失);当监管部门选择不监管时散户额外收益为G(私自拆解所获收益与卖给公司所获收益差额)，而监管部门收益为C－L(环境污染和废旧品利用率低造成的社会损失和节约监管成本的差额)，在有限理性的条件下:

散户“私自拆解”的期望得益V1=P2·(－F)+(1－P2)G

散户“不拆解”的期望得益V2=P2·E

对散户而言，只要其群体选择“私自拆解”策略的期望收益V1大于“不拆解”策略的期望收益V2，群体就会产生学习机制，比较收益大小并改变行为策略:部分选择“不拆解”策略的散户群体逐步转向“私自拆解”策略，直到选择“私自拆解”策略期望收益等于或小于“不拆解”策略期望收益，达到一种动态平衡，即演化稳定状态，反之亦可推出相应结论。而对于监管部门策略转化过程也是如此，当系统达到稳定时即为均衡状态，在这种状态下，采取某种策略的群体比例等于采取混合策略的概率。该演化博弈思想对多主体仿真帮助很大，它通过建立不同主体Agent的学习机制和行为变化过程，探析博弈双方(散户和监管部门)不同行为策略的形成过程。

(二)仿真模型

1.仿真主体博弈过程。仿真初始时，每个散户Agent选择“私自拆解”的概率和每个监管部门A-gent选择监管的概率都是平均分布在[0，1]之间的随机数，个体交互开始后，设定每个散户Agent将会同它最近的24个监管部门Agent进行博弈，也就是系统先产生一个随机数，并将该随机数与监管部门“不监管”的概率进行比较，以此来判断该监管部门Agent是否“监管”，若该随机数大于监管部门“不监管”的概率，则该散户Agent就判定监管部门“不监管”并选择“私自拆解”，反之亦然;而监管部门A-gent是否监管，则以该监管部门Agent为基准，分析该监管部门Agent周边24个矩形框内散户Agent的行为并判断选择“私自拆解”行为的散户数量，然后依次查看每个“私自拆解”散户Agent的违规情况并记录在案，以此决定本轮给散户的监管力度;而对选择“不拆解”的散户则给予一定的奖励。

2.模型Agent学习规则设计。散户Agent按照以下学习规则成长:初始阶段，逆向物流系统里各Agent的合作概率随机分布，随着个体间的交互作用，各Agent不断调整自身策略。根据Swarm平台特点和现实中散户集聚度、彼此可以交流信息的实际情况，设定在一定时期内，每个Agent将会和自己周边24个矩形框内的其他同类Agent(每个框内一个Agent，共24个Agent)进行收益比较，如果该A-gent发现群体里其他散户主体收益比自己小，则会保持既定行为概率不变，反之，如果其他散户主体收益比自己大，则该Agent将会选择其中最高收益主体的行为策略作为调整自己下一周期行动策略的参考标准。根据行业专家的建议，该Agent具体调整概率的策略是:如果参照对象(最高收益散户Agent)的概率值高出自己超过5%，则向该参照对象的概率值靠近5%，若低于5%，就变成和该参照对象一样的概率值。监管部门的策略与此相同(该调整策略最适合，灵敏度最高，与散户的实际行动策略也比较一致)。

以散户Agent为例，假如第i周期Agent k选择了“私自拆解”的策略，i周期结束时Agent k有了该策略下的收益并开始学习(Agent有事后认知能力)，同时Agent k与其周围邻居的收益进行比较。比较过程如下:若散户主体中选择“私自拆解”的期望收益大于选择“不拆解”的期望收益，而该期望收益又大于该散户Agent的实际收益，则在t+1周期时该Agent k将改变策略(选择“私自拆解”)，否则该Agent k将继续选择“不拆解”策略。同理，可知监管部门Agent的行为选择过程。

四、仿真结果与分析

(一)只惩不奖政策下的运行结果

1.第一次运行，对散户“私自拆解”的处罚。根据表1各主体的收益情况和“只惩不奖”的政策环境，设定仿真程序中的散户与监管部门的博弈收益分别为:G=4，E=0，F=2，L=4，C=4;仿真结果如图1所示，图中曲线代表散户选择与公司“合作”的比率。

图1 处罚额度不高时运行结果Fig.1 Executive results of simulation when penalty amount is not high

从运行结果可以看出:开始阶段，散户合作概率较低，当处罚政策推出后，合作概率明显提高，但随着时间的推进，散户在与监管部门进行博弈以及群体间相互学习比较后，逐步降低其合作概率，并最终稳定在10%左右的较低合作水平。

2.第二次运行，加大对散户“私自拆解”的处罚力度。如果加大对散户“私自拆解”的处罚力度，设定仿真程序中的散户与监管部门的博弈收益分别为:G=4，E=0，F=4，L=4，C=4。仿真结果表明，当加大单次处罚力度之后，同样会发生短时间合作概率较快提高接着又逐步降低的现象，但这种政策下的最终合作概率稳定在20%左右，合作水平有所提高，也就是加大处罚力度后散户整体合作概率有所提升，但仍然不理想。

(二)只奖不惩政策下的运行结果

1.第三次运行，对散户“不拆解”的奖励。如果对散户“不拆解”即合作行为进行奖励，而不处罚“私自拆解”行为。设定仿真程序中的散户与监管部门的博弈收益分别为:G=4，E=2，F=0，L=4，C=4。从该政策下仿真运行结果可以看出，在奖励政策推出之后，同样也会发生短时间内合作概率提高的现象，但随着时间的推进，合作概率还是会逐步降低，并最终稳定在30%左右，合作水平仍然比较低。

2.第四次运行，加大对散户“不拆解”的奖励力度。如果加大对散户的奖励力度，设定仿真程序中散户与监管部门的博弈收益分别为:G=4，E=4，F=0，L=4，C=4。从仿真运行结果可以看出，当加大单次奖励力度之后，同样会发生短时间内散户合作概率提高而后又逐步降低的现象，但这种政策下的最终合作概率稳定在40%左右，合作水平进一步提高，但还不是理想状态。

(三)惩罚机制的设计及仿真结果

现对每个散户的奖励和惩罚方式稍作改变，对每次“私自拆解”的处罚记录在案，然后根据记录在案的次数累计处罚，也就是私自拆解者被抓次数越多，处罚力度越大。与此同时，对“不拆解”的奖励也会根据散户与公司合作量的多少进行差别奖励，递增式奖励，也就是与公司合作的量越大、奖励越多，在一定时期内(一般以“年”为单位)，累计到一定的量就对该散户进行“返点”奖励，以鼓励更多的散户选择与公司紧密合作，达到“勤勉简政”的目标。仿真结果如图2所示。

图2 设计奖惩机制的运行结果Fig.2 Results of the designed mechanism of rewards and punishments

从仿真运行结果可以看出，当实行该奖惩机制之后，也会发生短时间散户与公司合作概率提高，之后有所回落的现象，但这种政策下的最终合作概率稳定在70%左右，合作水平较前几种政策有明显提高，是较理想的合作状态。

五、小结

本文分析并构建了混合策略下逆向物流渠道冲突重复博弈模型，并借助Swarm仿真平台和多A-gent建模方法，对散户和监管部门的博弈过程进行演化仿真。通过监管部门的奖励与惩罚机制的改变，不断加强对散户“私自拆解”的惩罚以及对其合作的奖励，实现冲突的协调。通过这一系列的博弈仿真，得出以下结论:(1)逆向物流渠道冲突是复杂适应系统，基于Agent仿真方法的核心是行为选择与适应性学习问题，在探索冲突演化规律方面比较适用;(2)对散户的监管单独用某一种方法很难起到理想的效果，要综合运用多种方法，设计监管机制;(3)监管机制设计要充分考虑各种社会成本、考虑散户和监管部门的博弈以及群体间的学习和策略调整，才能达到预期目标和政策效果。

[1]DEBRITO M P，DEKKER R.Reverse Logistics-a framework[J].Econometric institute Report El，2002(12):56 －70

[2]SAVASKAN R C，WASSENHOVEV L N.Reverse channel design:the case of competing retailers[J].Management Science，2006，52(1):1 －14.

[3]王文宾，达庆利.再制造逆向供应链协调的奖励、惩罚及奖惩机制比较[J].管理工程学报，2010，24(4):48 －52.

[4]高阳，李辉.基于回收质量不确定的闭环供应链回收渠道选择[J].工业技术经济，2011，217(11):5 －11.

[5]江源.中国城市环境管理的可持续发展对策——生活垃圾管理中新政策的可导入性分析[J].管理世界，2002(2):65－73.

[6]刘慧慧，黄涛，雷明.废旧电器电子产品双渠道回收模型及监管部门补贴作用研究[J].中国管理科学，2013，21(2):123－131.

[7]周垂日，梁樑，许传永，等.政府在废旧电子产品逆向物流管理中的经济责任机制[J].中国管理科学，2008(16):434－437.

[8]钟永光，钱颖，尹凤福，等.激励居民参与环保化回收废弃家电及电子产品的系统动力学模型[J].系统工程理论与实践，2010，30(4):709 －722.

[9]KAYA O.Incentive and production decisions for remanufacturing operations[J].European Journal of Operational Research，2011(2):442 －453.

[10]付小勇，朱庆华，窦一杰.回收竞争的逆向供应链回收渠道的演化博弈分析[J].运筹与管理，2012，21(4):30－33，41.