信用监管背景下共享单车治理的演化博弈分析与仿真

2022-07-26 00:37方云飞郝丽君田丽君

江西理工大学学报 2022年3期

方云飞，郝丽君，田丽君

（福州大学经济与管理学院，福州 350108）

一、引言

2020 年同济大学及建筑与城市规划学院卓健教授团队发布的《共享单车城市空间品质绩效研究》中指出当前共享单车的交通绩效、经济绩效、生态绩效已非常显著，并且城市单车交通的后共享时代行业格局已回归理性，公共管理及时补位，智慧技术支撑着运维的可持续性。种种迹象显示，共享单车新生态雏形初现，面向治理现代化的特征开始显现，行业的3.0 时代徐徐拉开序幕。共享单车市场竞争进入了下半场，但需求仍然旺盛。共享单车在缓解交通压力、节能减排等方面发挥积极作用。尤其是此次新冠肺炎疫情突发，日常依靠公共交通系统出行的庞大群体的正常通勤受到严重影响。而在复工复产以后，共享单车作为个人出行工具由原本接驳其他交通工具变为承担完整出行，解决了其他公共交通难以避免与其他人过多接触的难题，由此也展示出新的增长机会。同时，共享单车给城市治理带来了诸多困扰，比如车辆乱停乱放、挤占公共空间等。因此，本文致力于为发展前景广阔的共享单车解决这些问题。

本文通过建立共享单车行业内的政府、企业、用户参与的演化博弈模型，探讨共享单车主要利益相关方的策略选择影响因素，并分析如何控制影响因素从而减少这些问题的发生，提升政府和平台企业的服务与监管水平，促进共享经济行业健康发展。

二、文献综述

总体上看，目前对共享单车治理的研究涉及监管体制[1]、投放量[2]、用户选择行为[3]、使用满意度[4]、系统评价[5]、车辆回收[6]等方面。同时，演化博弈在共享经济问题的应用也日渐深入，部分学者将博弈理论和系统动力学仿真方法相结合运用于不同背景下的研究[7-10]。肖倩等以共享单车规范发展中的停放秩序问题为重点，从利益相关者角度建立了“政府—共享单车企业”和“共享单车企业—用户”之间的演化博弈模型，通过对三方中两两策略选择的分析，明确可以使共享单车利益相关者整体收益最大的策略选择[11]。 Liang 分析了共享单车企业与用户两者之间，在企业独立管理和加入社会监督机制两种背景下的互动博弈机制。由于企业独立管理不能有效地限制违法用户行为，因此有必要建立和完善基于企业管理的社会监督机制，凸显社会监督在共享单车治理中的重要性[12]。胡建华等指出政府服务功能应注意以公众为导向，建立政府与社会、政府与市场及政府与公众之间的双向反馈机制[13]。陈红喜等建立关于共享单车治理问题的三方博弈模型，并结合实际情况阐明各利益主体的博弈动机与策略选择[14]。以上研究的不足之处是建立的三方博弈模型假设博弈方完全理性，而不是有限理性的动态演化博弈分析。此外，王林等提出解决共享单车行业公共信用体系不健全问题的思路是通过大数据、人工智能等先进技术，在保护个人隐私的基础上，多方共建公共信用体系，并将信用落实在奖惩上，又进一步明确了信用监管需要以高新技术为支撑[15]。

事实上，以信用监管作为重要的治理方式是社会发展的必然趋势，但是目前还没有将信用监管体制与演化博弈相结合共同探讨共享单车治理困境的应对之策。鉴于此，本文将信用监管引入共享单车治理体系三方博弈之中，并通过理论分析和数值仿真分析，以期进一步探索解决共享单车发展瓶颈的办法，为政府、企业、用户参与共享单车产业发展提供一些行动指导。

三、演化博弈模型构建

本文考虑的博弈主体有政府、共享单车企业和共享单车用户。一方面，政府对企业承担引导监督的职责，企业执行政府的规定并反馈。另一方面，企业为用户提供服务并对用户进行管理，用户需要对企业尽到监督和反馈的义务。此外，政府要规范和引导用户行为，用户利用舆论监督并反馈给政府。共享单车市场三方博弈模型如图1 所示。

图1 三方博弈模型

（一）模型假设

对三个博弈主体提出以下假设：

（1）政府选择“监管”“不监管”策略的概率分别为x、1-x；企业选择“治理”“不治理”策略的概率分别为y、1-y；用户选择“配合”“不配合”策略的概率分别为z、1-z。

（2）政府选择“监管”策略的成本为C1，由此带来的正面效益为W；选择“不监管”策略，造成形象受损及事后补救的成本为C11。

（3）企业通过奖惩机制影响用户的策略选择，推动共享单车行业信用机制的健康发展。用户选择守信的概率与企业的奖惩设置有很大的联系，平台的奖惩力度越大，失信的成本越高。企业选择“治理”策略的成本为C2，对文明用车的用户奖励为S0，对不文明用车的用户的惩罚为F，可以表现为限制其使用共享单车或者处以罚金；选择“不治理”策略受到政府的惩罚为T，被举报且被处罚企业占被举报企业的比例为α。

（4）用户选择“配合”策略时，履行文明用车和监督反馈的义务，其中文明用车的成本C3，监督企业并向政府传递信息的成本为C31，向企业反馈信息投入的时间、精力成本为C32，由此获得政府奖励S1，企业奖励S2；选择“不配合”策略时获得的额外收益为Q。

根据上述假设可得政府、企业、用户的三方收益矩阵见表1。

需要说明的是：政府选择不监管策略时，用户对企业的监督行为也因无政府响应而消失。

（二）模型构建

由上文，政府选择监管策略的期望收益EA1和不监管策略的期望收益EA2分别为：

表1 政府、企业、用户演化博弈收益矩阵

则政府的复制动态方程为：

同理可得企业、用户的复制动态方程。整理后可得政府、企业、用户三者的复制动态系统方程为：

四、演化博弈分析

（一）三方演化路径分析

由复制动态方程的稳定性可知，如果政府所采取的某一策略为稳定状态，则该策略作为演化稳定策略的概率x 应满足F（x）=0 且F′（x）＜0。同理，企业、用户选择演化稳定策略的概率y 和z 需要分别满足G（y）=0 且G′（y）＜0 和H（z）=0 且H′（z）＜0，其中：

图2 政府策略演化的复制动态相位图

图3 企业策略演化的复制动态相位图

图4 用户策略演化的复制动态相位图

由图2 可知，政府的演化策略受到企业和用户策略的共同影响，此外还会受到政府监管的成本、监管带来的正面效益、政府对违规的惩罚力度、政府不监管后需要付出的补救成本等因素的影响。①当z=z*时，无论取x 何值，有F（x）=0。即此时政府不管处于哪种状态，其策略选择比例不会随时间的变化发生改变。②当0＜z ＜z*＜1 时，则x=1 是政府的演化稳定策略，即当用户选择“配合”策略的概率低于一定比例时，政府选择“监督”的收益要大于“不监督”的收益，其稳定策略是“监督”。 ③当0＜z*＜z ＜1 时，则x=0 是政府的演化稳定策略，即当用户选择“配合”的概率高于一定比例时，政府的稳定策略是“不监督”。此时，若政府监管的正面效益提高、监管成本降低，或不监管需要付出的弥补成本提高，或用户自觉选择“配合”的比例较低时，会转变为情形②，那么政府会从“不监督”转向“监督”。由此可见，政府选择“监管”策略的概率会随着用户选择“配合”策略概率的提高而降低。用户监督意识提高，所需的政府干预相应就会减少，有限理性的政府会更加倾向于“不监管”，以避免投入不必要的成本，浪费公共资源。

由图3 可知，企业的演化策略会受到政府和用户策略的共同影响，此外还会受到企业监管的成本、政府核实后对不治理企业的惩罚、企业对用户用车行为的奖励和惩罚等因素的影响。 ①当z=z**时，无论y 取何值，有G（y）=0，此时企业不管处于哪种状态，其策略选择比例不会随时间的变化而发生改变。 ②当0＜z ＜z**＜1 时，则y=1 是企业的演化稳定策略，即当用户选择“配合”策略的概率低于一定比例时，企业选择“治理”的收益要大于“不治理”的收益，其稳定策略是“治理”。 ③当0＜z**＜z＜1时，则y=0 是企业的演化稳定策略，即当用户选择“配合”的概率高于一定比例时，企业的稳定策略是“不治理”。此时，若企业的治理成本降低，或对用户不文明用车的惩罚力度加大，或政府的监管比例较大，而用户配合的比例也较大时，会转变为情形②，那么企业会从“不治理”转向“治理”。由此可见，企业选择“治理”策略的概率会随着用户选择“配合”策略概率的提高而降低。用户文明用车的比例越大，所需的外部约束相应也会减少，有限理性的企业就更加倾向于“不治理”，让共享单车市场在用户自觉规范使用中健康发展。

由图4 可知，用户的演化策略会受到政府和企业策略的共同影响，此外还会受到用户配合政府和企业的工作需要付出的监督反馈成本、政府和企业对于用户配合监管和治理给予的奖励、企业对用户用车行为的奖励和惩罚、用户不配合所获的额外收益等因素的影响。 ①当y=y*时，有H （z）=0，此时共享单车用户不管处于哪种状态，其策略选择比例不会随时间的变化而发生改变。②当0＜y ＜y*＜1 时，则z=0 是用户的演化稳定策略，即当企业选择“治理”策略的概率低于一定比例时，用户选择“不配合”的收益要大于“配合”的收益，其稳定策略是“不配合”。此时，若用户不配合时所获得的额外收益减小，或加大用户由于配合得到的政府和企业奖励，或企业自觉选择“治理”的比例较高时，会有0＜y*＜y＜1，那么用户会从“不配合”转向“配合”。 ③当0＜y*＜y＜1 时，则z=1 是用户的演化稳定策略，即当企业选择“治理”的概率高于一定比例时，用户的稳定策略是 “配合”。由此可见，用户选择“配合”策略的概率会随着企业选择“治理”策略概率的提高而提高。企业治理的态度越坚决，规范执行得越彻底，惩罚的力度越大，有限理性的用户就更加倾向于“配合”，以避免因不规范用车导致的惩罚。

（二）三方演化策略稳定性分析

由复制动态系统方程（4）得到均衡解，包括纯策略均衡解和混合策略均衡解。 Ritzberger 等通过研究得出结论：在三方主体共同作用的演化博弈中，只需要考虑纯策略均衡解，混合策略均衡解均不可能为渐进稳定状态[16]。

纯策略均衡解为E1＝（0，0，0），E2＝（0，0，1），E3＝（0，1，0），E4＝（0，1，1），E5＝（1，0，0），E6＝（1，0，1），E7＝（1，1，0），E8＝（1，1，1），这8 个均衡解将三方策略构成的立方体划分成多个空间。在对三方的演化稳定策略的分析中发现，某一个因素发生变化，就可能引起一个博弈主体的策略改变，而三个博弈主体之间又相互影响、相互作用，使博弈结果不断变化，未能收敛于某一稳定的均衡点。

考虑到现实情况中若用户可以在政府或企业一方的作用下选择“配合”策略，政府和企业同时耗费各种成本规范用户行为就没有必要。且政府属于服务型组织，企业属于营利性组织，政府的常态是向“监管”策略靠拢，企业的常态是向“不治理”策略靠拢。所以，我们以最具代表性的（政府监管，企业不治理，用户配合）为例，分析其稳定性，其他均衡解分析过程类似。

三方演化博弈是在两方演化博弈基础上的扩展，但是随着复杂度的大幅提高，三方演化博弈的稳定点分析已经不能简单地使用雅可比矩阵的迹和行列式的值来判断[17]。此时，根据李雅谱诺夫第一法[18]来判断稳定点，即若该点是渐进稳定的，需要满足其对应的雅可比矩阵的特征根都小于0。均衡解（1, 0, 1）对应的雅可比矩阵J 的特征根为：λ1=C31+Q-S1；λ2=αT-S0-C2；λ3=C1-C11-W+αT。依据演化博弈理论，（1, 0, 1）成为系统的演化稳定点需要满足λ1＜0，λ2＜0，λ3＜0，即式（6）所示：

结合以上的分析，政府需要提高对配合监督用户的奖励，并降低用户的监督成本，企业应该提高对文明用车用户的奖励，减小用户因违规用车所获得的额外收益，同时设法降低用户文明用车的成本等。这样，用户选择配合策略的概率会随之提高。

五、仿真分析

根据前文的演化博弈模型分析，应用系统动力学仿真软件Vensim PLE 绘制系统动力学流图，如图5 所示。为进一步分析均衡解E1—E8的稳定性，设置参数如下：initial time =0，final time =12，time step =0.25，units: month，F=3，T=8，W=6，Q=1，C2=6，S0=2，C1=9，C11=10，C32=1，S1=3，S2=2，F=3，α=0.6。

（一）稳定分析与仿真

图5 共享单车系统演化博弈仿真模型

在共享单车参与方博弈中，政府、企业、用户三方的初始值均为某种纯策略，即他们的策略选择均为0 或1。在演化过程中，他们都维持自身策略选择的不变性，没有任何一方会自发改变当前策略选择来破坏稳定状态。然而，这并不能说明稳定状态是长期的，只要有一方的策略选择发生极微小的突变，这种相对的稳定状态就有可能会发生变化。

对于均衡解E1（0，0，0），即政府选择不监管策略、企业选择不治理策略、用户选择不配合策略。如果政府由不监管向监管发生很小突变，以其监管概率由x=0 突变为x=0.01 为例，对此情境进行仿真，系统演化结果如图6 所示。仿真结果说明E1的均衡状态并不是长期稳定的，在企业不治理且用户不配合的情况下，当政府由不监管向监管发生极小的突变时，政府需要考虑社会形象及对政府公信力的影响，选择“不监管”策略需要付出的代价要明显大于“监管”策略的成本，政府在权衡下向“监管”策略演化，政府、企业和用户三方的均衡状态从（0, 0, 0）演化到（1, 0, 0）。同理，E2（0,0,1），E3（0,1,0），E4（0,1,1）的均衡状态也不是长期稳定的，最终会分别演化为（1,0,1），（1, 1, 0），（1, 1, 1）。

图6 均衡解E1（0, 0, 0）突变前后对比

对于均衡解E5（1, 0, 0），即政府选择监管策略、企业选择不治理策略、用户选择不配合策略。当用户中极小一部分人由“不配合”向“配合”发生突变时，考虑到政府的权威和管控力，越来越多的用户会选择“配合”策略，最终保持在“配合”策略上。E5的演化结果如图7 所示。

图7 均衡解E5（1, 0, 0）突变前后对比

对于均衡解E6（1, 0, 1），即政府选择监管策略、企业选择不治理策略、用户选择配合策略。该均衡解是长期稳定的，不论哪一方发生微小突变都不会影响当前稳定状态。

对于均衡解E7（1, 1, 0），即政府选择监管策略、企业选择治理策略、用户选择不配合策略。当用户中极小一部分人由“不配合”向“配合”发生突变时，由于政府和企业的联合管理，用户“不配合”承受的压力变大，“不配合”的成本提高，此时，一旦有向“配合”的极小突变，用户的策略也会很快演化成“配合”，达到一个政府监管、企业治理、用户配合的和谐稳定状态。 E7的演化结果如图8 所示。

图8 均衡解E7（1, 1, 0）突变前后对比

对于均衡解E8（1, 1, 1），即政府选择监管策略、企业选择治理策略、用户选择配合策略。当企业极小一部分向“不治理”突变时，由于企业更多考虑自身利益，而较少考虑社会影响，而且企业也会认为当前用户的行为规范且有政府的参与监管，在这种情况下倾向于减少治理成本，所以会演化为（1,0,1）的状态。 E8的演化结果如图9 所示。

图9 均衡解E8（1, 1, 1）突变前后对比

（二）模型参数敏感性分析

从均衡解E8的仿真分析可以看出，在某些情况下企业没有与政府同时采取措施，而政府因为其自身的特殊性，会自觉参与到共享单车监管中。综合来看，政府和企业的策略较为可控，所以文中主要讨论各因素对用户策略选择的影响。

1. 政府初始值不变的演化

在共享单车的背景下，政府的公益性和特殊性使政府会稳定在监管策略上，故令x＝1。在政府监管概率不变的情况下，取（y, z）分别为A（0.7, 0.2），B（0.2, 0.7），其余参数不变。在仿真结果图10 中，除了预先设置不变的两条代表政府策略演化的曲线始终保持在1 外，在不同初始值下企业策略演化曲线稳定在y＝0，用户策略演化曲线稳定在z＝1。总体上来看，两种情境最终都演化到均衡点（1, 0, 1）。此外，企业演化到稳定状态所需的时间要明显小于用户稳定所需时间，而无论初始时企业治理的概率较高还是较低，用户经过一段时间演化到1。仿真结果表明：在引入信用监管机制后，政府监管的态度坚定且准确传达给企业和用户时，企业认为在政府强有力的监管环境下，自身的治理就不再必要，会迅速做出不治理的策略选择。而用户的策略选择受企业影响较小，这是因为目前的信用监管体制能发挥出切实的约束力还需要政府部门的公权强制力，企业在信用治理方面的约束手段只是处以小额罚金或取消优惠服务等，并不能从根本上使用户因顾及企业的信用治理而改变其行为。

图10 政府监管概率不变下企业—用户演化过程

2.政府、企业不同初始值对用户策略选择的影响

设定用户选择配合策略的初始概率为0.5，三组政府—企业的策略选择初始概率分别为（x, y） =（0.4, 0.4），（0.5, 0.5），（0.6, 0.6）。从图11 中可以看出，随着政府、企业选择监管、治理策略的初始概率提高，用户由初始中间状态向配合策略演化的速率加快。这是因为政府监管、企业治理的概率越大，意味着二者对用户施加的压力越大，用户就会越快做出应对，演化为配合策略所需的时间越短。

图11 不同（x,y）初始值下用户的策略演化过程

3. 政府对用户的信用奖励对用户策略选择的影响

设定三方策略选择的初始概率为（0.5, 0.5,0.5），其余参数不变，依次赋值S1为3, 4, 5。从图12可以看出，当政府对用户配合监督的奖励从3 增加到4 时，用户选择配合策略的演化速率明显加快，当政府对用户配合监督的奖励从4 增加到5 时，该速率的增幅放缓。仿真结果说明政府为了激励用户主动配合，在信用方面给予的奖励可以适当提高。但是一旦超过某个阈值，激励用户选择配合策略的效果就会减弱。在引入信用监管的共享单车系统后，不再仅仅是“政府管企业，企业管用户”的模式，政府的信用监管行为会比企业发挥更大的影响力，对用户行为的引导和约束也更加有力，政府可以对用户发挥更直接的作用。

图12 不同S1 取值下用户的策略演化过程

六、结语

本文运用演化博弈理论，建立了考虑信用监管的政府、共享单车企业、用户三方演化博弈模型。通过理论分析三方的策略演化过程和系统稳定性，以及仿真实验分析关键因素敏感性，可以得出以下结论：①三方的策略演化是相互影响的。影响任意一方的因素除了直接作用于该博弈方外，还会进一步影响其他两个博弈方的决策。 ②在信用监管阶段，政府占主导地位，发挥更为直接的作用。当政府的策略选择是监管且信用奖惩的设置合理时，不管初始情形如何，企业和用户的策略选择最终都稳定于（不治理，配合）。③用户的策略选择是政府及企业策略选择的反应结果，约束用户行为离不开政府和企业的共同努力。④激励程度与用户行为选择的概率的正相关关系会随着激励的增加而减弱，共享单车信用激励机制的科学性有助于最大程度促使用户选择配合策略。

区别于以往研究政府—企业—用户递进式的监管方式，本文以信用监管为纽带在政府和用户之间建立直接的联系。为完善共享单车的治理，相关参与方应加强信用监管，各司其职。据此提出以下建议：着力完善企业和用户信用基础数据库，充分利用平台的App 等数据来源，将企业和用户失信行为纳入信用记录，建立具有共享单车行业特性的信用信息共享平台，提高用户和企业的违规成本；落实企业作为提供产品和服务的主体责任，促进政企合作，提高企业信用制裁能力和企业信用监管的影响力；构建多元便捷的监督反馈渠道，降低用户监督成本，激励用户主动参与。