基于演化博弈模型的产学研创新联盟稳定性分析

2021-01-07 01:29张根明张曼宁

运筹与管理 2020年12期

张根明，张曼宁

(中南大学商学院，湖南长沙 410083)

0 引言

习近平总书记在十九大报告中指出创新是引领发展的第一动力，是建设现代化经济体系的战略支撑。随着行业技术变革的加快以及消费者需求的不断变化，产品的生命周期日益缩短，使得市场竞争愈加激烈，企业唯有不断创新才能在激烈的竞争环境中掌握主动。由于受到创新资源和研发水平的限制，越来越多的企业选择与高校、科研院所建立产学研创新联盟。产学研创新联盟实质就是企业、高校和科研院所基于自身发展目标，为抓住市场新机遇实现共同利益而建立的一种资源互补、利益共享、互惠共赢的联盟形式，对我国创新发展以及自主创新能力的提升具有推动作用。

但近来年，联盟关系不稳定已成为制约我国产学研发展的瓶颈。由于产学研合作的环境、体制和机制尚未完善，在产学研合作中双方都可能存在投机行为，如单方违约、参与主体存在消极意愿、出于对自身资源的保护而在资源投入、努力程度以及信息沟通方面与合作时的承诺不一致等。这些因素都会导致产学研创新联盟的不稳定，损害了整体以及个体利益，因此，产学研创新联盟稳定性对合作双方都至关重要[1]。

1 相关文献综述

产学研合作具有较高的不稳定性，麦肯锡研究报告指出近一半的联盟最终走向失败[2]，因此很多学者对联盟稳定性展开了深入研究。通过梳理国内外相关文献发现，诸多学者从影响联盟稳定性的内部因素和外部因素两方面来进行研究。在探讨外部因素方面：Jackson[3]认为联盟伙伴从联盟合作创新中所获的收益要大于其单独创新所获得的利益，联盟才有可能稳定。因此，联盟利益分配问题是联盟稳定的关键。Flam[4]等研究了联盟企业在共享联盟中的技术、任务以及禀赋的情况下成本可转移的博弈行为，指出在成本最小的情况下的利益分配方式。Gil和Passino[5]讨论了合作资源分配的公平性对战略联盟稳定性的影响，得出资源分配越公平，联盟就越稳定。除了利益分配因素外，Hagedoom[6]认为联盟稳定还会受到技术因素的影响，如果创新所需的技术知识过于先进，不能够很快地转化为现实生产力，那么可能会导致联盟提前终止。曾德明[7]研究得出合理的成本分担比例有利于加快信息、知识在联盟内的流通，提高联盟成员的研发积极性，从而促进联盟的稳定发展。

在探讨内部因素方面：Gill和Butler[8]研究了日本企业在英国和马来西亚的跨国合资企业，认为成员之间的信任、冲突和依赖是影响稳定性的关键因素，并提出只有增强成员间的信任，减少冲突以及技术资源的依赖才能促进联盟稳定运行。任声策和宣国良[9]在Sinha和Cusumano模型基础上，通过引入学习因素，分析得出学习因素会导致互补因子降低，从而会影响合作的稳定性。蒋樟生[10]从知识转移的角度探讨了权益结构和知识学习能力对技术创新联盟稳定性的影响。高艳慧和万迪昉[11]利用实验经济学的方法研究得出声誉机制能够减少联盟企业的机会主义行为，消除联盟企业借助信息优势获取的额外收益。孙霞和赵晓飞[12]指出，声誉机制是促进联盟稳定的重要工具，能激励合作双方积极投入到合作中，同时防止机会主义对联盟稳定性的影响。曹霞[13]研究得出知识资源的互补性、合作声誉以及沟通交流对产学研合作创新和稳定具有积极促进作用。

目前，学者们对联盟稳定性的研究多集中在企业间技术联盟[9,10]，而关于产学研创新联盟研究较少且以静态研究为主，但是产学研创新联盟是一个动态的过程，联盟成员在会在不断学习和试错中调整自身策略，最终实现最优选择。学者在采用演化博弈论对产学研合作稳定性进行研究时多集中在“合作”与“不合作”策略上[1,14]，但合作后双方依然存在机会主义行为使得合作不能持续，损害总体利益。另外，研究多为对称博弈[15]，没有结合产学研联盟的特性。产学研联盟与企业间的技术联盟不同，联盟成员之间差别较大，因此所采取的策略也不尽相同。

鉴于以上，本文结合产学研创新联盟双方所处环境的现实特征，针对我国产学研合作中存在的具体问题，给出企业策略集为{坚持合作，中途背叛}，学研方策略集为{积极研发，消极研发}。产学研合作是一个动态的过程，因此本文从动态视角考虑企业学习能力对产学研创新联盟稳定性的影响，其次将声誉损失、长期效益考虑到模型中，通过建立演化博弈模型分析企业学习能力、声誉损失、长期效益、利益分配系数及惩罚金额对产学研联盟稳定性的影响，并利用Matlab进行数值仿真模拟，清晰直观地展现企业和学研方的演化行为及结果，以期为提高产学研创新联盟的稳定性提供理论指导。

2 基本模型

2.1 模型基本假设与参数

假设1企业在合作中学到足够的知识就能获得单方收益，所以企业很有可能在实现单方收益后选择中途背叛[16]。企业作为产学研合作中的资金支持方，占相对的主导地位，可以根据从产学研合作中获得的利益来选择是继续合作还是中途背叛。因此假定企业策略选择集为{坚持合作，中途背叛}。学研方作为技术或知识的持有者，是技术和知识转移的主体，为产学研合作创新活动提供其所需的知识。学研方可能出于对自身资源和技术的保护，选择消极研发，即提供的知识中核心知识所占比例较低。由于研发出的产品收益受到多方面的影响，比如市场、经济环境等外生因素，这些外生因素恰恰可以掩盖学研方消极研发的行为。因此假定学研方选择策略集为{积极研发，消极研发}。

假设2企业与学研方在不合作的情况下双方收益为π1和π2。为了便于分析，统一记为0。合作带来的创新收益增值记为Δπ，为本文的显性收益。按提成的方式进行利益分配，合作成功时，企业的利润为αΔπ，学研方为(1-α)Δπ。若企业选择背叛，则合作失败，收益增值为0。

假设3为了便于分析，企业和学研方参与合作初始投入成本在这里统一记为0。主要考虑合作后的后续成本。若企业坚持合作，则后续成本为C1；若企业选择中途背叛，则后续成本为C4，且C1>C4>0。学研方积极研发时的后续投入成本为C2；反之，消极时则记为C3，且C2>C3>0。企业选择中途背叛，而学研方暂时没有察觉得到，所以仍然坚持投入成本。

假设4学研方在后续合作中可能会出现消极行为，即在知识转移过程中降低核心知识的量。我们用θ表示学研方转移的核心知识与总知识的比。当θ为零时，说明学研方没有向创新联盟转移核心知识，损害了联盟的利益。当θ为1时，说明学研方积极地将所掌握的核心知识转移到联盟中。学研方积极研发时为θ1，消极时为θ2，θ1>θ2>0。

假设5当企业选择中途背叛时，需要支付给学研方违约金额C。同时声誉是企业的一项资产并且难积易损，企业拥有良好的声誉能够吸引更多的合作伙伴。但企业采取机会主义行为损害了合作伙伴的利益，那么企业声誉受到损失，在这里记为k。

假设6企业与学研方在寻找各自合作伙伴时会产生交易成本，同时也需要付出时间成本和机会成本，而企业与学研方能建立长期稳定的关系能给双方节约成本。因此，企业坚持合作，学研方积极研发时能够带来长期效益，分别记为T1和T2，为本文的隐性收益。

假设7企业与学研方合作的过程中，企业学习对方的核心知识或者技术的能力为P。若企业没有自主研发能力，P=0。假设学研方提供的技术价值为ν，可以从学研方获得的技术价值为Pθν。一般情况下，企业与学研方合作所获得的创新收益是要大于企业背叛所获得额外收益，即Δπαθ>Pθν。

根据以上假设，可以得出产学研合作的支付矩阵，如表1所示。

表1 产学研合作支付矩阵

2.2 复制动态方程

假设产学研合作中，企业坚持合作的概率为x，采取中途背叛的概率为1-x，而学研方积极研发的概率为y，消极研发的概率为1-y。根据企业与学研方的支付矩阵，我们可以得到以下复制动态方程。

2.2.1 企业

坚持合作的期望收益为:U11=y(Δπαθ1-C1+T1)+(1-y)(Δπαθ2-C1)；中途背叛的期望收益：U12=y(Pθ1ν-C4-C-k)+(1-y)(Pθ2ν-C4-C-k)；企业的平均期望收益为：U1=xU11+(1-x)U12；企业的复制动态方程为:

F(x)=dx/dt=x[U11-U1]

=x(1-x)[y(Δπαθ1-Δπαθ2)+Δπαθ2+

yT1-C1+C4+C+k-y(Pθ1ν-Pθ2ν)-Pθ2ν]

F′(x)=(1-2x)[y(Δπαθ1-Δπαθ2)+Δπαθ2+

yT1-C1+C4+C+k-y(Pθ1ν-Pθ2ν)-Pθ2ν]

2.2.2 学研方

积极研发的期望收益为：U21=x[Δπ(1-α)θ1-C2+T2]+(1-x)(C-Pθ1ν-C2)；消极研发的期望收益为：U22=x[Δπ(1-α)θ2-C3]+(1-x)(C-Pθ2ν-C3)；学研方的平均期望收益为：U2=yU21+(1-y)U22;学研方的复制动态方程为:

G(y)=dy/dt=y[U21-U2]

=y(1-y)[xΔπ(1-α)(θ1-θ2)+xT2-Pθ1ν+

Pθ2ν-C2+C3+x(Pθ1ν-Pθ2ν)]

G′(y)=(1-2y)[xΔπ(1-α)(θ1-θ2)+

xT2-Pθ1ν+Pθ2ν-C2+C3+x(Pθ1ν-Pθ2ν)]

分别令F(x),G(y)为零，得出均衡点：E1(0,0)，E2(0,1)，E3(1,0)，E4(1,1)，E5(X0,Y0)其中:

3 稳定性策略分析

3.1 企业策略稳定性分析

(1)当Pθ2ν-C4-C-k-Δπαθ2+C1>0，且Pθ2ν+C1-C4-C-k-Δπαθ2<Δπα(θ1-θ2)+T1+Pθ2ν-Pθ1ν，得出Pθ1ν-C4-C-k-Δπαθ1+C1-T1<0，此时0Y0时，F′(1)<0，所以x=1为稳定策略。即当学研方选择积极研发的初始概率大于一定值时，企业会选择坚持合作。当学研方选择积极研发策略的初始意愿y

(2)当Pθ2ν-C4-C-k-Δπαθ2+C1<0，已知Δπα(θ1-θ2)+T1+Pθ2ν-Pθ1ν>0，得出Pθ1ν-C4-C-k-Δπαθ1+C1-T1<0，此时Y0<0。对于任意y∈[0,1]，总有F′(1)<0，所以x=1为稳定策略。即不论学研方采取何种策略，企业都会采取坚持合作策略。

(3)当Pθ2ν-C4-C-k-Δπαθ2+C1>0，且Pθ2ν+C1-C4-C-k-Δπαθ2>Δπα(θ1-θ2)+T1+Pθ2ν-Pθ1ν，得出Pθ1ν-C4-C-k-Δπαθ1+C1-T1>0，此时Y0>1。对于任意y∈[0,1]，总有F′(0)<0，所以x=0为稳定策略。即不论学研方采取何种策略，企业都会采取坚持中途背叛。

3.2 学研方策略稳定性分析

(1)已知Pθ1ν-Pθ2ν+C2-C3>0，当Pθ1ν-Pθ2ν+C2-C3<Δπ(1-α)(θ1-θ2)+T2+Pθ1ν-Pθ2ν，得出Δπ(1-α)(θ1-θ2)-C2+T2+C3>0。此时0X0时，G′(1)<0，所以y=1为稳定策略。即当企业选择坚持合作的初始概率大于一定值时，学研方会选择积极研发。当企业选择坚持合作的初始意愿x

(2)当Pθ1ν-Pθ2ν+C2-C3>Δπ(1-α)(θ1-θ2)+T2+Pθ1ν-Pθ2ν，得出Δπ(1-α)(θ1-θ2)-C2+T2+C3<0，此时X0>1，所以y=0为稳定策略。即不论企业采取何种策略，学研方会选择消极研发。

3.3 企业与学研方演化博弈稳定策略

将以上的各种情况配对，有6种条件组合，如表2所示。

表2 企业和学研方不同条件组合下的演化稳定点

从上表2我们可以得出：

(1)当企业和学研方都满足条件一时，演化博弈稳定点为E1(0,0)和E4(1,1)。博弈的结果取决于双方的合作诚意，即企业、学研方选择坚持合作和积极研发的初始概率大于一定值时，稳定点为E4(1,1)。企业选择“坚持合作”策略，学研方选择“积极研发”策略。

(2)当企业满足条件一，而学研方满足条件二时，稳定策略点为E4(1,1)。由于企业中途背叛所支付的违约金以及声誉损失大于其背叛所获得额外收益以及所节约的成本，所以不管初始状态如何，企业都会选择坚持合作，最终博弈的结果为企业采取坚持合作，学研方选择积极研发，双方实现共赢。因此违约金机制，声誉机制能在一定程度上保证产学研合作的稳定性，提高合作的创新收益。

(3)其他四种情况都不会出现双方积极合作的情况。当学研方满足条件三时，产学研合作终止。由于企业违约所获得额外收益比较大，超过了违约支付的惩罚金以及其他损失，或者企业坚持合作投入的成本太大，企业最终选择中途背叛。因此合理投入的成本也有利于维持产学研联盟的稳定性。

4 产学研双方策略的影响因素分析

4.1 系统初始状态的影响

当稳定点为E1(0,0)和E4(1,1)，博弈的结果对初始值具有依赖性。如图1所示，当初始值落在S1区域(即区域BECD)时，演化结果向E4(1,1)收敛，稳定策略逐渐向“帕累托最优”的方向演化；当初始值落在S2区域(即区域ABEC)时，演化结果向E1(0,0)收敛，最终走向“囚徒困境”。因此产学研合作向哪个状态演化取决于S1和S2面积的大小。若S1>S2，系统向(坚持合作，积极研发)方向演化的概率更大；若S1

图1 产学研合作演化博弈相位图

4.2 企业的学习能力P

S1对P求偏导，得出S1的面积随着P的增加大而减少，系统向E1(0,0)方向演化的概率增大。即企业坚持合作，学研方积极研发的概率将减少。可以理解为当企业学习能力越强，企业从学研方获得的学习收益就越高，企业更有可能选择中途背叛。

4.3 声誉损失k，违约金C

S1分别对k和C求偏导，得出S1的面积随着k和C的增加大而增大。系统向E4(1,1)方向演化的概率增大。因此，当企业背叛所受到的声誉损失值以及违约金额增大时，能够有效遏制企业的投机行为。

4.4 长期效益T1,T2

S1分别对T1和T2求偏导，得出S1的面积随着企业与学研方积极合作所获得长期效益T1，T2增加而增大。企业坚持合作、学研方积极研发所带来的长期效益越大，系统向E4(1,1)方向演化的概率就越大。

4.5 收益分配系数

S1对α求偏导，得出α对S1的影响是非单调的，进行二阶求导结果小于零，所以存在极大值。

令一阶导数为零，当满足

时，S1有极大值，此时系统向E4(1,1)方向演化的概率就越大。因此，存在最优的收益分配系数使得双方均选择最优策略，实现帕累托最优。

5 数值算例的仿真分析

为了更清晰直观地反映企业与学研方的动态演化过程，下面运用Matlab就具体算例的策略演化情况进行仿真模拟。

5.1 情形一

当市场对中途背叛的企业处罚力度不够，学研方对合作企业信誉要求不高时，参数值如下：Δπ=40,ν=25,α=0.7,P=0.6,θ1=0.8,θ2=0.3，C1=15，C2=5，C3=3，C4=5，C=2，T1=3，T2=2，k=1，根据表达式可得X0=0.6129,Y0=0.3263，取数使得0

5.1.1 企业的策略演化情况

取y=0.5>Y0，企业的策略动态演化过程如图2所示：当y>0.3263时，x→1。当学研方积极研发的初始概率大于0.3263时，企业会选择坚持合作。

取y=0.2

图2 企业策略演化过程

图3 企业策略演化过程

5.1.2 学研方的策略演化情况

取x=0.7>X0，学研方的策略动态演化过程如图4所示：当x>0.6129时，y→1。当企业选择坚持合作的初始概率大于0.6129时，学研方会选择积极研发策略。

取x=0.5

图4 学研方策略演化过程

图5 学研方策略演化过程

5.1.3 综合分析

将企业和学研方的分析综合企业，当企业和学研方均满足条件一时，结果如图6所示，演化博弈稳定点为E1(0,0)和E4(1,1)，最终结果取决于初始时企业选择坚持合作，学研方选择积极研发的概率。

图6 企业和学研方策略稳定情况

图7 企业策略演化过程

5.2 情形二

当市场对中背叛的企业处罚力度加大，学研方对合作企业信誉要求变高时，其他参数不变，令C=5，k=5，根据表达式可得X0=0.6129,Y0=-0.4105，取数使得0

5.2.1 企业的策略演化情况

任意选取y的取值，结果如图7所示，不管y的值为多少，x→1，即不论学研方选择积极研发的初始概率为多少，企业都会选择坚持合作。

5.2.2 综合分析

当学研方满足条件二，而企业满足条件一时，稳定策略点为E4(1,1)。结果如图8所示。

图8 企业和学研方策略稳定情况

6 研究结论与展望

6.1 研究结论

本文运用演化博弈理论构建了产学研创新联盟演化博弈模型并对联盟过程中的稳定性进行分析，得到的主要结论为：(1)企业和学研方演化结果受到系统初始状态的影响。(2)学习能力越强的企业越能从学研方处获得较高的收益，从而搭便车的机会主义倾向就越强，双方采取{中途背叛，消极研发}的概率就越大。(3)企业选择中途背叛所支付的违约金额、遭受的声誉损失和企业选择坚持合作收获的长期效益越大，达到最优策略的概率越大。(4)存在最优的收益分配系数使得双方均选择最优策略，实现帕累托最优。

6.2 建议与对策

(1)构建合理的额外收益分配比例

上述分析得出存在最优的收益分配系数使得双方均选择最优策略，当额外分配比例满足一定条件时，企业选择坚持合作且学研方选择积极研发，双方获得更多的收益增值。同时由于成员地位差别比较大，产学研联盟利益也更追求合理性、公平性，所以构建合理的额外收益分配比例是双方通力合作的基础，有利于达到系统最优状态，从而实现双赢。收益分配比例还受到了其他一些因素的影响，企业与学研方在合作之前应该综合以上所探讨的因素，确定合理、公平的收益分配比例。

(2)建立有效的惩罚机制

从上述分析中，我们发现当增加违约金数额时，产学研双方选择坚持合作和积极研发的概率增大，因此违约金能够有效制约企业投机行为。学研方与企业在合作之前，规定双方应该遵守的规则，建立有效的惩罚机制，对于违反合约中途背叛的行为应该给予经济上的处罚，增加违约的成本。

(3)加强知识产权保护

企业选择投机行为所获得的学习收益受到知识产权保护强度的影响。若该地区对知识产权保护比较薄弱，加上技术又比较容易复制，那么企业则更容易采取投机行为。政府应加强监管，完善知识产权立法，加强知识产权执法，加大对侵权违法行为的惩治力度。如果合作企业的动机是获取学研方的技术知识，那么产学研合作终止的可能性较大。因此，学研方在与企业合作时，要对合作企业的发展趋势、合作动机进行判断，根据自己的具体情况选择合适的联盟伙伴，加强知识产权保护意识，并在合作前明确相关义务和责任。

(4)将企业行为纳入社会信用体系

企业的声誉损失越大越能够有效减少企业的机会主义行为，因此将企业不良行为纳入社会信用体系，记录参与者在联盟过程中采取的投机行为，可以增加声誉对企业的影响，间接增加了企业的违约成本(隐性成本)。信用体系的不断完善会逐渐减少企业和学研方间的信息不对称，减少机会主义行为，从而维持产学研联盟的稳定。

6.3 研究局限和展望

首先受学研方研发积极性难以监测的影响，本文没有考虑企业对学研方的监督，后续研究可以引入政府、中介机构实现对学研方的监督，探讨三者之间的博弈行为。其次，产学研联盟相关数据获取较难，所以本文在进行仿真时的参数并不是实际参数，只能反映企业和学研方行为的趋势。因此在后续的研究中将积极对企业、高校、科研院所、孵化机构等相关单位进行深度调研，使用真实数据进一步研究，使得理论能够与应用有效地结合。