基于产业技术创新联盟的产学研合作演化博弈分析

2018-01-24 08:13王小杨杜晓荣

经济研究导刊 2018年1期

王小杨，张雷，杜晓荣

（1.电子科技大学中山学院经贸学院，广东中山 528400；2.中山大学物理学院，广州 510275）

当今的产学研合作已经不局限于传统的模式了，通过建立“产业技术创新联盟”等方式，多方支持产学研合作，而在多方的引导下，我国产学研合作日趋活跃。建立产学研战略联盟模式，让企业、高校和科研机构、政府、中介服务组织、有关产品的最终门户等部门共同推动科技成果的转化。近几年来，作为一种产业层面的技术创新组织形态，产业战略联盟在科技创新中发挥了越来越大的作用，是产学研联合的深化，对加快产业自主创新和提升产业竞争力具有重要的作用。本文试图从演化博弈论的视角探讨产业技术创新联盟中的产学研合作，以及如何建立激励或约束机制来提高合作创新的效率。

一、国内外研究述评

关于产业技术创新联盟的研究，大部分学者集中在联盟成员彼此的关系上，Ybarra等利用交易成本理论和社会交换理论，比较了技术联盟成员之间的信任水平，证明了联盟成员间的信任能促进联盟绩效的提升[1]。朱少英等从技术联盟成员合作的博弈关系进行研究，得出信誉是联盟成员合作的重要治理机制的结论[2]。一些学者将联盟伙伴或联盟模式的选择看作是技术联盟成败的关键。赵世贤等提出，利用AHP模糊评价法来评价联盟潜在合作伙伴的技术创新能力，以此作为选择联盟合作伙伴的依据[3]。李荣等从科技情报机构视角，提出联盟式协同创新环境下开展信息服务的三种模式，并就如何推行提出了政策实施路径[4]。王发明等根据合作伙伴对联盟效益的贡献大小，利用Shapley值法对合作收益进行分配，形成了综合效益转移机制[5]。

关于产学研的研究主要集中在产业因素对合作的影响上，詹雯婷等系统分析了产学研合作中各产业因素之间的相互影响与制约关系，以及各因素对创新绩效和合作专利的影响[6]。阮国祥等对开放式产学研结合模式在自主创新中的运用进行了研究[7]。赵永刚、郑小碧认为，产业共性技术创新必须依靠“产学研”合作模式，并充分发挥骨干企业的主体作用[8]。殷辉等基于产业背景的产学研合作研究的不足，运用演化博弈理论比较分析不同类产业中的产学研博弈过程[9]。曹霞等对产学研联盟稳定性的影响因素进行分析，并剖析影响因素与产学研联盟稳定性的关系[10]。

国内学者把产业技术创新联盟与产学研合作结合起来的研究较少，有些学者分析了当今联盟中产学研合作的特点，却忽略了联盟中新角色、新策略给产学研合作带来的影响以及演化博弈的过程。本文基于有限理性的假设，采用演化博弈、数值仿真等，重点分析：基于产业技术创新联盟的产学研合作有何新特点？怎么约束或激励联盟中成员的行为？并进一步思考惩罚和奖励哪个对促进合作更有效？

二、基于产业创新联盟的产学研合作演化博弈模型

本文考虑了联盟内部成员长期的反复博弈，各方都是独立的利益主体，都以最大化自己的利益为目标。建立多策略、多人的博弈模型，并模拟真实情景设立奖励与惩罚机制，深入探讨不同条件下合作的演化情况，并分别讨论奖励和惩罚机制，对产学研合作的影响。

（一）假设条件与支付矩阵

在综合考虑产学研合作利益博弈的实际影响因素与模型可操作性的基础上，本部分给出以下基本假设：

假设1：为了维持产业技术创新联盟中各方的利益，通常会有一类合作者，我们将其定义为“道德者”（M），在惩罚机制下，对于违约或不合作的一方，会对其进行惩罚（如果群体中不存在背叛者，那么“惩罚者”就是合作者）；在奖励机制下，为了激励合作，会对合作者给予一定的奖励，但是惩罚或奖励的权利只能在选择合作一方的手中（即道德者也是合作者的一类），奖励和惩罚其他人的同时也要有一定的成本支出。

假设2：博弈策略。在传统的研究中，“合作”与“背叛”是参与方的两个选择，但是根据假设1，参与主体角色的不同，绩效机制不同，博弈时选择的策略也不同，具体情况结合表1和表2分析。

假设3：惩罚机制下的收益矩阵。选择囚徒困境模型来讨论个体理性和群体理性的矛盾和对立，并根据假设1和假设2得到改进后的收益矩阵（如表1所示）。

表1 惩罚机制下的多策略囚徒困境模型

其中，对于合作者来说，当对方选择背叛，那么合作者要付出c的代价，得到收益-c；如果对方选择合作，则双方的收益均为（b-c）；而对于背叛者来说，如果对方选择合作，它将获得b的收益；如果对方也选择背叛，他将没有收益。对于不参与者，将得到一定的收益σ；对于惩道德者，惩罚背叛者时需要付出t的代价，让背叛者的收益减少p。

假设4：奖励机制下的收益矩阵。当产学研合作中的某个单位或组织对整个产学研的合作贡献较大时，会对其进行奖励来促进更好的合作。在现实的产学研合作中，也有类似的情况，产学研的项目除了自身的盈利外，有可能会得到政府或组织等的额外资金补贴；又或者产学研联盟中的几个单位，为了后续长久的合作，会以奖励的方式支持创新贡献较大者，具体情况收益矩阵（如表2所示）。其中，道德者需支付t，而合作者得到r的奖励。

表1和表2是改进后的囚徒困境模型，彼此之间的收益关系仍然需要符合经典囚徒困境模型的要求，关于囚徒困境及改进后的相关理论，可参考相关文献[11-16]。

表2 奖励机制下的囚徒困境收益矩阵

（二）产学研合作行为的演化博弈分析

本文的重点是讨论不同的绩效机制下，多角色、多人的演化博弈过程，针对前文的假设条件，对产学研合作的演化过程递进讨论，首先分析多人的博弈规则，然后讨论不同机制下多策略的博弈规则，最后推导演化过程。

1.惩罚机制下的多人、多策略产学研博弈。结合上页表1，假设某博弈方A选择合作的概率为x1，选择成为道德者的概率为x2，选择成为中立人的概率为x3，选择成为不合作者的概率为（1-x1-x2-x3）。则对方B选择合作的概率为y1，选择成为道德者的概率为y2，选择成为中立人的概率为y3，选择不合作的概率为（1-y1-y2-y3）。

某博弈方A选择合作的复制动态方程为：

某博弈方A选择惩罚的复制动态方程为：

2.奖励机制下多人、多策略产学研博弈。结合本文表2，假设某博弈方A选择合作的概率为x1，选择成为道德者的概率为x2，选择成为中立人的概率为x3，选择成为不合作者的概率为（1-x1-x2-x3）。则对方B选择合作的概率为y1，选择成为道德者的概率为y2，选择成为中立人的概率为y3，选择不合作的概率为（1-y1-y2-y3）。

某博弈方A选择合作的复制动态方程为：

某博弈方A选择惩罚的复制动态方程为：

三、模型参数变化

当系统出现可能的稳定均衡时，究竟收敛于哪个均衡状态，与博弈的收益矩阵和博弈发生时的初始状态密切相关，参数的变化和初始值将导致不同的均衡点收敛。

第一，“惩罚—收益”比例系数p/b。当系统中存在“惩罚者”时，则讨论“惩罚—收益”比例p/b对产学研合作的影响。通过分析，当对产学研合作中背叛者的惩罚力度加大，即p/b较大时，理性的参与者选择背叛时会得到较大的惩罚，则系统中的个体便倾向于合作。而假如对产学研合作的监管不利，对背叛者惩罚力度减小，即p/b较小时，“搭便车”者便会出现，导致理性的个体更倾向于背叛。

第二，“奖励—收益”比例系数r/b。当系统中存在奖励机制时，讨论“奖励—收益”比例r/b对产学研合作的影响。通过分析，当对产学研合作中的合作者的奖励力度加大时，即r/b增大时，理性的参与者选择合作时会得到较多的奖励，则系统中的个体更倾向于合作。而假如对产学研合作的激励不够，对合作者没有给予足够多的奖励，即r/b较小时，长久来看，将导致理性个体倾向于背叛。

四、仿真及分析

本文基于Python软件进行数值模拟仿真。初始情况下，平均分配各个角色在群体中所占的比例。

第一，“惩罚—收益”比例系数p/b。下页图1分析多人多策略下，惩罚机制对产学研合作的影响，每条曲线对应一个惩罚的p/b值，通过观察可以发现，当p/b值越大时，代表对不合作者的惩罚越大，则发现曲线对应的平均合作度较高，说明系统中的合作者和道德者占主导地位，而当p/b值较小时，发现曲线对应的平均合作度较低，系统中的不合作者成为主导者。从图1可以看出，随着横坐标c/b的增大，平均合作度还是呈现下降趋势，这说明理智的参与者发现合作的代价太大时，会选择背叛。

第二，“奖励—收益”比例系数r/b。下页图2分析多人多策略下，奖励机制对产学研合作的影响，每条曲线对应一个奖励的r/b值，通过观察可以发现，当r/b值越大时，代表对合作者的奖励越多，则发现曲线对应的平均合作度较高，说明系统中的合作者和道德者占主导地位，而当r/b值较小时，发现曲线对应的平均合作度较低，系统中的不合作者成为主导者。

图1 惩罚机制下3人博弈的情况（纵坐标是平均合作度，横坐标是c/b的值）

图2 奖励机制下3人博弈的情况（纵坐标是平均合作度，横坐标是c/b的值）

接下来，我们进一步对比图1和图2，不同机制下，多人多策略联盟中的平均合作度，可以发现在惩罚机制下的平均合作度略高于奖励机制下的平均合作度，为什么在相同的比例下，惩罚比奖励对合作的提升更有效？人类和其他动物对某些放大的意识，比如负面的影响，会迅速做出回应，并进行自我调节。而不同于其他动物，人类是认知型的高级生物，对心理情绪造成的影响，负面信息比正面信息要大。而那些积极的影响，如对一些满足感或能提供满足感的人的遗忘速度似乎很快；而对那些消极的影响，比如受到惩罚后心理的负面影响，似乎更长远地影响着人类的行为。因此在惩罚的负面影响下，生物可能会积极合作，可以小程度上超越奖励的积极影响（此结果也与文献[17-19]的结论类似）。

五、结论

在产业技术创新联盟中，成员之间分工不同，可能选择的策略也不同，在激烈竞争的市场环境中，为了保障联盟中成员的利益，并激发出更多的合作潜能，促进产学研成果的转化，本文从绩效的角度入手，建立惩罚与奖励机制，对不同的机制的联盟下产学研合作进行演化博弈分析。

绩效机制中惩罚与奖励对产学研合作的影响。产业技术创新联盟中各方所采取的策略是随着所处系统机制不同而发生演化的，首先分析了惩罚机制下各方策略的选择以及合作的情况，通过上文的分析以及实验结果可以发现，当“惩罚—收益”p/b增大时，产学研合作也会加深。同时，联盟中各角色的比例也随之变化，不参与者与背叛者数量减少，合作者和道德者增多。之后，分析了奖励机制下各方策略的选择以及合作的情况，通过分析及实验结果可以发现，当“奖励—收益”r/b增大时，产学研合作也会加深，主要是由于合作的一方得到了更多的收益，便会继续合作下去。最后，我们也分析了为何惩罚机制会在提高产学研合作上略有优势，主要是从人类心理和进化的角度说明了原因。综上，在产业技术创新联盟的产学研合作中，一定要对各方所处的角色进行分析，并制定一定的惩罚和奖励的绩效机制，充分评估不同机制的影响，加强监督，并合理分配不同角色的利益，才能有效地提升产业技术创新联盟的产学研合作水平。

本文运用演化博弈论和囚徒困境模型，分析并模拟了基于产业技术创新联盟的多人、多策略产学研合作，并探讨在不同的绩效机制下的合作情况。研究结论表明，产学研合作的利润很重要，联盟中的各方都希望有较高的合作收益和较低的支出成本；其次，建立一定的绩效机制，简单地依靠各方自觉是不够的，如果想激发出更多的产学研合作，适当的惩罚或奖励机制的建立，在降低了合作风险的同时，增加了联盟的各方的合作意愿。在后续的研究中，在保持模型的简洁性和有效性的前提下，进一步考虑产业技术创新联盟的更多现实因素，结合系统仿真等方法进行深入分析和论证。

[1]Ybarra C.E.，Thomas A.Turk.The evolution of trust in information technology alliances.Journal of High Technology Management Research，2009，(1)：62-74.

[2]朱少英，齐二石.产学研联盟关系品质影响因素实证研究[J].科技进步与对策，2016，(3)：12-17.

[3]赵世贤，张华，何娜.基于技术创新能力评价的企业技术联盟合作伙伴的选择[J].西南科技大学学报：哲学社会科学版，2010，(1)：35-39.

[4]李荣，吴晨生，刘彦君，等.产业技术创新联盟信息服务模式及发展对策研究[J].情报理论与实践，2014，(10)：35-39.

[5]王发明，刘丹.产业技术创新联盟中焦点企业合作共生伙伴选择研究[J].科学学研究，2016，(2)：246-252.

[6]詹雯婷，章熙春，胡军燕.产学研合作对企业技术能力结构的双元性影响[J].科学学研究，2015，(10)：528-537.

[7]阮国祥，阮平南，宋静.创新网络成员知识共享演化博弈仿真分析[J].情报杂志，2011，(2)：100-104.

[8]赵永刚，郑小碧.基于参与者智力决策的产业关键共性技术创新研究[J].科技进步与对策，2013，(1)：59-63.

[9]殷辉，陈劲.新兴和成熟产业中企业对学研方行为的演化博弈仿真分析[J].科技管理研究，2015，(7)：97-102.

[10]曹霞，于娟，张路蓬.不同联盟规模下产学研联盟稳定性影响因素及演化研究[J].管理评论，2016，(2)：3-14.

[11]Xiaoyang Wang，Lei Zhang，Xiaorong Du，Yunlin Sun.Evolving cooperation in spatial population with punishment by using PSO algorithm.Natural Computing，2016，DOI：10.1007/s11047-016-9546-5.

[12]Uchida S.，Sigmund K.The competition of assessment rules for indirect reciprocity.J.Ther.Biol.2010，(1)：13-19.

[13]Yoeli E.，Hoffman M.，Rand，D.D.，Nowak，M.A.Powering up with indirect reciprocity in a large-scale filed experiment.Proc.Natl.Acad.Sci.USA 110(Supplement 2)，2013：10424-10429.

[14]Christian Hilbe，Arne Traulsen，Torsten Röhl，and Manfred Milinski，Democratic decisions establish stable authorities that overcome the paradox of second-order punishment，PNAS，vol.111，2014，(2)：752-756.

[15]Julián García，Matthijs van Veelen，Arne Traulsen，Evil green beards：Tag recognition can also be used to withhold cooperation in structured populations，Journal of Theoretical Biology，vol.360，2014：181-186.

[16]Boyd R.，Gintis H.，Bowles S.Coordinated punishment of defectors sustains cooperation and can proliferate when rare.2010，Science328：617-620.

[17]Ayelet Gneezy，Daniel M.T.Fessler，Conflict，sticks and carrots：war increases prosocial punishments and rewards，Proc.R.Soc.B，vol.279，2012：219-223.

[18]Xiaojie Chen，Tatsuya Sasaki，Ake Brannstrom and Ulf Dieckmann，First carrot，then stick：how the adaptive hybridization of incentives promotes cooperation，Journal of the royal society interface，2014，(12)：1-9.

[19]Kyle Irwin，Christine Horne.A normative explanation of antisocial punishment，Social Science Research，2013，(42)：562-570.