基于智能合约的数据共享激励机制研究

2022-08-12 02:29张伯钧郭一晨王子凯

计算机工程 2022年8期

张伯钧，郭一晨，王子凯，胡凯

（1.北京航空航天大学计算机学院，北京 100191；2.云南省区块链应用技术重点实验室，昆明 650233）

0 概述

在大数据时代，数据流动和信息共享对人类科技进步至关重要，数据共享社区是促进科学数据开放共享的重要载体［1-2］。近年来，我国在促进科学数据共享方面出台了一系列举措，然而，最近的一项调查研究结果表明，我国的研究人员虽有分享数据的意愿，但也担心数据被误用以及版权和许可受到侵犯［3］，最终绝大多数学者都不愿意分享自己的数据，即无意愿开放共享，导致数据缺乏流动性，无法有效发挥数据共享社区的功能和优势。共享社区长期缺乏有效且科学的激励机制，普遍面临用户参与积极性低、归属感弱、知识生成动力不足、数据共享程度低等挑战，缓解这一问题的关键是构建一个合理有效的数据共享模型［4］。

区块链技术［5-6］的出现为解决数据共享所面临的问题提供了新的思路。区块链的本质是一个分布式账本，账本上的每一笔交易都由区块链网络上的各个节点来查看和验证。首先，区块链的分布式特性保证了数据共享流通的透明性，用户可以清晰地看到自己的数据流通过程，防止数据信息被滥用的情况发生；再次，利用区块链智能合约自动执行的特性，可以将数据共享的激励机制写入智能合约，将奖励与惩罚信息公开，规范流程从而实现奖惩透明；最后，区块链也解决了数据共享过程中的确权问题，通过区块链，所有的数据都可以逐一溯源，既可以保证数据的归属权，又可以检验数据信息的真伪。因此，将区块链与数据共享相结合，可以扩大数据规模，规范数据管理流程，实现对共享数据的确权，从而建立一个开放的数据共享生态体系。

当前，数据共享被越来越多的学者关注，其中的一个研究热点便是激励机制。庄倩等［7］建立了一种参与科学数据共享的科研人员的演化博弈模型，通过该模型分析数据共享的演化过程。WEN 等［8］提出一种基于讨价还价理论的群智感知激励机制，其着重研究数据质量对数据收集者的影响。郝世博等［9］使用区块链以及智能合约，从技术维度来解决数据共享中所存在的信任问题。石进等［10］在其提出的基于区块链的中小企业竞争情报共享平台模型中，采用信用积分制度激励用户进行共享。张宝等［11］也提出了基于智能合约的积分激励体制，当用户上传数据或数据被查看时奖励用户积分，以此来激励用户共享数据。张旺等［12］通过双向委托代理分析，验证了在不承担风险的情况下，选择不共享策略能够最大限度地减少共享成本，从而说明了激励机制在数据共享中的重要性。GAN 等［13］提出一种基于区块链的eHealth 系统，并在该系统中根据医疗数据的质量以及患者参与共享的积极性来对患者进行激励。SHEN 等［14］在研究多云数据共享时，利用Shapley 值构建一个动态公平的激励方案，为多云数据共享协作提供了一种收入分配方法。SHRESTHA 等［15］在建立一个基于区块链的共享平台的基础上，构建一种在以太坊上部署智能合约的用户激励模型。LI等［16］在设计一个基于区块链的车载人群感知框架时，提出一种基于用户声誉的激励机制，其在确保公平交易的同时提高了数据的质量。梁小燕［17］为促进医疗机构数据共享，提出一种基于信息熵的医疗数据共享激励机制，通过计算信息熵来判断信息的价值，并提出基于Shapley 值的利益分配策略。蔡婷等［18］提出一个高效的区块链物联网数据激励共享框架ShareBC，并在此框架中设计了一种基于层次数据拍卖模型的激励机制。王倩等［19］基于区块链技术与演化博弈论，构建一种面向科技服务数据共享策略的智能合约激励机制。

虽然已有很多学者提出了各种不同的激励机制，但是这些激励机制仍然存在局限性，例如，某些激励机制不能满足用户的需求，导致用户在该机制下没有数据共享的意愿，或激励机制的奖励过多导致社区通货膨胀，从而使奖励贬值，短时间内虽然可以激励用户进行数据共享，但是该激励并不能长期保持。针对上述问题，本文建立一种基于演化博弈论的数据共享激励模型EGDSI，从数据共享社区的角度设计合理的激励机制，以促进数据的收集、流通和使用。

1 基于演化博弈论的数据共享激励模型

早期的博弈论认为所有的参与者均是完全理性的［20］，他们总是能思考所有情况，最终选择对自己最有利的方案。完全理性的人总是会遵行优势策略，即玩家从不会在决策时考虑其他玩家对他们的决定会如何回应。完全理性的人是完全的个人主义者，但在现实生活中，完全理性是很难达到的［21］。

演化博弈论是将达尔文的生物进化论与博弈论相结合，其不再要求参与人完全理性，而是假定参与人有限理性，所谓的有限理性是指博弈方可以对所处的不同环境进行学习、试错和模仿，在这个过程中动态调整自己的策略，从而寻找最优方案。在数据共享社区中，用户具有共享与不共享这2 种行为策略，用户之间会相互影响，即利用有限的认知和信息获取能力，通过不断地学习和模仿他人策略来调整自身策略，以此实现自身利益最大化。

1.1 模型构建

数据共享是一个动态选择及学习调整的过程，为了构建模型和简化计算，本文进行如下假设：

1）演化博弈双方具有相同的主体，即数据共享社区的用户，他们具有相同的策略空间K，K={K1,K2}=｛参与数据共享，不参与数据共享｝。

2）在数据共享的过程中，用户需要付出一定的成本，此处的成本包括但不限于数据制作的时间成本、数据被滥用的经济成本等。在本文模型中，数据成本记为G。

3）假定在博弈的初级阶段，主体P1参与数据共享的概率为p，主体P2不参与数据共享的概率为1-p。

4）用户上传数据会给他们带来一些效用收益，该效用收益与用户在社区内的等级以及数据成本G有关，用户等级越高，说明对社区的贡献度越大，所获得的收益也就越多。该效用收益不一定是金钱收益，可以是上传数据获得的数字身份徽章或个人信誉值的提升等。本文效用收益简称成本收益，用B表示。

5）假定y为用户从数据共享中获得的收益，该收益包括但不限于社区积分的直接收益，也可以是利用共享数据解决现实问题而带来的间接收益，亦或是帮助科研人员解决某一项科研任务而获得的收益等。上述均属于共享收益，即从数据共享中获得的收益，此收益与数据成本G有关，其缩放系数用α表示。

6）收益函数是指每个参与人在参与博弈时依据其所属类型和选择的策略可获得的收益。本文采取对数收益函数ln（以e 为底数的对数函数）来计算收益，该函数特征符合现实社会经济学特征，即收益是有一定增长抑制的，不会随着成本的增加而无限提高，最大收益总会趋近于某一阈值［22］。

7）在数据共享社区中，为了鼓励用户共享数据，需要一定的外部激励奖励I，该激励奖励以积分的形式奖励参与数据共享的用户。但是，该激励并不是一成不变的，原因是一成不变会导致激励达到饱和状态，从而引起社区内的积分通货膨胀，这不符合经济学原理，因此，该激励在一定阶段又会变成数据共享成本，简称激励/成本I。

本文基于演化博弈论的数据共享激励模型EGDSI 是一个二元组的形式，表示为M=(P,K)，其中：P表示由大量数据共享社区的用户所组成的一个群体；K为策略空间，K={K1,K2}。用户有2 种策略：一种是K1（参与数据共享），即在数据共享社区中主动贡献出自己的数据，并可以获得其他共享用户的数据；另一种是K2（不参与数据共享），该类用户既不会分享数据，也不会从社区中获取共享的数据。

根据上述假设，成本收益B的表达式如（1）所示：

其中：l为该用户在社区内的等级；G为数据成本。根据现实中的合理性，成本收益B>0，即l∙ln(1+G)>0，l∊{1,2,3,4,5}，ln(1+G)可保证收益为正。

共享收益y与数据成本G有关，缩放系数α>0，y的表达式如（2）所示：

博弈双方的收益矩阵如表1 所示，其中，上方为P2的收益，下方为P1的收益。

表1 数据共享博弈收益矩阵Table 1 Data sharing game revenue matrix

收益矩阵的含义如下：

1）情况1。进行博弈的双方主体都选择K1参与数据共享，这种是理想情况，也是共享社区最终的目标。社区内所有成员均共享数据，博弈双方不仅具有原本的成本收益B，还会得到由数据共享所带来的共享收益y。社区在初始阶段会给每位共享者相应的激励奖励，但是这种奖励不能一直扁平化激励下去，这样会导致数据共享平台中数据的积分价格上涨，引起通货膨胀。因此，需要引入一个激励/成本I，此时应是数据共享的成本，即参与共享的用户需要支付少量的积分来进行数据共享，原因是此时已经达到激励饱和状态。

2）情况2。进行博弈的双方主体一个选择K1参与数据共享，另一个选择K2不参与数据共享。博弈双方均上传了数据，不同的是，一个选择共享数据，另一个选择不共享数据。首先，两者都会有数据本身带来的成本收益B；其次，由于共享数据的主体P1获取不到不共享主体P2的数据，因此没有共享收益y，需要给予共享主体一定的激励/成本I，此时应是外部的奖励激励，即一定的积分奖励。同理，不共享主体由于未共享数据，因此获取不到共享主体所共享的数据，同样也没有共享收益y。

3）情况3。进行博弈的双方主体均选择K2不参与数据共享，此时，数据共享社区所面临的场景是没有人愿意共享数据，因此，主体双方都只能获得成本收益B。

在EGDSI 模型中，由于参与主体均是有限理性的，因此在博弈开始阶段不可能直接达到纳什均衡状态，需要一个演化模拟学习他人策略的过程，以进行动态调节并反复尝试，最终达到一种最优的平衡状态，实现整体利益的最大化。

1.2 演化稳定策略分析

在演化博弈论中，假设使用该策略的个体在群体中所占比例的增长率等价于群体中使用某个策略的个体适应度，只要一个策略的个体适应度比群体的平均适应度高，则使用该策略的个体数就会增加，且不会被其他策略入侵［23］。

由前文假设可知，在博弈的初级阶段t，主体P1参与数据共享的概率为p，主体P2不参与数据共享的概率为1-p，可等效为在t阶段博弈中，选择共享策略的人数比例为p(t)，选择不共享的人数比例为1-p(t)。则在t阶段选择共享数据策略的期望收益为：

选择不共享数据策略的期望收益为：

数据共享社区的平均期望收益为：

因此，计算出复制动力学方程［24］为：

化简得：

令Y(p(t))=0，可以求出动力学方程有3 个演化稳态点，分别为：

上述演化稳定点在条件成立的情况下就是演化稳定策略（Evolutionarily Stable Strategy，ESS）的稳定状态。一种演化稳定策略一旦确立，就会稳定下来，偏离演化稳定策略的行为或个体将会被自然选择所淘汰。

1）条件1。

假设0

条件1 说明：在0

2）条件2。

假设0<α∙ln(1+G)

3）条件3。

假设I<0 且α∙ln(1+G)>0，即激励/成本I小于0时，此时应为数据共享激励奖励：

从条件1～条件3 可以看出，数据共享的演化稳定策略并不唯一。参与数据共享和不参与数据共享均具有演化潜力。EGDSI 模型演化稳定策略的趋势如图1 所示。

图1 EGDSI 模型演化稳定策略趋势Fig.1 Trend of EGDSI model evolutionarily stable strategy

为了促使更多人参与到数据共享中，有必要根据数据共享程度对激励/成本I进行动态控制。本文设定参与数据共享的比例小于阈值时为低数据共享程度，此时需要使用条件3 进行外部激励，给予数据共享者一些积分奖励，从而刺激社区用户选择共享策略；当参与数据共享的比例大于阈值时为高数据共享程度，此时需使用条件1 收取相应的共享成本，防止通货膨胀，并且由上述条件1 的分析可知，这时仍可以确保数据共享社区在参与共享策略方面能够维持而无需外部激励。

社区用户在每一个博弈阶段都对应一个参与成本，这会导致每一阶段的阈值均不相同，当共享人数比例小于阈值时使用条件3 进行激励，当共享人数比例大于阈值时使用条件1 收取成本，直到社区用户共享程度达到饱和，进行下一阶段博弈，重新计算阈值。如此循环往复，体现了社区成员相互博弈的过程，并从中获得由数据共享所带来的收益。博弈阶段流程如图2 所示。

图2 社区成员博弈阶段流程Fig.2 Community members game stage process

2 基于智能合约的数据共享模板引擎

数据共享模板引擎（Data Sharing Incentive Template Engine，DSITE）将EGDSI 模型以区块链智能合约的形式在数据共享社区中进行应用。智能合约是可以在区块链上自动执行的特殊程序，其程序代码及数据均存储在链上，具有防篡改等特性，所有节点必须按照智能合约预置的触发条件和相应规则进行计算。基于上述特性，可以在数据共享社区中将数据共享激励机制写入智能合约，用户在社区内进行数据共享时，会自动触发执行数据共享模板引擎进行共享激励，从而为数据共享激励提供可信、安全的保障。

由于EGDSI 模型假定所有参与博弈方的本质都是相同的，因此与所有博弈方相关的参数也应相同。参数设定如表2 所示。

表2 参数设定Table 2 Parameters setting

数据共享激励的计算过程如下：

步骤1初始化全局参数信息，包括数据成本Data Cost、数据共享收益缩放系数ZoomFactor、数据共享成本参数序列Cost[]、数据共享的积分激励Incentive Reward。

步骤2根据当前博弈阶段t得到数据共享成本参数Cost[t%m]，其中，m为数据共享成本参数序列数组长度，计算出该成本下的阈值。

步骤3计算出当前时间参与数据共享人数占数据共享社区总人数的比例pt，将pt与阈值进行对比，若pt<则返回数据共享积分奖励Incentive Reward；反之，进入步骤4。

步骤4返回相应的数据共享成本Cost[t%m]，同时判断当前共享比例pt与数据共享饱和率SaturationRate 大小，若pt>SaturationRate，则进入下一阶段博弈，博弈阶段t自增，数据共享参与人数重置，此阶段博弈结束；反之，则重复步骤1，继续进行当前阶段的演化博弈。

算法1DSITE 智能合约-数据共享激励算法

算法1 解释说明：当数据共享社区用户参与数据共享时，会自动触发上述智能合约，调用其方法。首先，计算参与共享的用户比例，通过数组寻找当前博弈阶段下的成本并计算该成本下的阈值，如果参与共享的用户比例小于阈值，则返回相应的激励；如果大于阈值，再判断当前共享用户比例是否大于饱和率，本文设定饱和率为98%，如果达到了当前的社区数据共享饱和率，则进入下一阶段的演化博弈，重置相应的参数，最后返回相应的数据共享成本。值得注意的是，计算激励/成本是一个取模运算，这是因为需要动态调整激励/成本，以重置社区用户博弈阶段，而数组本身不可能无穷大，因此采用取模运算，这也体现了社区成员数据共享相互博弈的一个过程。

3 实验验证

本节通过控制变量法设计不同的横向与纵向对比实验，分析EGDSI 数据共享模型中的3 个演化稳定策略条件，验证数据共享激励模型对社区演化稳定所起的作用，并将EGDSI 模型与其他数据共享演化博弈模型进行对比。

3.1 演化稳定策略验证分析

1.2节通过演化博弈论求解演化稳定策略，推导出条件1～条件3。本节通过模拟实验验证其结论的正确性。为满足条件1～条件3，对条件参数进行设置，具体如表3 所示。

表3 条件参数设置Table 3 Condition parameters setting

通过Matlab 进行演化模拟仿真，针对条件1，其演化曲线如图3 所示。

图3 条件1 的演化曲线Fig.3 Evolution curves of condition 1

共享收益缩放系数α=4，数据成本G=10，激励/成本I=4，可得演化稳定点如果社区成员进行数据共享的初始比例p满足0.42

针对条件2 与条件3，可得演化曲线如图4 所示。当设定共享收益缩放系数α=4、数据成本G=10、激励/成本I=12 时，满足条件2，即0<α∙ln(1+G)0，由图4（b）可知，当社区成员进行数据共享的初始比例p=0.05 时，即仅5%的社区成员选择了初始参与数据共享，但随着时间的推移，最终整个系统的演化稳定策略仍趋向于=1，即参与数据共享。实验结果表明，在条件3 的情况下=1 是数据共享社区的演化稳定策略。

图4 条件2 与条件3 的演化曲线Fig.4 Evolution curves of condition 2 and condition 3

3.2 激励机制方案验证分析

为了证明激励机制在用户选择决策时是否发挥促进数据共享的作用，设定共享收益缩放系数α=4，数据成本G=10，在条件1 中激励/成本I的取值范围为I<α∙ln(1+G)，即I<9.6，在条件3 中，I的取值范围为I<0。本次实验通过控制变量法，在相同数据共享初始比例的情况下调整不同的激励/成本I，以及在相同的激励/成本I下调整不同的数据共享初始比例，条件参数设置如表4 所示。

表4 激励机制条件参数设置Table 4 Incentive mechanism condition parameters setting

使用上述参数可得EGDSI 演化曲线如图5 所示。由条件1 可知，不同的激励/成本I会导致不同的数据共享初始比例阈值，以I=2 为例，当激励/成本I=2 时，数据共享初始比例阈值（即演化稳定点）=≈0.21，当数据共享初始比例p=0.1 时，由图5 可知，随着时间的推移，社区成员相互进行模仿学习，不断调整自己的策略，使自己的利益最大化，最终会达到=0 的演化稳定策略，即趋向于不进行数据共享。为了避免此类现象在数据共享社区出现，此时数据共享社区应给予一定的激励奖励，即调整激励/成本I，使I=-3 或−8。当激励/成本I为负值时，数据共享的比例随着时间推移而增加，直到增加至p=0.3，可再次调整激励/成本I=2，收取一定的成本，因为此时数据共享社区随着时间的推移一定会趋向于数据共享稳定策略。当p达到0.9 时，可增加激励/成本I，将其增至7，防止进一步通货膨胀，提高共享成本。综上所述，本文所设计的数据共享激励机制可以有效促进更多用户参与数据共享。

图5 EGDSI 激励模型演化曲线Fig.5 Evolution curves of EGDSI excitation model

3.3 模型对比

本文提出一种基于演化博弈论的数据共享激励模型EGDSI，目的是为了进一步促进数据的收集、共享与流通。文献［19］针对数据共享激励提出一种EGI模型，EGI 模型对共享成员的等级未进行划分，没有考虑个体之间奖励的差异性，所有共享成员均采用相同的激励机制对数据共享进行奖励。本节对这2 种模型进行对比，设定共享收益缩放系数α=4，数据成本G=10，2 种模型的数据共享演化曲线对比如图6 所示。

图6 2 种模型的数据共享演化曲线对比Fig.6 Comparison of data sharing evolution curves of two models

由图6 可知，在不同的初始共享比例情况下，本文模型达到数据共享饱和状态的速度均优于EGI 模型，即本文模型可以在更早的博弈阶段达到数据共享，提升数据共享的效率，其具有更好的激励作用。

4 结束语

数据共享社区普遍面临用户参与积极性低、归属感弱、缺乏相应数据共享激励机制等问题，为此，本文构建一种基于演化博弈论的数据共享激励模型，并在已有的区块链共享平台上利用智能合约技术实现该模型所对应的智能合约数据共享激励引擎。仿真结果表明，该模型可以在数据共享社区中激励更多用户参与数据共享，进一步促进数据的收集、流通和使用。下一步将结合可信数据共享与安全存储相关技术，提升数据在共享过程中的访问权限控制，防止数据非授权访问等风险发生，同时提高数据在共享社区存储时的安全性与隐私性。