基于区块链的个人科学数据共享模式研究

2021-12-21 13:58支凤稳云仲伦张闪闪
现代情报 2021年12期
关键词:贡献者使用者区块

支凤稳 云仲伦 张闪闪

DOI.10.3969/j.issn.1008-0821.2021.12.007

[中图分类号]G203 [文献标识码]A [文章编号]1008-0821(2021)12-0069-10

科学数据是大数据时代最基本、最活跃的科技资源,也是科研活动的重要输入和产出,更是科技创新的基础性战略资源和核心驱动要素。只有开放共享、广泛传播才能使其价值最大化,可见,开放共享是实现科学数据自身潜在价值的根本途径,也是顺应科研范式转变的必然要求。大数据时代,数据驱动研究成为一种趋势,科学研究越来越依赖大量、系统、高可信度的数据,进而发展出第4种科研范式——数据密集型范式。由于大数据集很难独立生成,将科学研究过程中产生的科学数据进行开放共享,符合所有供资机构、科学机构和研究界各方的利益。决策者、出版机构和资助机构也强烈认为,共享数据对科研人员非常重要,有利于科学的发展。个体科研人员在科学数据开放共享中起到关键作用,他们既是科研数据产出的重要力量,又是其使用者和受益者,异质科研群体间多源异构数据聚合将有效释放科学数据的潜在价值,打破数据壁垒,连接数据孤岛,实现协同效应。我国《科学数据管理办法》明确提出,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据。美国国家科学基金会也要求研究人员,在合理时间向公众分享研究中产生的科学数据,并鼓励和促进此类共享。

个人科学数据是指个体科研人员或个体科研团队在自身科学研究活动产生的,并用于科学研究活动的研究数据及与之相关联的个人身份数据。其关键在于数据主体的可识别性,也就是说,可以据此判断数据的来源与归属,明确数据主体的相对数据所有权和使用权。然而,不是所有个人身份数据都属于个人科学数据,需要根据其产生过程及使用目的加以判断,如征信、医疗等领域通常存有大量原始身份数据,若其用于科学研究活动并与研究数据相关,则可作为个人科学数据支撑研究成果。个人科学数据共享是指个体科研人员(团队)作为数据主体,将自身占有的具有科学价值和使用价值的原始数据及其衍生数据,赋权给对此成果有所需求的其他个体科研人员(团队)浏览、使用的行为。与组织机构问的科学数据共享不同,个人科学数据共享更强调个体问的行为交互,共享的科学数据类型多种多样,质量高低不一,共享次数更为频繁,动态伸缩性更强,更依赖于高可信度的共享环境。然而,目前还存在数据易用性差、数据安全性低、用户隐私被泄露等问题,数据共享的风险远远高于预期收益,信任体系无法建立,导致数据贡献者共享意愿降低、共享效率低下等后果。

区块链技术的发展给个人科学数据共享提供了新的选择。2019年10月24日,习近平总书记指出,要发挥区块链技术在促进数据共享、优化业务流程、提升协同效率、构建可信体系等方面的作用,探索利用区块链技术的数据共享模式,实现数据跨部门、跨区域共同维护和利用。区块链作为一种确保透明度、可追溯性和安全性的分布式数字账本技术,所有区块节点共享相同的数据,保证了数据有效性和安全性,为个体或组织创造一个可信的空间,解决了科学数据可信问题,有助于构建一个完善的共享数据信任体系。

在此背景下,本研究以区块链技术为视角,凭借其具有的不可篡改性、可追溯性、去中心化等特点,探索构建基于区块链技术的个人科学数据共享新模式,以实现区块链技术赋能与个人科学数据共享的结合,引入SQL数据库,解决科学数据存储问题:应用智能合约和共识机制,解决个体间信任基础薄弱问题:利用万能数据结构表技术,解决数据可用和孤岛问题:通过加密算法和授权共识技术,解决数据安全及隐私保护问题。希望本研究能为实现科学数据共享中各主体的高效互动、促进个人科学数据共享利用提供新的思考,同时为后续学者进行更深入研究提供理论参考。

1相关研究述评

1.1个人科学数据共享的相关研究

个人科学数据共享属于科学数据共享的子领域,虽然鲜有学者专门对此进行探讨,但不少有关个人数据与科学数据共享的研究,均已涉及相关论述。①在个人数据概念与类型方面,黄国彬等认为,个人数据的核心在于数据的主体识别性、构成内容的丰富性及个人数据产生与应用的场景性,并归纳出14种个人数据的基本类型;Zliobaite Ⅰ等认为,个人数据为识别型数据,指已识别或可识别的数据主体相关的任何信息。②在个人数据管理与共享方面,Anciaux N等提出个人数据管理系统应考虑功能和安全要求的结合,明确权责分担与权益维护:针对集中数据存储和管理更容易丧失个人数据所有权和滥用个人资料问题,PattanaikⅤ等提出基于Web浏览器的对等数据共享框架。③在科学数据共享方面,邬金鸣等对人口健康科学数据中个人敏感信息做出范围界定;傅天珍等发现,影响个体科研人员共享科学数据的因素一般有个人利益权衡、开放获取的压力、技术与标准问题、文化与法律因素、利他心理因素;盛小平等通过分析GDPR相关规定,为我国科学数据共享过程中个人数据保护提供了参考。

1.2区块链应用于科学数据共享的相关研究

已有学者关注到区块链技术在科学数据共享实践中的应用。①在科研方面,郝世博等从主体、客体、功能3个角度说明区块链应用于科学数据共享的适用性,并尝试从技术维度改善参与者的信任危机与共享障碍:王倩等基于区块链技术和演化博弈理论,分析科技服务机构数据共享的策略,在此基础上构建了面向共享策略的智能合约激励机制。②在医疗领域,黄茂汉基于区块链技术构建一个疫情防控情报系统模型,旨在对疫情实时情况、疫苗研发进展、患者信息等进行数据共享;Kuo TT等开发了3种基于区块链的分布式方法,可供相關机构共享基因一药物相互作用的患者记录:Balistri E等提出了BlockHealth解决方案,以实现不同公司间个人健康数据的共享。③针对数据安全,王继业等提出基于区块链技术作为动力支持的数据安全共享网络体系,改善互信环境:张利华等设计一种基于区块链的微电网数据安全共享方案,在保护用户用电隐私的同时,促进了用户数据的安全共享。

1.3研究评论

通过文献梳理发现,相关研究成果在不断积累,为本研究提供了重要的理论基础与实践证据。从研究内容来看:在个人科学数据共享研究中,学者们越来越重视个体用户在数据共享中的作用,研究聚焦于数据分类、治理形态、共享意愿影响因素、共享路径等:在基于区块链的科学数据共享研究中,学者们主要在数据溯源、数据存证、数据共享模型、数据隐私保护等领域不断探索。从研究逻辑来看:现有研究主要是基于科学数据共享现存问题及区块链优势,搭建基于区块链技术的科学数据互信共享模式、数据安全共享平台等;也有不少研究是根据近年来政府发文及出台的相关政策,提出区块链技术的相应对策方案。然而,区块链在科学数据共享领域应用的研究起步不久,学术界对其在子领域个人科学数据共享中应用的探讨更少,现有研究大多关注到了区块链的优势,而对以区块链用作数据存储带来的系统吞吐率降低、处理响应延迟高、共享周期长等问题的考虑不足,这也再次确认本研究的必要性。

2现有科学数据共享模式问题分析

现有研究更多以中心化共享模式为视角,科学数据中心成为促进科学数据开放共享的重要载体,通过对有意愿参与科学数据共享个人主体的数据采集,将采集数据集中存储管理并进行共享,主要存在数据确权、数据安全、隐私保护、基础设施不匹配、数据近似化和激励机制等问题。

2.1数据确权问题

科学数据作为基础生产资料和个人最重要的知识资产,具有相对稀缺性,其重要性愈加显现。显然,科研人员不可能轻易共享其核心科学数据使用权与所有权,如果需要现有数据成果以支撑研究观点或推进研究进程,但限于时间、能力、环境条件等多重因素无法及时获取,就有可能将个人的部分科学数据进行开放共享,以交换所需科学数据。科学数据本身具有可复制性,在共享中易被窃取,可能造成数据贡献者自身产权受侵犯。科学数据共享的核心问题归根到底是数据所有权和使用权的分离,在集中式开放平台规则下,确权成本过高,主客体数据权利划分困难,导致数据归属未在理论上形成统一认识,且数据权属相关法规界定模糊。数据所有权的难以界定会给数据共享参与主体带来误会及纠纷,长此恶性循环,阻碍科学数据的共享流通。

2.2数据安全问题

中心化管理赋予平台运营者过多权力,使之可以通过私下串通数据贡献者或数据使用者中一方,操作超出用户最初授权范围,以套取另一方利益。中心化设置权限的数据共享模式将海量科学数据进行大规模整合并存储,很容易造成集中攻破、数据篡改、后台操纵等问题,威胁共享生态,而平台管理规范的纰漏导致数据使用边界模糊,增加了数据误用、数据滥用等多重风险。现有大部分共享平台可追溯性差,在数据泄露后,参与用户也很难追究。不同于分布式系统架构,集中式系统更容易导致单点故障,使数据被窃。再加上不规范的管制,在网络环境中各种应用系统易发生撞库,上传的科学数据将面临泄露的风险。出于数据安全的顾虑,更多的个体科研人员反而不愿意将科学数据进行共享。

2.3隐私保护问题

科学数据共享与隐私保护尚未实现协同,科学数据共享常伴有用户信息收集与传输,一旦缺乏相应管制,传输失控导致数据外流,将造成大量隐私泄露。诸如在医疗、征信等领域,存有海量未经修饰的原始敏感数据。科学数据共享虽可进行匿名分享,但若在共享过程中因操作不当或被蓄意攻击致使个人用户信息数据泄露,则个人隐私权就会遭受严重侵害。此外,随着大數据与云计算的高速发展,共享平台信息资源自动化获取程度不断提高,多源用户信息的交叉比对、整合连接次数日益增长,洞察用户行为从而构建用户画像,以此识别出相关的个人隐私数据,加重了隐私泄露风险。

2.4基础设施不匹配问题

在数据驱动研究背景下,核心数据需要通过多种途径和来源获取,随着同一数据集中平台的数据贡献者和使用者人数的上升,集中平台的数据也在随之增长,但由于每个贡献者都有一套自己的数据标准,且在技术水平、算法工具上也存在差距,导致使用者在提取来自不同贡献者的数据时存在数据偏差,从而产生大量成本。在传统数据共享中,若想解决数据偏差问题,需要在共享过程中投入大量资源对现有数据进行改造、对接,加大了数据共享的难度,使共享周期延长。

2.5数据近似化问题

个体科研人员处理数据时,会依照个人需求、问题难易程度、繁琐程度等对数据进行过滤和选择,以保持个人集中的注意力和问题的基本解决。但由于传统数据共享模式中数据确权、数据安全、隐私保护等问题的存在,手握核心数据的数据所有者不愿意进行数据共享,核心的、高价值含量的数据得不到及时公开,用户共享的科学数据随着时间的推移趋于近似,徒增巨大成本,且拖慢该领域的整体科研进度,久而久之导致领域内共享数据单一化、茧房化。而在数据共享平台之间,也会因所共享的科学数据质量水平、实质内容不同逐渐“巴尔干化”,遏制了科学数据流通、共享效率。

2.6激励机制问题

在信息不对称情况下,大多数传统科学数据共享模式未将科学数据质量等指标纳入评价机制,科学数据集缺少数据引用等量化指标,激励政策未落实,难以衡量每个数据贡献者的实际贡献所占比例,出现参与数据共享的贡献者提供的科学数据无论质量好坏、内容多少,所得到的收益都大体相同的情况,使那些原本共享了高质量、高稀缺性数据的贡献者感到心理不平衡,最终很可能导致越来越多的数据贡献者分享较少或者直接不分享核心科学数据,使科学数据共享行为失去意义。

3基于区块链的个人科学数据共享模式构建

区块链是一种基于加密技术和分布式共识机制的新兴交互模式,通过链式结构实现区块数据存储、加密算法保障数据安全、智能合约部署以及区块读取。它不仅能为特定用户群提供信任服务的基础设施,还可通过加密算法优化数据公开透明实现路径,它象征了与先前不同的数据归属权,可以很好地改善传统数据共享模式的问题,天然适用于个人科学数据共享领域。本部分将构建基于区块链的个人科学数据共享模式,并分析其流程与特点。

3.1模式架构模型

为实现数据完整、来源可追溯,建立信任体系,防止数据隐私泄露,最终促进大数据环境下个人科学数据安全共享。本研究借助SQL Sever数据库(以下简称“SQL数据库”)和万能数据结构表理论,尝试构建了基于区块链的个人数据共享模式架构模型,如图1所示。

该模型共涉及6部分:区块链、SQL数据库、智能合约、用户本地数据终端、点对点数据传输网络以及用户实体。其中,用户实体包括数据贡献者和数据使用者,数据贡献者是指科研数据的供给侧,可以是元数据生产者,也可以是和生产者达成某种协议后准允再分享的数据拥有者;对科学数据具有使用意愿的需求侧称为数据使用者;在同一共享过程中的所有用户称为共享参与者。该模型结合了区块链、智能合约和点对点传输网络,并通过加密算法实现保护共享科学数据隐私,以大数据视角下科研人员个人科学数据共享为应用场景,构建Fabric环境,引入SQL数据库实现分布式存储,基于万能数据结构表数据库理论,其中原始科学数据存储在用户个人数据终端中,所需共享的科学数据经万能数据结构表规范数据标准化后加密处理,存储至SQL数据库中,其存储日志、地址等元数据记录在Fabric上,以达到数据脱链存储的目的,解决了区块链存储容量有限带来的交易处理速度缓慢、共识效率低等问题,有利于科学数据的可用性开发和重复应用。个体科研人员以此方式进行科学数据共享,相应数据经智能合约处理后返回,共享其处理后的数据结果,原始数据不对外公开,实现了数据的可用不可见,避免数据资产泄露的同时保证了共享的安全性,以建立起信任体系,推动科学数据有效聚合,挖掘科学数据的潜在价值。

3.2模式具体流程

模型中所涉及的具体操作流程如下:

1)生成节点,完成身份匿名,数据使用者上传数据需求至智能合约,由智能合约发布需求信息,同时索引数据库中已存储数据信息,进行对应需求匹配。

2)匹配成功后反馈配对信息至参与者,数据使用者向数据贡献者申请所需科学数据信息,由数据贡献者按其需求上传数据,经自适应万能数据结构表对上传数据标准化后,进行加密算法处理形成数据密文,通过哈希算法得到概要。

3)待数据使用者确认概要信息即所需,数据密文上传智能合约,处理后自动上传至SQL数据库并返回哈希值,智能合约颁发密钥和哈希值给数据贡献者,同时记录操作日志到数据贡献者个人数据终端,存储信息、概要、哈希值等相关信息记录做上链留痕处理。

4)数据贡献者授权数据使用者,验证数据使用者身份后调用智能合约,告知数据使用者共享数据存储地址,满足共享条件后数据使用者获取密钥通过验证并触发智能合约,同时更新个人数据终端相关数据属性,并再次上链留痕。

5)数据使用者利用密钥获得共享科学数据处理结果,针对此次交互过程进行反馈并达成共识,完成共享后生成交易日志操作记录于链上,更新个人科学数据集引用量信息,对应用户成为区块链上的节点并建立连接。

综上,科学数据共享全程由共享参与者直接参与,每一环节均具自主权,整体流程公开透明,数据记录可追溯,不可篡改。

3.3模式特点分析

相比传统的中心化科学数据共享模式,本研究构建的基于区块链的个人数据共享模式,具有共享参与者自主性,共享科学数据的完整性、标准化、可追溯性与安全性更强的特点,具体如下:

3.3.1自主性

本研究构建的去中心化的共享模式中,每个用户均有机会参与记账,充分保障了每个用户的权益,最大限度地避免由中心化体系所带来的主导权问题。在多个个体用户共同搭建的数据共享平台中,共享成功率和用户數量大多成反比关系,该平台的主导权往往会随着个体用户数量的增加而越难界定。个体用户问的关系大多数呈对等关系,任何一方在数据共享过程中进行主导都会引起其他参与者的争议或不满。而分布式数据存储使原来中心化角色权力分散化,任何一个用户个体无法控制整体科学数据共享进程走向,权限变更需要每一个参与者共同表态来决定最终结果。通过调动每个参与者的参与度来提升平台的可信赖性,实现个体用户间点对点交互,也有利于提升参与者问数据共享成功率。

3.3.2数据完整性

传统科学数据共享模式无法保证科学数据确权以及其完整性,导致参与者问不断出现信任危机,信任成本不断上升,从而导致科学数据的低流通性和低共享性。而区块链技术可以给科学数据贴上“防伪标识”,强化技术保护,保证科学数据在共享过程中不可篡改,以确定科学数据的准确来源和可靠性。参与者双方或多方需严格遵守操作规程,若在共享过程中途发生科学数据内容的增减、修改,经过参与者协商和表决后,获得大多数甚至全部参与者的一致认可,即完成“共识过程”,才可执行后续操作。

3.3.3数据标准化

该模式采用万能数据结构表存储数据,因此所有数据结构保证了高度一致性。运用简单的技术实现结构化大数据的高效处理,从根本上解决了数据异构问题,通过对数据和数据结构的优化而大幅提高结构化数据的处理性能。进一步规范了科学数据共享规则,有助于实现数据的互联共通,保证所需数据的真实性与可用性,解决个体用户数据挖掘困难的问题,减少或避免了歧义产生。

3.3.4可追溯性

整个共享过程中,参与者的身份信息呈匿名状态,使用者无法知道是谁共享了科学数据,共享者也无法知道是谁对这些科学数据有哪些特定需求。但共享行为是任何人都可以看到的,且无法修改删除,每一次共享过程都是可追溯的,科学数据发生多少次交互共享,都应具备明确的记录,以明确数据源,即数据生产者的身份,保证参与者权益的同时也减少了科学数据的丢失率。参与者间达成共识后,通过特定算法产生的密钥实现科学数据的共享传递。

3.3.5安全性

模型综合使用加密算法、智能合约、点对点传输网络等以保证安全性。共享科学数据经加密处理后存储数据密文,在未经授权情况下无法解码,防止数据隐私泄露。参与者使用独特的身份编码序列进行匿名广播,保证个人隐私安全。数据使用者在满足共享条件并验证身份后,向数据共享者申请才可获授权,获取处理结果而不对外公开原始密文,使用户在共享过程中得到了全方位的保护,数据加密筛选、加密计算,以及可用不可见也使得攻击者无法从共享的过程中获取任何规定外的信息。这样不仅可以保护数据贡献者的知识产权,其他参与者的数据安全性和隐私问题也能够得到解决。

4基于区块链的个人科学数据共享模式实现

根据上述模型,将针对数据存储、智能合约、数据标准化、共识机制以及数据加密5个技术进行逐一介绍。

4.1区块链与SQL数据库结合实现分布式数据存储

将区块链当成数据库使用,就会发现区块链只有创建和读取功能,没有修改和删除功能,所要求的日志完整化、不可篡改性以提供信任、安全的前提,并不是说其数据不可改动。随着区块链中数据存储容量的递增,区块中交易处理速度变慢、网络阻塞、共识效率低、匹配迟缓等问题涌现,虽然可以采取轻节点方案、异同步技术等措施解决上述问题,但忽视了区块链的可运维性和实用性。按照既定规则执行的那些可留痕、可追溯、可复核等正常或应急操作,其最终操作结果应写在真正的数据库中,并非区块链。区块链应作为数据库的高可靠性的前置。区块链的设计首要目的是安全,数据库的首要目的是效率,区块链技术与数据库相结合即可形成优势互补。区块链和数据库有两种契合方式,其一是把区块链作为引擎接人到数据库中,相当于从底层改造存储引擎实现去中心化的数据库:其二是以区块链为主体,借鉴数据库算法,将其翻译为智能合约代码,以提升易用性。就目前已有研究分析,除去如用户资产概况、智能合约等较为重要的信息,其余数据均采取分布式存储的措施,不做上链处理。

此外,區块链作为链式结构,每个节点独立存在且高度自治,但节点问仍存在直接或间接影响,通过网络呈非线性因果关系。在遇到问题需要对数据进行溯源或冲正时,利用改进Chain SQL技术,将SQL数据库的操作记录各个节点共识之后,记录到区块链上,如果共识执行失败或不通过,SQL数据库执行回滚操作,定位该问题在区块链上的特定位置,在此进行重演;若需对数据进行冲正,在区块链上增加一条或若干条指令即可处理问题,这样不仅使数据库的高可用架构大大简化,还可将此数据修正处理进行留痕记录。区块链与SQL数据库的结合,通过多点架设、提供冗余等,提供高效的调取架构设置,以提高业务吞吐量以及数据存储量,实现分布式存储。基于此,解决了由于区块链的冗余特性限制了数据储存的问题,以及传统数据共享模式无法建立信任体系、去中心化的难题。

4.2基于SQL的智能合约激励共享参与主体

区块链技术可有效解决主体间互信问题,并通过智能合约自动执行激励过程,保证数据共享过程的有效性和安全性。在个人科学数据共享过程中,不同科学领域下的科研人员对共享科学数据处理的逻辑不同,可通过算法编辑不同的智能合约以实现不同的需求。智能合约可以完成共享参与用户个人身份加密、发布需求信息、交易流转等所有关键节点需求,其优势如下:第一,高透明性,智能合约允许合约中相关条款与要求对所有关联方具有完全可见性与可访问性,且条款内容无法更改。第二,高安全性,智能合约采用高级别的数据加密算法,节点在建立连接过程中生成临时会话密钥,保证数据传输安全性的同时也防止了数据源泄漏。第三,存储备份,区块链环境的不可改变性,保证了任何用户都无法修改已批准的溯源记录,共享过程中的所有重要细节都会被智能合约以日志的形式记录下来,具有可溯源性。第四,永久性,智能合约一旦运行,链上的所有节点须共同维护,保证链在合约在,具有相对永久运行性。

同时,智能合约支持SQL,利用SQL语句实现信息匹配与数据索引功能,当数据使用者在特定情况下需要某些特定的科学数据以满足需求时,使用逻辑表达式或函数将需求表达出来,并提醒智能合约发布需求信息,根据SQL数据库中已登记存储的数据信息进行数据筛选,逐一匹配:若数据库中未存在所需数据时,则对外公布需求信息,同时反馈至数据使用者进行需求信息完善。实现数据使用者对需求科学数据概要的在线查询,帮助链上对数据库中存储信息的索引调用,加速与目标科学数据贡献者的匹配进度,使得共享过程更具效率。

4.3万能数据结构表实现数据标准化

万能数据结构表不仅作为一种表,同时也作为一门新兴理论——独立数据库理论,在关系数据库理论基础上进行革新,使存储数据的数据结构完全相同,且保证了数据完整性。目前可采用关系数据库系统ORACAL、DB2、SQL Server、Access等来实现“万能数据结构表”。区别于关系数据库,独立数据库中的数据要求可以独立地、完整地表达其含义。下面以征信、医疗领域产生并用于科学研究活动的个人身份数据为例来说明,如表1所示,以纵向表N(或N+M)项记录存储一个事件的数据信息,无须借助数据库、App或其他任何事物,保证数据特征属性一致。其中各字段代表含义,ID为各项记录独有编号:事物代号为一个独立事件独有编码,数据库中完整数据为记录,性质名称表述完整数据为事件,一个事件的信息由若干条拥有相同事物代号的记录组成:事物属性即事物的特征:事物属性值、超长属性值为事物的特征值:单位代表事物属性值的单位:附件用来存放图象、附件等不适合转换为字符型数据的数据:时间为每一个事物的特征写入数据库时的时间,由系统自动生成。

独立数据库相当于一种数据优化技术,以关系数据库理论为基础,在关系数据库中亦可实现,只需在关系数据库中建立一张或多张结构相同的万能数据结构表即可。不可避免地,为保证数据的完整性与标准化,其占用空间内存相对较大,仅仅运用区块链技术无法实现,因此将区块链技术与SQL数据库相结合也是对此的绝佳选择。

4.4加密算法实现数据“可用不可见”

区块链技术可实现数据安全共享流通,做到数据的“可用不可见”。数据使用者上传至区块链中的数据筛选条件一般较为简单,直接上传该条件很容易造成数据参与者双方的隐私泄露。如攻击者获取了这些条件的内容,很容易就可以推断出使用者的数据需求,从而可能推断出使用者经常出没的领域范围,一旦发生数据共享,那么双方的数据很可能会遭受劫持。因此,为了保证共享参与者的隐私和利益,还应在模型中对筛选条件进行函数加密,且同时进行需求匹配。基于哈希运算与非对称性同态加密算法,上传数据以密文发送至SQL数据库存储日志记录添加到智能合约中,同步记录源至区块链,智能合约将数据密文自动上传至SQL数据库并反馈对应数据密文档案哈希值生成Token,在区块链进行留痕记录。随后,数据使用者需使用数据贡献者颁发的Token,用其作为授权令牌在SQL数据库中获取对应科学数据密文,对该部分数据进行解码,获取所需科学数据信息处理结果,实现点对点传输。

上述情境在传统共享模式中很难实现,其自身机制导致数据“可用必可见”。通过区块链技术中的隐私算法,分布式执行既定逻辑运算,使数据可在“密室”中进行共享,但也存在存量数据利用率低、更加偏于云计算、很难支持系统数据训练学习等问题。个体用户问数据共享时,更多使用的是个人终端,增强了个人终端安全性,以避免数据泄露,进一步实现数据的不可见性。科学数据经过加密算法和数据变形在一定程度上完成了脱敏,最大限度保证个人数据隐私安全,实现数据“可用不可见”。

4.5共识机制控制数据调用规模

共识机制作为区块链去中心化的关键,无论是在公有链、联盟链还是私有链中,都承担着重要角色。当前,数据共享环境需要具有更高数据吞吐量的可伸缩框架,以满足对用户应用系统和流数据的处理。基于区块链的共享模式利用智能合約协定可执行程序后,按照参与者协议中制定的条件进行状态转换,在一定时间内每个参与者按照协议状态达成一致性。当协议中条件发生变化时,通过共识算法在全体参与者问进行共识过程,记录结果并重新拟定协议状态,如共享过程中仅存在两位参与者时,数据贡献者具有最高话语权。数据贡献者可通过智能合约拥有数据共享程度选择权,设置共享科学数据使用授权,因此,在特定时间段内进行核心数据共享时,数据贡献者不需全盘托出,待数据使用者满足合约中约定的使用要求后,将数据使用者所需要的部分数据处理结果共享即可。该过程亦被称为数据筛选,数据使用者可以将自己的科学数据需求整理成一个逻辑表达或是函数存放到区块链中,以供数据参与者对号完成交互过程。因科学数据在未成规模时不具有价值性,而在有协作需要时,经过双方或多方协商调取所需数据进行共享,既能满足数据使用者需求,又保证了数据贡献者的数据隐私安全与个人权益,从而提高协同效率。

5总结和展望

大数据时代,快捷有效的大数据挖掘与交叉识别技术可以在个人科学数据共享过程中抓取大量的个人隐私数据。然而,大多共享参与主体缺乏隐私保护自觉,对共享平台的传播性质缺乏正确的认知,如何在保证个人隐私与数据安全的同时,有效促进科学数据共享是一个值得研究但颇具挑战性的问题。针对传统中心化科学数据共享模式存在的问题,本研究借助区块链技术、sQL数据库和万能数据结构表,构建基于区块链的个人科学数据共享模式架构模型,介绍该模式的流程与特点,并对其实现的关键技术与机制进行了具体深入的论述,对于促进个人科学数据共享实践与后续深入研究具有一定的参考意义。

当前,个人科学数据共享备受推崇,也饱受争议。尽管鼓励性或强制性数据共享政策相继出台,但生产或拥有数据的个体科研人员(团队)的认知、意愿和行为依然是共享科学数据的关键所在。科研人员需要认识到科学数据共享的重要价值,在高自由性数据生态链下,明确界定自身需求,尽量降低共享成本,提高共享效率,从而更好地享受数据共享带来的“红利”。同时,区块链一旦交易,其记录不可撤销,访问控制权限更新延迟,还应熟知模式平台下操纵实现功能,界定自身持有的敏感数据,签订权责明晰的合同,以保护数据安全和主体权益。最后,日志公开性易产生安全风险,应加强防范意识,保持良好的自我感知,维护本地数据终端,警惕网络挟持与骇客攻击。

相比中心化科学数据共享模式,本研究提出的分布式科学数据共享模式具备更强的隐私保护能力和数据流通能力,具有巨大的研究前景和发展前景。但本研究模型仅利用区块链技术进行初步搭建架构,具体技术实现及共享科学数据的隐私分级、总体与个人数据的结合、潜在关联数据的发现,需要未来研究攻关突破。本研究仍处于理论探索阶段,个人科学数据共享还需要结合具体学科领域、数据内容与类型、元数据标准、个人共享意愿等,模式是否真正适合,有待于后续研究进行仿真或未来实践检验。此外,未来研究可积极深入探索区块链技术在个人科学数据共享中的可应用场景,精确把握用户数据需求,以实现区块链技术与实践的最佳结合。

(责任编辑:孙国雷)

猜你喜欢
贡献者使用者区块
区块链:一个改变未来的幽灵
区块链:主要角色和衍生应用
“‘一国两制’杰出贡献者”国家荣誉称号
现当代文化贡献者——布赫贺希格
区块链+媒体业的N种可能
读懂区块链
新型拼插休闲椅,让人与人的距离更近
抓拍神器
一种交互式事件常识知识的获取方法
他汀或增肌肉骨骼不良反应