区块链视角下地学数据共享研究

2022-11-08 04:28王小丹陈安蜀王国明
地质与资源 2022年5期
关键词:数据质量数据格式

李 敏,傅 洁,李 磊,王小丹,陈安蜀,王国明

1.中国地质调查局 天津地质调查中心,天津 300170;2.中国地震局第一监测中心,天津 300180

0 引言

地质学是一门源远流长的学科,观测范围广,探测历史悠久,数据类型丰富,包括观测数据、遥感数据、分析测量数据及统计调查数据等.多年的数字化以及数据库建设,地学领域积累了海量的、多专业、多类型的地学数据,包括矿产、能源、环境、基础地质、水、土地、海洋、森林、湿地、草地等10余类专题数据库,随着数据采集技术的提高,数据量爆发式增长.这些数据是国家重要的基础性战略资源,因而保证数据安全、保障数据贡献者合法权益、提升地学数据共享水平、避免重复采集数据、实现地学数据的深度挖掘以满足科研工作者多样化需求具有重要意义,同时如何彼此信任地实现地学数据库的协作管理也备受关注.

近年来区块链技术这种源于比特币等数字货币底层技术的新兴前沿技术进入人们的视野,其去中心化、不可篡改、可追溯、智能合约等核心技术为解决地学数据共享诸多限制提供了新的思路.

1 地学数据特点

地球科学研究本身的特点决定了地学数据共享的必要性.任何一个科研项目只能获得一定空间内和一定时间段的某个特定对象的数据,为全面了解自然规律,就需要互相、多向地参考其他科研项目的数据.地学数据来源多样,概括起来可以分为地图数字化、实测数据、试验数据、遥感与GPS数据、理论推测与估算数据、历史数据、统计普查数据、集成数据等类型[1-2].地学数据具有异构性、分布式、多尺度、空间拓扑等特征.

异构性:地学数据描述对象不同,存储结构就不同.例如,描述土壤剖面湿度状况用表格,描述地貌可以是遥感影像的矢量图、栅格图,也可以是航空照片,因而地学数据呈明显的异构性,即使是同一种形式,也会因仪器设备及时空尺度的不同导致数据异构.

分布式:地学数据是特定区域、特定时间段某个特定对象的数据,数据采集具有明显区域性,数据的存储、更新、使用等操作在物理上也不在一处,而是通过计算机网络基于地学规律、地理特征、相关性过程建立逻辑联系,即数据的存在场地不同,在逻辑上却是一个整体[3].

多尺度:尺度用来描述地学数据表达的空间范围的相对大小及时间的相对长短,尺度变大信息密度变小,但不是等比例变化[4].地学数据多尺度体现在空间多尺度及时间多尺度.空间多尺度指地学数据表达的空间范围大小及地球系统中各部分的规模大小分为不同尺度,时间多尺度指地学数据表示的时间周期及数据的形成周期长短不同.一般意义上讲,较大空间尺度对应较长时间周期.

空间拓扑:地学数据的表达内容包括地理特征和过程在各坐标体系内的空间位置及数据空间特征之间的联结性、邻接性、联通性、面积、长度等拓扑关系.

2 地学数据共享现存问题

现代地学研究,比如全球变化研究,不仅需要长时空序列的基础数据,并且需要全球范围集成性综合数据产品的支持[5].全球地学数据共享已引起国内外学术界及国际组织的广泛关注.然而,仍存在许多地学数据共享问题,比如地学数据共享者权益、中心化交易、安全性、数据共享壁垒、产权保护等[6-7].

1)地学数据共享者的权益保障:当前地学数据共享主要依靠国家级或部门级平台的参建单位集成整合数据资源,“自上而下”开展数据共享.然而,作为科学数据一线生产者和使用者的“科学家个人用户”很少主动共享科学数据.尽管引入了DOI(数字对象唯一标识符)为地学数据资源进行注册,推动了数据出版,激励了数据生产者发布与共享数据,但是数据共享者、数据拥有者的权益保障仍需提升,比如版权信息的存储、维护,用户共享数据时共享过程的记录、存储.只有切实保护好数据生产者、提供者权益,才能激励科学家群体主动共享数据,实现“志愿共享”.

受制于历史和自然条件,昌都市畜牧生产方式仍以传统的自然放牧为主,划区轮牧、按计划定期驱虫等工作普及度较低。同时,受制于宗教思想,群众自觉灭螺的积极性不高,并且牧民群众对该寄生虫病缺乏科学的认识,使该病没有得到有效处理,最终导致较大损失。

2)中心化交易:地学数据的交易有一部分是收取费用的.通常,地学资料由国家机构统一定价,地学资料拥有者没有定价权,当交易中有中介参与时,中介机构还要从收入中抽取一定比例的提成,这实际上提高了买方获取地学数据的成本,提高了后续项目研究的总成本.

3)安全性:目前地学数据存储、备份都在各共享平台进行,数据共享过程缺乏数据传输与流通的保密措施,一旦被黑客攻击将会造成不可估量的损失,且很难恢复.

4)数据共享壁垒:计划经济时代,所有的探矿权属于国家,工作成果也属于国家;地矿产业改革之后,原有的国有地质勘探单位成为探矿业的市场主体,作为独立法人,勘探项目不再由国家分配,而采用招投标的商业模式,项目工作成果不再属于国家.国家还鼓励私有资金投入地质调查项目.因而,地学数据的所有权及利益分配模式发生了变化.项目投资者和实施者不在一个机构,在地质资料的归属上产生不同观点,有的认为属于投资方,有的认为属于实施方,这种产权的不明确导致地学数据无法得到有效保护和利用,各方为保护各自利益,对地学数据进行了各种形式的封锁,存储在各自档案馆、资料馆,甚至个人手中,没有在任何平台共享,从而形成数据“孤岛”,造成数据重复采集,重复投资,大大限制了地学数据价值的外化.

5)产权保护:地矿产业改革以前,采矿权人负责勘探及采矿工作;改革后,由于国家不再对其投入资金,加之地矿行业风险高、投入大,社会私有资本并没有立即进入地矿行业,导致一段时间地矿行业出现断层.此外,在勘探权与采矿权分离的背景下,地学数据仍作为公共财产移交国家,探矿权人和地勘单位不具明确的产权,因而积极性丧失,影响了地矿产业发展,也阻碍了地学数据对社会的服务.

3 区块链简介

区块链运用非对称加密、加盖时间戳、分布式共识及经济激励等手段,采用纯数学方法,没有任何中心机构,在节点无需互相信任的分布式系统中,利用分布式节点共识算法生成、更新数据,利用智能合约在特定条件下操作数据,在任意两个对等节点间执行区块链网络中的各项事务,减轻中央服务器性能压力,降低成本.可将区块链技术简单理解为一种完整的、不可篡改的、多方参与和监督的记录方式[8].主要采用以下技术.

1)基于时间戳的链式区块结构:采用带时间戳的链式区块结构存储记录区块链数据的完整历史,增加时间维度作为区块数据的存在性证明,标明区块数据的写入时间,使数据具有可验证性与可追溯性.区块链不保存原始数据,而是利用哈希函数把任意长的数据编码为特点长度的由字母与数字组成的字符串,利用哈希树(Hash tree)快速归纳与校验区块数据的存在性及完整性[9].

2)集体维护:区块链采用适度的经济激励机制与区块链共识过程集成,所有节点均参与数据区块的验证,基于共识算法选择特定节点将新区块添加到区块链,集体维护数据[10].

3)可编程的智能合约:提供各类脚本代码、算法及高级复杂的智能合约、货币以及其他去中心化应用,是区块链系统灵活编程、操作数据的基础.

4)分布式节点的共识机制及安全防护:基于工作量证明、权益证明及授权股份证明等共识机制算法保证每个节点都有一副完整账本,在去中心化且存在恶意节点的场景下维护区块链的全局账本,保证各个节点的账本更新前后一致[11],基于数字签名、非对称加密技术抵御黑客入侵、数据被盗、隐私数据泄露等不可避免的问题,保证数据安全可信,为解决中心化机构的高成本、低效率、存储不安全等短板提供解决途径[12-14].

区块链作为大规模协作工具系统,包括两个部分,一部分是底层技术,另一部分是通证(Token)经济生态,两者缺一不可.通证是一种经济形态,有3个必备要素,第一是数字权益证明,第二是加密,第三是可流通.通证和区块链相互独立且彼此依赖,区块链的非对称加密为通证“数字权益证明”提供保护;通证的可流通性也必须依赖区块链“价值网络”基础设施.正是因为通证,区块链与分布式数据库才有了本质上的区别[15].

4 区块链行业应用现状

区块链的研究与应用呈爆发式增长态势,逐步从比特币延伸到金融交易[16]、数据存储[17]、数字资产管理[18]、智能物流[19]、选举投票[20]、数据鉴证[21]、医疗卫生[22]等领域.区块链技术在地学领域的应用仍处于探索阶段.现阶段在地下水监测与保护、自然资源确权、野外设备供应等领域有初步探索经验与成效[23].

5 区块链的地质应用场景

5.1 地学数据存储

区块链可将任意需共享的地学数据通过哈希运算,生成相应的哈希树,包括区块体的底层数据库、区块头的根哈希值以及所有沿底层区块数据到根哈希的分支,打包进入区块链,通过系统内公识节点算力和非对称加密技术保证数据安全性.区块链的多重签名技术可灵活配置数据访问权限,例如对于某个地学数据,必须获得指定7个人中4个人的私钥授权才能获得该数据的访问权限.

5.2 地学数据标识

地学数据标识是通过开放式数据索引识别机制对不同类别、时间、空间、方式、质量的地学数据建立编码,并建立编码与数据间的联系,确定数据访问的接口与方式,实现对不同格式、不同特点地学数据的层级化标识.通过标识定位、访问数据,完成数据的索引与提交.地学数据主要标识信息包括数据集编码、数据集名称、项目名称、观测要素、数据空间、数据表达方式、数据集内容关键词、数据格式、数据质量、空间参考系、更新周期等.

5.3 地学数据索引与区块链生成

当数据所有者确定某个地质资料要对外共享时,首先计算该数据所有者的主体标识ID(比如身份证+姓名),提取主体信息描述(如2021年4—6月记录),计算要提供共享的地质资料的哈希值,为这份地质资料定价,形成这份地质资料的基础索引信息;其次从公钥池中选取这份地质资料采用的密钥对,在信息中增加公钥信息,用私钥对地质资料进行数字签名,形成数据申请包发送至交易平台,交易平台提取其相应的公钥,验证公钥是否在已提交的公钥池中,确认有效成员拥有这个公钥,用公钥验证数字签名以确认此地质资料确实为对应成员所发送.提取申请中的密文索引信息生成区块,并与前期区块链接成链条.生成区块的共识机制选用随机分配机制,因为随机分配机制相较于工作量证明机制等,能减少能耗[24],并且随机分配机制能确保每个参与节点都有机会获取生成区块的机会,进而保证每个节点的信息都能记录在链条中,及所有节点共同维护链条[25].

5.4 地学数据产权确权

区块链技术可以进行产权保护的两个重要数据是时间戳和哈希根值.当数据拥有者把数据上传到原始区块链时,获得新区块开采权的矿工在打包数据块时以特定编码的形式存储在区块中,并与已经上链的数据比对进行确权、加时间戳,依据数据特征加密抽象为缩略版的版权信息,依据一定规则生成版权认证证书,并依据时间顺序形成正确的链条、进行全网同步等.在区块链中,每一位版权所有者都将拥有一个独一无二的数字化身份信息,准确记录数据原创者的工作进度、阶段性成果,通过分类账功能为文字、图片、图像等形式的地质资料标记独特的、不可篡改的数字证书.基于区块链技术构建的应用平台能跟踪每一项内容的使用情况,一旦发现任何抄袭,能通过分类账信息追溯到原创作者.

5.5 地学数据产权交易

区块链的交易通过转账方式完成,这种转账本质上是对用户数据的转移.依托区块链的智能合约,可以设定产权交易的规则、触发条件、违约条件、追责等,在无须第三方机构介入的情况下,触发智能合约自动执行程序,进行地质资料数据的交易,产生公正可信的结果.假设智能合约中规定,当购买者A向某地质资料产权所有者B支付一定金额的货币便可获得这份地质资料,那么当A在该合约指定时间前向B支付了指定金额的货币时,就能触发智能合约自动执行,获得这份地质资料的公钥和网络地址,从而使用这份地质资料[26].

5.6 地学数据维权

区块链的不可篡改性确保数据每次流通都真实可靠.比如,当版权所有者将一份地质图的数字文件上传到区块链后,可依据特定算法存储为单个文件并完成确权,当有人盗用、侵权或违规使用该图时,系统会自动筛选出侵权页面的源代码标识加以锁定,并计算为可上传到区块链的哈希值,且永久有效,以此作为问责依据.如果存在侵权行为,系统会自动收集证据并追溯到发布源头,通过智能合约对该源头处罚.只有当双方确认传输过程合法使用地质图才能打开该图,消除盗版复制风险[27].基于区块链技术实现数据管理流程如图1所示.

图1 基于区块链技术的地学数据管理平台流程图Fig.1 Flowchart of geoscience data management platform based on blockchain

5.7 地学数据的区块链溯源管理

在分布式存储网络里,每个节点对区块的任意微小改变都会改变区块哈希值,使区块链状态改变,影响区块链溯源,因此具有防伪溯源特性.溯源管理基本流程是:创作者—数字作品—版权证明—版权交易—侵权监测—维权服务.

5.8 构建良好地质商业生态

区块链的本质是共识.将区块链的底层技术与通证生态结合起来,通过通证设计地质数据所有者、地质数据共享者等成员的共赢机制,同舟共济,实现共赢,达到“志愿共享”的局面.通证激励更多的地质数据所有者贡献自己的数据,丰富地质数据资源储备.基于区块链为地质科研提供新的资助方案,只需将项目策划方案公布在区块链上,并在区块链生态中生成智能合约,感兴趣的各方就可以直接参与或资助不同项目,通过用户投票对出现的蹩脚项目方案自动执行删除.同时,区块链具有公开透明、可追溯特点,链中用户平等,发现优质内容与举报低俗内容均可获取通证奖励,优质项目方案会得到更多关注与资助,人人赋能,构建去中心的通证经济模式下的良好地质商业生态.开拓更多通证应用场景,用户是平台的参与者也是运营者,拥有通证就是拥有了股份,从而获得更多的通证回馈.用地质通证激励全球地质社区的任何人,形成全球利益共同体,促进地质数据全球共享.

5.9 基于区块链技术的地学数据共享技术框架

在严格遵守保密协议的基础上,地学数据资产可依托时间戳技术及不可篡改等特点,实现存储、更新、产权保护、产权交易、实时监控等.地学数据共享区块链架构体系如图2所示.

图2 基于区块链的地学数据共享系统架构Fig.2 Structure of geoscience data sharing system based on blockchain

基于地学大数据多元化、多层次的特点,区块链技术在地学领域的应用演化出公共链、联盟链和私有链3种应用模式.公共链是完全去中心化的区块链,可以向公众和社会各类组织机构提供公共开放的地学数据,分布式系统的任何节点均可参与链上数据的读写、验证、共识.联盟链是部分去中心化的区块链,适应于多个实体构成的组织或联盟,比如地质高校、研究院所、地勘单位,只有被联盟链验证并拥有授权的组织才可以支配其中存储的数据.私有链是完全中心化的区块链,适用于各单位内部地学数据的共享.同时在公共链、联盟链、私有链间引入交互审计节点,在不同链网之间信息交互,实现跨链互通.地质数据区块链架构如图3所示.

图3 地质数据区块链架构Fig.3 Structure of geological data system based on blockchain

6 结语

区块链实际上是一个崭新的、分布式的代表数字世界公共总帐本的可信任数据库,记录所有数据的共享交易记录.账本在全网公开透明,便于相关部门实施监管,解决了信息不对称问题,降低了数据共享风险.由于区块链技术发展尚不完善,区块链与地学产业的结合仍处在蛮荒的探索阶段,本研究虽然对区块链技术在地学领域的应用场景进行了归纳,并对基于区块链构建地学大数据共享平台提出了构想,但受技术、政策的局限,构想落地还需要继续摸索.本文侧重于理论化应用场景研究,为后续开发、技术实现提供思路,希望能深层挖掘地学产业与区块链的契合点,探索区块链技术在地学产业的可应用场景,实现技术落地.当区块链地学数字资产管理平台发展到一定阶段后可进一步整合各方有效资源,为数据原创者提供“确权-维权-交易-管理-追踪”的一站式服务,吸引更多优秀数据资产,为供需方交易提供公开透明的环境,形成多元、自主、全球、高效的地学数据资产交易商业模式,为相关行业联盟创造条件.

猜你喜欢
数据质量数据格式
基于水利标准数据格式的BIM数据管理和水利BIM生态探索
电子商务平台数据质量控制系统及仿真模型分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
世界首个可记录物体内部结构等复杂信息的3D打印数据格式问世
论子函数在C语言数据格式输出中的应用
基于特征库的测井数据格式自动识别与转换方法
基于ArcGIS的规划数据格式转换研究