我国国家科学数据中心FAIR原则的实践现状调查与分析

2023-06-23 13:17李楠楠刘筱敏
图书与情报 2023年2期
关键词:元数据

李楠楠 刘筱敏

摘   要:FAIR原则是规范科学数据管理和促进数据共享的指导原则,调查分析我国国家科学数据中心FAIR原则的实践现状,对推动科学数据的发现、访问、获取和重用具有重要意义。文章通过分析FAIR原则的主要内容,把握国际科学数据开放共享原则;调研20个国家科学数据中心对FAIR原则的实践现状,从元数据标准和用户授权两个层面分析结果并提出改进建议。研究发现:我国国家科学数据中心对FAIR原则的应用还有待提升,需要在持久性标识符的采用、元数据标准的公开访问、数据许可声明的明确等方面加强规范化、标准化管理。

关键词:FAIR原则;国家科学数据中心;科学数據管理;元数据

中图分类号:G255   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2023032

Abstract FAIR principle is the guiding principle for regulating scientific data management and promoting data sharing. Investigating and analyzing the current practice status of FAIR principle in China's National Science Data Center is of great significance to facilitate the discovery, exchange, acquisition and reuse of scientific data. This article grasps the international principle of sharing scientific data by analyzing the main contents of FAIR principle; investigates the current practice status of FAIR principle in 20 National Science Data Centers, analyzes the results from two levels of metadata standards and user authorization and proposes improvement suggestions. It is found that the application of FAIR principle in China's National Science Data Centers still needs to be improved, and standardization management should be strengthened in terms of the adoption of persistent identifiers, the open access of metadata standards and the clarification of data permission statements.

Key words FAIR principle;National Scientific Data Center;scientific data management;metadata

随着科学数据资源的爆炸式增长和科学研究步入数据密集型科研范式阶段,科学数据在科技发展和社会进步中的重要作用日益凸显。科学数据已成为创新发展的基础性、战略性资源,世界各国逐渐重视科学数据的开放共享和有效利用,围绕科学数据制定了一系列相关管理政策、法规和指南,科研机构、高等院校、出版机构建设的科学数据中心逐渐成为科学研究的基础设施。

为推进科学数据的规范管理与开放共享,发挥科学数据的价值,国际社会于2014年在荷兰莱顿举办的学术研讨会上提出了FAIR原则的草案[1]。2016年,《科学数据管理和监督的FAIR指导原则》一文的发表标志着可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原则正式确定为科学数据管理原则[2]。为了推进科学数据的开放共享,降低科学研究的重复性成本,需要在实践中不断深化FAIR原则的应用。

我国自2002年以来出台了众多相关政策文件,并通过建设国家科学数据中心开展科学数据的采集、汇交、管理、存储、发布与利用工作,目前已在不同领域形成20个国家科学数据中心。但在具体实践中,我国科学数据开放共享工作还存在制度机制不健全、标准规范不完善[3]、“数据孤岛”现象普遍存在、数据标准化程度不足[4]等问题。本文拟通过分析FAIR原则的主要内容,把握国际科学数据开放共享原则;调研20个国家科学数据中心对FAIR原则的实践现状,提出进一步应用FAIR原则的建议,对加强和规范我国科学数据管理,提高开放共享水平具有重要意义。

1   研究对象

FAIR原则是国际社会广泛认可的科学数据管理原则,自2014年提出后,全球许多国家和组织将其运用于开放科学数据领域。FAIR原则由可发现性、可访问性、可操作性、可重用性4项主要原则和15项具体细则组成。可发现性要求数据或元数据应以清晰明确的方式进行识别、描述、登记或索引;可访问性要求数据应通过明确界定的访问程序访问,即建立访问的认证和授权程序;可互操作性要求数据使用公共的、已发布的标准进行结构化和规范化组织,从而可在不同的应用程序或工作流之间交换和使用;可重用性进一步明确了其他原则的要点:数据被很好地记录和整理,数据描述符合相关领域标准,数据具有清晰明确的访问和使用条款等[5]。

我国一直十分重视和支持科学数据的管理和共享。2019年6月,为落实《科学数据管理办法》和《国家科技资源共享服务平台管理办法》的要求,规范管理国家科技资源共享服务平台(简称国家平台),完善科技资源共享服务体系,推动科技资源向社会开放共享,我国在生物学、天文学、地球科学、物理学等多个学科领域已有数据中心的基础上,优化调整形成了20个国家科学数据中心。各国家科学数据中心由我国科技主管部门布局、认证和考核,在政策支持、经费保障、组织管理水平等方面极具代表性,能够反映我国科学数据管理与共享的发展进程。自批准成立至今,我国国家科学数据中心已走过了三年多的光景,调研国家科学数据中心对FAIR原则的实践情况,能够呈现我国国家科学数据中心建设与服务现状。

从FAIR原则的具体内容来看,主要强调两点:(1)元数据标准:标识符、元数据内容、元数据标准等;(2)用户授权:用户注册与授权、许可声明、使用条款等。因此,研究主要从这两个层面调研分析国家科学数据中心对FAIR原则的实践现状。因国家极地科学数据中心网站一直无法正常访问,故最终的调研样本为19个国家科学数据中心(见表1)。

2   我国国家科学数据中心FAIR原则实践现状分析

基于FAIR4项主要原则,采用网络调研、文献调研等方式梳理分析国家科学数据中心对FAIR原则的实践现状。通过国家科学数据中心网站中“数据资源”“元数据”“数据目录”“标准规范”“数据汇交”“用户帮助”“用户指南”“平台介绍”等栏目、综合性的全球研究数据仓储注册目录Re3data[6](the Registry of Research Data Repositories)以及FAlRsharing[7]网站中查找检索国家科学数据中心有关元数据和用户授权建设内容,并通过有关国家科学数据中心建设、服务、实践等方面研究论文,补充网络调研不足的相关建设内容。

2.1    元数据内容与标准

研究通过逐一调研19个数据中心的网站,并查阅相关文献,梳理国家科学数据中心的元数据标准(见表2)。

2.1.1   标识符

数字资源唯一标识符是元数据的必备元素,是数据唯一识别并数据关联的重要元素,通常采用 “全球唯一且持久”的标识体系。目前通用的数据标识符有数字对象标识符(DOI)、科技资源标志体系(CSTR)、档案资源键(ARK)、持久统一资源定位器(URL)等。调研发现:19个数据中心有16个使用通用型永久性标识符,5个使用本地或学科标识符,NMCPDC和NMDC-Metrology没有说明数据标识符。通用型永久性标识符中以DOI与CSTR的使用为主,两者都具有唯一性、持久性、兼容性、互操作性和动态更新的特点,12个中心同时使用DOI与CSTR。

除通用型标识符外,部分学科领域在实践中形成了专用标识符——学科性标识符,凸显了学科特征,以满足针对性需求。如NGDC的PRJC、SRP、SAMC、SUB、SDA、CRA、Taxonomy ID、CRX、SRA标识符、NMIC的MOID标识符与NADC的IVOA标识符是符合相应学科领域的规范,能够唯一标识数据资源。学科性标识符的使用大多基于国家或国际性组织,为了促进学科领域的研究与交流,通過制定一系列数据描述、管理标准推动数据的开放共享。如气象数字对象标识符(Meteorological Digital Object Identifier, MOID)是由中国气象局负责建设的气象领域标识数字对象唯一身份的标识符,为实现气象数据安全审查、产权保护、流通追溯和成效评估提供了实践依据[8]。

本地标识符在其所属系统范围内是唯一的,可用于本地索引,提供多种检索途径,但无法解析,不利于数据关联,我国国家科学数据中心对通用型永久性标识符的使用并未做到全覆盖,标识符的建设还需进一步完善。

2.1.2   元数据标准

元数据标准规定了描述某种特定资源对象的一系列元数据集合,是平台数据服务形成的基础。数据中心可根据国际国内通用的元数据标准,复用元数据元素,也可结合自身需求建立针对性的元数据标准以实现数据的规范组织,保证用户和机器可读。调研发现,19个数据中心中仅有7个明确说明所遵循的元数据标准,包括国际通用的DataCite、Schema.org、Dublin Core、DCC等标准。NGDC使用自行开发的元数据标准,并在网站公开了具体内容,便于其他平台参考和复用。NCDC和NMDC-Metrology以《GB/T 30523-2014 科技平台资源核心元数据》[9]为基准,其核心元数据包括7个元数据元素和2个元数据实体。NSSDC借鉴空间科学数据领域通用的国际标准SPASE数据模型优势,实现空间科学数据的描述与组织。SPASE模型本质上是描述太阳物理学数据环境要素的元数据规范,采用受控词汇表,可用于描述数据及其科学背景、来源、内容和位置等信息[10],并能在所描述的资源之间形成关联[11]。

由调研结果可知,我国国家科学数据中心对复用或自建的元数据标准说明不够,公开元数据标准的意识薄弱,不利于同类数据平台的建设。

2.1.3   元数据内容

元数据是关于数据对象的描述性信息,包括数据质量、条件、特征等信息。为实现和提高数据的可发现性,FAIR原则建议使用丰富的元数据描述数据,帮助用户快速找到目标资源[12]。通过统计发现,19个数据中心的元数据描述基本都达到了FAIR原则的要求,提供数据标题、关键词、摘要、标识符、发布日期、发布机构等描述性元数据,注重数据基本信息的描述和详细内容的展示,保证用户更好地理解和获取数据。此外,NSSDC、NADC等7个平台提供了数据的版本信息以支持历史数据查考和引用,注重数据的及时更新(见表3)。

元数据除支持查询和定位科学数据的功能外,还要关注数据质量评价和数据重用信息的描述。FAIR原则建议数据包含详细的出处信息,如数据产生原因、产生方式、创建者、创建时间、使用的原始数据或源资源、数据处理过程等,可以帮助用户评估数据是否满足预期的重用标准[13]。调研结果显示,NCDC、NESSDC等5个平台提供数据质量描述信息,NESSDC、NCDC、NEDC提供数据加工方法信息等,使得数据质量保障有据可循。15个数据平台提供数据联系信息、数据来源等内容,为数据重用提供了便利。

其中,NCDC的元数据在数据的版本信息、数据质量描述信息、数据加工方法信息、数据联系信息等方面均表现较好,从不同角度较全面地描述了数据内容。从数据中心网站平台上公布的标准规范来看,我国在2006年就针对地震科学数据的开放共享发布了一系列标准规范,如《地震科学数据 元数据编写指南》《数据科学数据 数据元目录》《地震科学数据 数据分类与编码》《地震科学数据 数据交换格式》等,对地震科学数据的元数据模式、数据字典、编写要求、分类原则与方法等做出了详细说明,有效指导了地震科学数据的管理实践。

2.2    用户授权与访问协议

FAIR并不意味着没有限制的开放或免费,对于涉及个人隐私、商业秘密、国家安全等的数据资源,需要有限访问[14]。数据平台需要明确使用条款和访问协议,规定使用权限,对申请者进行授权和身份验证,确保访问请求、数据用途与授权条件相匹配(详细情况见表4)。

2.2.1   用户注册与授权

19个数据中心均无需注册即可访问网站平台,支持元数据使用,但很多数据和服务需要用户注册登录后才能使用。针对数据的实际情况,平台设置不同层级的访问和获取门槛,有的用户登录后可直接下载,有的需要用户填写数据使用需求表格提交后台审核,有的还需要用户验证所属机构信息。如高能物理实验管理采用合作组模式,所有签订协议并参与合作组的国内外单位才有实验数据的访问权[15],因此NHEPSDC的高能物理实验数据需要用户成为相应合作组成员才能获取和使用。NGDC规定只有注册为PI的用户才能申请下載数据,以保证数据访问安全。而NESSDC设置了“数据直接下载”栏目,用户无需登录,可直接下载90个数据集内容。

出于对数据安全的考虑,数据平台需要划分用户层级并分配不同权限,以规范用户使用行为。13个数据中心将用户简单划分为访客和注册用户两类进行权限控制。NHEPSDC区分用户为所内所外,并采用基于tokens的用户认证和资源访问权限控制。NGDC采取双重认证方式,以确保数据的可溯源性[16]。高能物理实验数据与基因组学相关数据或依托于大型国家或国际专业观测仪器设备,或涉及国家安全、隐私相关内容,更注重对用户权限的管理,限制要求更高。NMDC-Marine注册用户分为普通用户、个人认证用户和单位认证用户,三者的区别在于可浏览、检索和收藏下载科学数据的范围和每日可下载数据量不同。由此可见,不同层级的用户权限和身份不同,层级越高的用户身份可以获取和使用的数据范围越广,体现了数据有限使用的原则。

2.2.2   许可声明与使用条款

为了便于重用,数据及其元数据必须包含许可证以说明数据资源的使用条件,并且选择的许可证应尽可能开放[17]。由表4可见,10个数据中心未明确许可声明,可能会产生法律上的不确定性,阻碍数据资源的重用。9个数据中心明确说明遵循标准的机器可读许可协议——CC协议,其中以知识共享署名4.0(CC-BY 4.0)许可证的应运最为广泛。NPHDC还采用英国国家档案馆发布的可适用于开放数据的共用许可协议——(OGL UK)Open Government Licence 3.0,与CC BY 4.0兼容,两者都许可版权和数据库权利[18]。

除遵循标准的许可协议外,数据平台也可通过自制政策条款说明数据使用协议与注意事项。通过统计发现,11个数据中心使用“服务条款”“免责声明”“数据使用声明”“隐私保护”等栏目说明使用条款的相关内容,明确平台上的数据资源版权归数据和资料原生产单位所有或平台所有。为尊重知识产权、保障数据作者和数据服务提供者的权益,平台要求用户遵守知识产权的有关规定,在研究成果中注明和引用科学数据;要求用户不得将数据转让给第三方,由此引起的一切后果由数据用户承担。虽然自制政策也能对用户的数据使用行为做出细致规定,但是标准化不足,不利于科学数据与数据平台的数字化推广使用。

2.3    我国国家科学数据中心FAIR原则实践现状总结

综上所述,国家科学数据中心的元数据内容较为丰富。元数据结构越是发展成熟、在国际上有一定影响力的科学数据中心,其元数据内容更为详实,既有对数据本身的详细描述,也体现了对知识产权的充分尊重,详细标注了数据的生成者,并对数据的更新版本做了描述,不同版本进行了保留,凸显了科学数据的动态变化特征,更有助于科学数据的广泛利用。国家青藏高原科学数据中心是我国第一个与国际出版商(Springer-Nature)合作的科学数据仓储平台,被Nature指定为其系列期刊的科学数据存储平台之一,可以看出其元数据标准与国际相关标准接轨。正是基于丰富的元数据内容,国家青藏高原科学数据中心才与CSCD数据库开展合作,实现科学数据与科学文献的关联。虽然国家科学数据中心的元数据内容大多比较丰富,但是在描述内容的标准化、规范化方面还有待进一步发展,另外少数科学数据中心的元数据内容尚待进一步完善。

在用户使用方面,国家科学数据中心都设置了用户注册要求、限定了用户使用权限和许可声明。由于科学数据平台是近几年才逐渐从汇交数据、存储数据发展到提供数据服务与利用,并根据用户需求与数字环境的变化,以及开放数据的进一步普及不断完善平台功能建设与服务内容,相信在科学数据应用方面还会有更为详细的规定,特别是有关科研诚信和科学伦理的规定。

同时,调研发现我国国家科学数据中心对FAIR原则的实践中还存在三方面不足:(1)目前我国国家科学数据中心对通用型永久性标识符的使用并未做到全覆盖,有两个数据中心未提供唯一性的可解析的数据标识符,影响第三方平台的链接和关联;本地标识符需要进一步优化,以满足数据解析与关联需求;(2)数据中心所使用的元数据标准开放共享程度较低,仅有7个中心说明所遵循的元数据标准,公开元数据标准的意识薄弱,不利于元数据标准的复用和同类数据平台的建设;(3)数据使用许可的明确与标准化程度有待提升,以帮助用户明确使用要求与义务,促进科学数据与数据平台的数字化推广使用。

3   FAIR原则实施建议

FAIR原则是科学数据管理的指导性原则,通过分析我国国家科学数据中心对该原则的实施现状可以发现,我国科学数据管理与共享工作取得了一定成效,但还存在一些不足。为促进我国科学数据的规范管理与开放共享,对我国国家科学数据中心实施FAIR原则提出如下建議。

3.1    采用持久性标识符

数据或元数据拥有一个全球唯一且持久的标识符,以便计算机发现和解析,这是FAIR原则实现数据共享与重用的基础[19]。科学数据中心需要为汇交采集的结构化、半结构化、非结构化等各类科学数据配备唯一且永久性的标识符,并与一系列描述性元数据相关联,解决数据的身份问题。从国际学术交流的角度,科学数据中心通过采用国际通用的永久唯一识别符,建立学术交流的渠道,从科学数据自主管理的角度,应广泛应用根据GB/T 32843《科技资源标识》国家标准构建的科技资源标识符CSTR,有助于我国保持科学数据的有效性、解析权和独立自主分配科技资源唯一性标识符的权利。

3.2    提供元数据标准的公开访问

数据平台公开共享其元数据标准能够帮助人们更好地理解数据,为数据的接口与传输、关联与使用提供便利。而我国国家科学数据中心所使用的元数据标准开放共享程度较低,仅有7个说明所遵循的元数据标准。国家科学数据中心作为我国数据管理领域的佼佼者,建立的元数据标准应该普惠于同学科领域其他数据平台的建设与组织管理,并在实践中不断优化,以共识、标准、规范为我国科学数据平台的建设做出贡献。

3.3    明确数据许可声明

数据许可声明包含对数据能否重用、数据重用范围、方式、注意事项等的说明,是用户使用数据的依据。开放科学数据应在必要时设置保护期限、内容分级控制等明确科学数据开放共享的范围边界,以更好地保护科学数据的知识产权和鼓励科学数据的共享。欧洲开放科学云发布的《2020计划框架下的FAIR数据管理指南》[20](Guidelines on FAIR data management in Horizon 2020)中要求说明数据是否可重用、可重用的条件、数据有限访问的原因和期限等内容。Mendeley Data平台针对各种类型数据,提供了15种许可协议、使用声明供数据提供者选择,包括CC授权协议、软件许可声明(MIT、Apache、BSD、GPL)以及硬件许可声明[21],方便研究人员上传和共享数据。

数据平台须重视参考标准的、机器可读的重用许可声明,在元数据中包含使用适当元数据元素表示的许可信息;明确不同数据的使用权限,并做出详细说明;参考国际标准,考虑以机器可读格式如HTML文档、RDF等形式提供。数据平台明确许可声明的内容和标准,能够帮助用户更好地理解科学数据的使用权利与义务,减少因数据权属不确定性导致的数据重用纠纷,推动科学数据的公开共享。

4   结语

FAIR原则旨在促进科学数据的规范组织和共享重用。通过调研我国20个国家科学数据中心对FAIR原则的实践情况可知,我国科学数据中心建设在国家政策的推动下不断发展,汇聚了各领域的科学数据,形成一定的规模,在科学数据发现、利用、互操作、重用方面提供较为有力的支撑。但科学数据中心的发展任重道远,在科学数据数量、质量的提升方面有待进一步发展,在科学数据的利用方面有待于提供更为完善的系统之间的数据交互途径,在数据服务方面有待于政策与使用声明的进一步明确。只有多维度协同共进,才能建设成数据“存得下、流得动、用得好”的平台。

参考文献:

[1]  Data FAlRport.Find, Access, Interoperate & Re-use Data[EB/OL].[2023-02-23].https://www.datafairport.org/.

[2]  WILKINSON M D,DUMON'TIER M,AALBERSBERG I J,et al.The FAIR Guiding Principles for scientific data management and stewardship[J].Scientific data,2016,3(1):1-9.

[3]  高孟绪,王瑞丹,王超,等.关于国家科学数据中心建设与发展的思考[J].农业大数据学报,2019,1(3):21-27.

[4]  杨雅萍,姜侯,孙九林.科学数据共享实践:以国家地球系统科学数据中心为例[J].地球信息科学学报,2020,22(6):1358-1369.

[5]  Boeckhout M,Zielhuis G A,Bredenoord A L.The FAIR guiding principles for data stewardship: fair enough?[J].European journal of human genetics,2018,26(7):931-936.

[6]  Registry of research data repositories[EB/OL].[2023-02-25].https://www.re3data.org/.

[7]  FAIRsharing.org[EB/OL].[2023-02-25].https:///fairsharing.org/.

[8]  气象数字对象标识符[EB/OL].[2023-03-28].http://moid-node.cma.cn/.

[9]  中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会.GB/T 30523-2014 科技平台资源核心元数据[S].北京:中国标准出版社,2014.

[10]  DCC.SPASE Data Model[EB/OL].[2023-02-25].https://www.dcc.ac.uk/resources/metadata-standards/spase-data-model.

[11]  King T,Thieman J,Roberts DA.SPASE 2.0:A standard data model for space physics[J].Earth Science Informatics,2010,3(1-2):67-73.

[12]  GO FAIR.FAIR Principles[EB/OL].[2023-02-25].https://www.go-fair.org/fair-principles/.

[13]  Weigel T,Schwardmann U,Klump J,et al.Making data and workflows findable for machines[J].Data Intelligence,2021,2(2):40-46.

[14]  Mons B.FAlR science for social machines: let's share metadata Knowlets in the Internet of FAlR data and services[J].Data lntelligence,2019,1(2):22-42.

[15]  齊法制,陈刚,程耀东.建立权责明晰且能力健全的科学数据开放共享机制——以高能物理领域为例[J].中国科学基金,2019,33(3):229-236.

[16]  李茹姣,张欣,宋述慧,等.基因组科学数据的安全管理与应用[J].大数据,2022,8(1):37-45.

[17]  Labastida l,Margoni T.Licensing FAlR data for reuse[J].Data lntelligence,2019,1(1):199-207.

[18]  The National Archives.Open Government Licence for public sector information[EB/OL].[2023-02-25].https://nmdc.cn/submit/guide.

[19]  Jacobsen A,Azevedo RD,Juty N,et al.FAIR Principles:Interpretations and Implementation Considerations[J].Data Intelligence,2020,2(1-2):10-29.

[20]  European Union.Guidelines on Data Management in Horizon 2020[EB/OL].[2023-03-26].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa.

[21]  卢垚,王鸑飞,刘洪冰,等.Mendeley Data平台开放科学数据实践及启示[J].数字图书馆论坛,2021,(9):19-26.

作者简介:李楠楠,女,中国科学院文献情报中心、中国科学院大学经济与管理学院图书情报与档案管理系硕士研究生;刘筱敏,女,中国科学院文献情报中心研究馆员。

猜你喜欢
元数据
元数据国际交换共享的客家古民居数字记忆工程建设
基于来源的组织机构元数据构建研究
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
利用VB读取中国知网过刊数据提取元数据的研究
财会信息资源元数据标准的研究
基于隐语义模型和用户信任的个性化推荐模型
基于关联数据的语义数字档案馆框架设计研究
基于角色控制的异构数据展示在企业门户中的应用
基于元数据映射机制的异构数据操作