数据知识库质量控制研究:现状、问题与优化路径

2022-08-15 04:30郑伯爽贺子岳陈晓峰
中国传媒科技 2022年8期
关键词:知识库质量

郑伯爽 贺子岳 陈晓峰

(1.武汉理工大学 法学与人文社会学院,湖北 武汉430070;2.湖北省科技信息研究院《科技进步与对策》编辑部,湖北 武汉430071)

导语

开放科学正在逐渐改变传统的科学范式,随之而来的是第四种科学范式——数据密集型科学范式的形成和发展,数据作为信息时代信息和学术传播的重要载体,也越来越引起人们的重视,对数据如何进行管理、利用和存储等问题成为学术界重点关注的话题。科研数据知识库的发展也成为解决上述问题的重要手段之一,但是截至目前,相关研究人员还未对数据知识库进行统一的定义,我国学者刘峰、张晓林在一篇名为《科研数据知识库研究述评》中较为全面地将科研数据知识库定义是可以有效保存、管理科学数据的工具,同时支持各种科研活动以及知识创造的数字知识库。[1]本文采用这一定义。

目前,对科研数据知识库方面的研究,国外的研究内容比较丰富,主要集中选取多个科研数据知识库进行对比分析其服务功能和特点。我国的研究主要是对比分析我国和欧美国家的科研数据知识库目前存在的差异,并参考国外科研数据知识库建设发展提出的建议,为我国科研数据知识库建设和发展提供合理的参考依据。

对科研数据知识库质量控制方面的研究,通过对比分析相关文献可以看出,目前国内外关于科研数据知识库质量控制的实践活动以及研究还处于初级发展阶段,由于科研数据知识库质量控制的方法、体系和机制还有待完善,质量控制政策的滞后性,导致了科研数据知识库质量控制问题日益突出。科研数据知识库质量控制问题得以有效控制和管理既是当前科学数据管理工作以及研究亟须解决的问题,也是当前科学研究创新的重要突破口。

基于此,本文以数据知识库质量控制为研究对象,对科研数据知识库质量控制流程进行深入地梳理和剖析,并提炼出在质量控制过程中存在的问题及相应的参考建议。

1.科研数据知识库质量控制流程

在大数据环境中大量的数据资源被分布在各个领域,聚集和加载在各个环节,在此时如何利用数据知识库进行科研数据整合,包括多个数据源的一致性、合规性以及兼容性,成为科研数据知识库质量控制过程的重要组成部分。而且对科研数据知识库质量控制的研究贯穿于科学数据生命周期的全部过程,因此本文将从数据出版流程的角度出发,对科研数据知识库质量控制进行探讨。科研数据知识库数据出版流程有五个阶段,如图1所示,分别是数据提交阶段、数据存储阶段、数据审核阶段、数据发布阶段以及数据引用阶段。下文将从这五个环节对数据知识库质量控制流程进行阐述。

图1 科研数据知识库质量控制流程

1.1 科研数据知识库提交阶段

通常情况下,数据提交有两种主要方式:一种是数据生产者自行提交方式,即数据论文和科学数据结果的创建者提交并上传到公共平台。另一种提交方式是平台人员支持提交方式。这意味着科研数据知识库的工作人员将帮助数据创建者将科学数据存储在数据知识库中。

1.1.1 数据生产者自我提交的质量控制

数据生产者自我提交方式是由科研人员本人把自己的科学数据或者是数据成果提交到在线数据提交平台上的一种提交方式,并且这种自主提交方式还需要提交指南作为指导。

目前主要有两种数据在线提交平台,第一种是基于免费的开源软件开放的在线提交平台,如DSpace、Dataverse。其中典型的Dryad数据知识库就是在DSpace开源软件的基础上开发而形成的,Data Share是在Dataverse开源软件的基础上开发形成的。第二种是由科研数据知识库的机构自主研发出来的在线提交平台,不要进行二次操作验证即可在线提交的平台,这种在线提交平台都是根据数据知识库自身的功能、服务特点以及需求研发形成的,符合了目标用户的实际需求。不仅如此,数据在线提交平台无论是在免费的开源软件上进行二次开发形成的,还是自主研发出来的,都有相应的数据提交指南,数据提交到在线提交平台上都需要按照提交指南的要求进行提交。

提交指南会指导并要求数据提交者按照规定的提交标准进行提交,在一定程度上也保证了提交数据的质量,对数据质量起到一定的控制和管理的作用。一般分为四个标准化的要求:提交理由、提交前的准备、提交流程以及提交后对数据集等的处理。

1.1.2 平台人员支持提交的质量控制

平台人员支持提交方式是科研数据知识库最常用的方式之一,也就是平台人员与数据提交者共同合作完成的一种提交方式,通常情况下,工作人员会按照一定的评估标准,对即将提交到科研数据知识库的科学数据进行评估,如英国环境数据分析中心科研数据知识库的评估环节是由该科研数据知识库工作人员对即将纳入的数据集进行评估,评估数据是否符合存储的价值和意义,主要针对科学数据的质量、完整性、准确性等进行评估。如果不合适,将会把这些数据推荐到其他的地方进行存储,如果合适将提交到科研数据知识库,进行下一步存储的操作。[2]也就是进行数据提交前的准备工作,科研数据知识库的工作人员需要制定详细的数据提交计划,准备如何对数据集进行描述以及确保数据格式的正确性等。如UKDA数据知识库的相关工作人员制定了数据提交计划,可以按照这个计划对科学数据进行提交,而且UKDA还会根据数据大小来选取适合的存储方式。

1.2 科研数据知识库存储阶段

数据存储是科研数据知识库稳定运行的前提,是检索数据价值的基础。通过数据生产者自行提交或协助数据知识库工作人员提交并上传到科研数据知识库的数据,再通过科研数据知识库对这些数据进行描述、分类,这是对科研数据知识库存储数据的基本程序。科研数据知识库会根据不同学科类别的科学数据进行主题划分,如学科基础类的科学数据(物理、天文、地理等)和科学数据创建的方法(实验采集、观测采集等)以及基本的数据文本和数据库等。这些数据主要分为元数据、临床数据、图像数据、特点项目的数据、图像元数据以及音频数据等。

这样,所有存储的数据都要符合数据知识库的存储格式和标准,同时提高了数据知识库中数据的完整性和准确性。如Shin等[3]研究的科研数据知识库可以存储来自30多个研究项目里的总共2000多个数据,由于大量数据存储其中,为避免出现误差,需要明确数据存储格式和规范。

1.3 科研数据知识库审核阶段

数据审核是数据出版过程中的必要环节,不同学科领域的审核内容和方式各不相同。数据审核也叫数据评审,最常见的英文翻译是Reasearch Data Review,简称RDR,数据评审与学术论文中的同行评审类似,数据评审是科研数据知识库质量控制的重要方法之一,由于数据评审处于初步发展阶段,目前业界尚未对其有统一的定义,有学者认为数据评审是评估数据和相关文件的过程,也有学者认为数据评审是数据质量控制的重要方法。基于科研数据知识库的数据评审一般包含3方面的内容:首先是数据评审标准,其次是数据评审的实践和项目的说明,最后是数据评审内容的说明。对这3个内容进行评审,确保数据的科学质量。

1.4 科研数据知识库发布阶段

数据发布是数据出版的重要环节之一。不同的科研数据知识库有不同的数据发布平台和渠道。目前,科研数据知识库主要有3个数据分发渠道。第一个是数据库数据目录,第二个是相关期刊文章,第三个是综合数据目录。最常用的发布渠道是数据库的数据目录。科研数据知识库中发布的数据通常包括数据库本身和有关数据库的大量信息、许可协议和相关出版物、科学研究成果等。同时不同的科研数据知识库关注的数据细节也有区别,其中,专业型数据库中的大量数据通常比公共科学数据库中的大量数据详细得多。对可以追踪到来源的科学数据,科研数据知识库一般会选择期刊论文作为其发布渠道;集成数据目录这类发布渠道,一般是数据集或者数据集的元数据的发布渠道;集成数据目录是数据知识库拓展出的新式数据发布渠道,能够增加数据集被发现和被利用的可能性。

同时,不同科研数据知识库的数据发布时间也不同。科研数据知识库鼓励并允许在提交和审查后尽快发布数据集。但是,也有非正常情况下,科学数据提交者可以自行决定暂停发表,并且大多数科研数据知识库会根据规定,会给用户提供延迟期。这种发布时间延迟的原因主要有3个:一是敏感数据发布会延迟;二是在发表期刊文章时会推迟科学数据的发表;三是由于资助机构的要求,出版延迟。

1.5 科研数据知识库引用阶段

数据引用或者是数据利用是数据库出版过程中最重要的环节,在出版过程中占有重要地位。科研数据知识库中的数据质量控制往往是对规范数据引用格式和完善数据引用标准表体现出来。如今,数据引用格式有很多种,包括DOI、URL、OpenURL等。同时也包含一种新的数据引用技术——数据指纹。其中,就目前来看DOI应用最为广泛,原因在于DOI具备唯一性、永久性以及更新及时性等特征。一方面可以实现数据引用过程中数据版本和数据地址的及时更新和迭代,另一方面可以维护数据作者的署名权。

目前,国内外不同的科研数据知识库的数据引用格式往往也不一样,但数据引用格式的内容大都包含作者、年份、数据地址、访问地址数据等重要元素,还要尽可能地反映数据类型和数据检索时间。当用户再引用数据时也遇到引用数据格式不一致的问题,目前全球范围内还未对数据引用格式作统一的标准,因此科研数据知识库会根据自身的需求以及功能定位形成了自己独特的数据引用格式和标准,并且也将这些数据引用标准形成对科研数据知识库数据引用质量控制的明文规定。

2.科研数据知识库质量控制问题

2.1 数据质量控制技术应用不强

科研数据知识库的数据质量控制包含科学性和技术性质量控制两个方面,其中科研数据知识库较多使用的是技术标准层面的质量控制,通常情况下需要通过多种技术手段对数据本身以及描述数据集进行技术性评估。如NCAR(美国国家大气研究中心)的科研数据知识库会提供软件统计分析数据内容,检查数据产生和输出的一致性,但是面对大规模的数据集的审查,将是一个难点,也无法对这种大规模的数据集进行这种技术性审查,原因在于目前质量控制过程中技术支持还有待加强。大规模的数据集描述需要数据知识库不断更新各种在线工具用于支撑数据集的描述,并检查数据集的完整性、正确性。但是通过调研发现,目前部分科研数据知识库可能在技术版本的更新上面缺乏反馈机制,并未及时有效地更新这些在线服务的平台。也就是说现有的相关应用并不能解决当前实际问题,亟需根据数据的实际需要开发相应的技术性的管理工具。

2.2 数据评审体系不健全

数据评审体系不健全主要体现在数据评审标准、数据评审流程、数据评审内容3个方面。首先是数据评审标准的不统一,科研数据知识库的数据评审标准一般都是根据本科研数据知识库自身需求和情况而制定的,也就意味着不同学科类型的科研数据知识库,或者是同一学科类型但是不同的科研数据知识库都有其本身的数据评审标准,因此在数据评审过程中,评审专家会按照数据评审标准给出的评审意见的标准也不统一,会造成学术不公的问题。

其次是数据评审流程不健全,一般情况下,期刊论文数据评审主要是由期刊编辑部进行初次审核,再由评审专家进行匿名评审的过程,由调研可知,科研数据知识库的数据评审的流程会更加的复杂,如Scientific Data 根据自身的情况采取三段式的审核流程。《中国科学数据》采用五段式的审核流程,然而根据科研数据知识库本身情况而定的数据评审流程,同时也会导致科研数据知识库与数据期刊的数据评审权责不分明的问题,数据评审细节难以说明,数据评审过程浪费大量的时间和精力,降低了数据评审的效率,同时也会导致学术不公平的现象。

2.3 质量控制人员专业素养不高

科研数据知识库作为科学数据传播和共享的基础设施建设,是科学技术发展的重要基础,同时也是促进学术交流的重要平台,因此具有很强的专业性和严谨性。而目前高校并未设置相关专业,缺乏对此类人才的关注和培养,造成了数据质量控制人才紧缺的局面,导致目前科研数据知识库质量控制相关人员由于质量控制实践不充足,因此并不具备专业性,在实践中容易出现质量控制不当的现象。

同时对相关人员缺乏及时的培训,导致其专业水平有限,还是依据之前的标准和意识对目前不断变化的科研数据进行控制。数据质量水平的高低与数据质量控制专家和团队的专业水平息息相关,依托高水平的专家和团队,使得科研数据经过严格的检查、控制,也可以提交上传至数据知识库,这样不仅保障了数据质量而且也保障了数据知识库的质量,从而提高了科学数据的利用率。因此提高相关质量控制人员的专业素养迫在眉睫。

3.科研数据知识库质量控制的优化路径

3.1 深入打造科研数据知识库质量控制的技术支撑

打造功能更加丰富的科研数据知识库数据管理工具。科研数据知识库的数据在整个生命周期过程中易受多种复杂因素影响,使用一种技术难以充分保证数据质量的有效性。所以应根据数据的实际需要开发相应的技术性的管理工具,同时在各个阶段保持基于知识的数据质量。国外一些科研数据知识库数据在管理工具和平台的开发和使用方面比较成熟,我国也在这方面取得一定的进展,我国要不断地提高这方面的技术,可以把国外的技术管理平台作为建设自己数据知识库数据管理工具的参考,因此研究人员应该好好利用国外的经验。

加强技术对元数据的加持作用。基于科研数据知识库的元数据控制需要进行全面扩展,以满足用户大量数据描述和实时捕获的需求。一方面,需要采用元数据自动生成技术,需要通过爬虫工具抓取网页资源的时间戳、文件类型、URL、MIME等信息,并对HTML网页源代码进行解析和标记,即可获取这些信息。从而实现海量元数据的管理。[4]另一方面,可以探索用于开发元数据管理工具的开源技术应用程序。美国地质调查局在其官网上推荐了数据管理和元数据创建等工具,并公布了下载链接。[5]

3.2 探索同行评审的新模式

完善现有数据评审体系和标准,规范当前的数据评审实践活动,包含完善并提高评审标准,提高评审人员的专业素养等。在此基础上,探索未来数据评审的新模式——开放同行评审,OpenAIRE在一则报告中提到,未来科研模式新趋势之一是开放同行评审,简而言之,开放同行评审就是将作者和评审专家的身份公开的一种数据评审方式。也就是说在这种模式的驱动下,通常情况下会公开作者的身份和评审者专家的身份、公开评审专家给出的意见、公开作者的原始论文和最后定稿的论文、公开数据评审的流程、公开数据评审专家互动过程、公开出版平台等。

这种新的模式不同于以往依靠评审专家对数据论文等进行评审,而是把科研数据、科研成果提交并上传到网上,并及时邀请学术专家或者是评审专家对这些提交到网上的科研成果进行质量控制,判断其是否具备存储和利用的价值。与此同时,这些专家对数据论文的评审意见也会成为判断其是否成为评审专家的依据。虽然开放同行评审目前处于起步阶段,并且面临着一定的争议,但是在多个学科领域已被采用并且效果显著。如F1000 Research[6]在数据提交后,经过期刊内部编辑人员对数据进行初步的审核之后,使得提交的数据处在一个“等待开放同行评审”的状态,与此同时作者需要推荐5个数据评审专家对其数据进行评审。

3.3 树立质量控制人员的“把关人”角色

质量控制人员在质量控制实践中扮演着重要的“把关人”角色,是科研数据知识库质量控制实践过程中必不可少的一部分,也是科研数据知识库发展的必然趋势。质量控制人员的“把关人”角色,有利于提高工作人员的质量控制意识,进一步提高数据知识库的质量,提高科学数据的质量水平和可信度,为我国成为科技强国打下坚实的基础。因此,首先,需要提高相关工作人员的数据质量控制意识,对数据管理人员进行培训,再教育,使他们认识到数据质量控制的重要性和意义,意识指导实践,让这些工作人员能够在日常的质量控制过程中成为合格的“把关人”;其次,增设质量审核岗位,填补多年质量审核岗位人才的缺失现状,广泛招纳科研英才,选取具备较高学术水准和声望的专家作为质量审核专家,质量审核专家可以依据自身专业优势对科学数据的质量加以审核和评估,从而降低了因审核经验不足导致的质量问题;最后,加强相关岗位的人才队伍建设,构建专门的质量审核团队,一定数量的质量审核人员是数据知识库质量控制的保障,使其可以运用专业知识对每一次的数据质量控制起到很好的监督和把关作用。

结语

科研数据知识库质量控制不仅提高了科学数据的质量和重用性,而且也提高了科研数据知识库的质量水平,同时也日益成为数据知识库建设和资助机构提升竞争力的必然要求。在开放科学背景下,科研数据知识库质量控制的提升策略是建立在科研数据知识库质量控制实践活动中的,需要有效地解决目前数据质量控制面临的种种问题。一是加强质量控制的技术支持,开发出功能更加丰富的数据管理工具;二是探索开放同行评审的新模式,提高数据审核的效率;三是提高数据管理人员的专业素养,降低因为人为原因造成的数据质量低的问题。

因此,科研数据知识库的质量控制不仅需要国家层面的支持还需要每一个利益相关者之间的沟通和协作,并结合我国国情的实际需要和数据知识库的功能定位标准,利用国外成功的经验,建立一个比较完整的科研数据知识库质量控制体系,同时这样也会促进世界范围内开放科学运动朝着纵深方向发展。

猜你喜欢
知识库质量
汉语近义词辨析知识库构建研究
“质量”知识巩固
二年级下册期末质量检测(一)
质量守恒定律考什么
做梦导致睡眠质量差吗
质量投诉超六成
卫星状态智能诊断知识库设计方法
机构知识库建设的动力研究
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
睡个好觉