科学数据分类研究述评

2020-05-12 07:51黄国彬
图书馆论坛 2020年5期
关键词:权威性使用者维度

闫 鑫,黄国彬

0 引言

近年随着信息技术普及,以数据密集型科学发现为主的科学研究新范式兴起。国内外关于科学数据概念的界定有很多,本研究认为科学数据是指在科技活动中(实验观测调查等)或通过其他方式所获取的反映客观世界本质特征变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集。科学数据因其实用性、经济性、珍稀性等特点有极高的利用价值。作为科技论文的核心论据,科学数据的传播引用已越来越受到重视。科学数据作为科学研究中重要的科研资源正逐渐成为学界研究关注的热点。

当前有关科学数据分类体系的研究较少,而研究科学数据分类有利于促进对科学数据的组织,让科学数据的管理更加有序。研究科学数据分类,有利于完善科学数据的检索分类,使科学数据能通过更多更有效的渠道被检索发现;有利于完善科学元数据的设计,构建更完整有效的元数据框架体系;能够推动揭示科学数据的特殊性与差异性,更方便科学数据的管理;对科学数据的管理机构、研究机构、高校以及科学数据发布平台等机构开展科学数据的管理有直接的帮助。本研究对国内外目前关于科学数据分类的文献内容进行梳理归纳,评析当前科学数据分类维度与分类结果,以期进一步提升对科学数据的管理与使用水平。

1 国内外研究现状

1.1 数据获取情况

笔者以“科学数据”“科研数据”“研究数据”为关键词在中国知网、Web of science 与Scopus等数据库进行文献检索。经过对检索得到的文献结果进行整理与分析,以了解当前研究中科学数据的分类方式与分类结果的研究现状。国内研究方面,2019年3月21日,笔者在中国知网图情领域上,以“科学数据”“科研数据”“研究数据”为篇名检索词,通过浏览文献中关于科学数据定义与类型等模块的内容,去除分类混乱或者表达不明晰的文献,最终筛选出介绍科学数据分类维度和分类类型的文献共94篇。国外研究方面,2019 年3 月22 日,笔者分别在Web of science 与Scopus 两个数据库以“science data”“researchdata”“data types”“data forms”“data classifications”“data genres”为检索词,浏览与科学数据分类相关并且去分类混乱或者表达不够明晰的文献,最终筛选出介绍科学数据分类维度和分类类型的文献共86篇。本文调研国内外关于科学数据的文献中提及科学数据分类与类型的文献共180篇。这些研究中,有具体介绍科学数据不同的分类方式与分类结果的文献不足30篇,其余均简略地提及某一种分类方式,后续论文中关于文献数量的统计均与上述两次检索时间一致。目前研究中提及科学数据分类类型的文献内容所占篇幅较少。可以看出当前学界对科学数据分类情况的相关研究关注较少,关于科学数据分类的研究有待深入。

1.2 科学数据分类研究现状

目前科学数据的分类方式大多从科学数据内容相关性、数据完整性与数据可靠性等角度进行划分,对依据科学数据其他性质如数据权威性进行分类的研究较少。常见的科学数据分类方式包括:(1)内容相关性。指科学数据所在的领域与使用者需求内容所在领域的匹配情况。周力虹、Borgman等从与科学数据相关的内容领域对科学数据进行分类[1-2]。(2)数据完整性。指在整个科学数据生命周期中数据内容保存的准确与完整。Palmer、公晓从数据内容类型与数据格式类型完整的角度对科学数据进行分类[3-4]。(3)数据可靠性。指数据来源渠道的可靠性与数据处理过程中数据的准确性与时效性。周倩、Lan Z等从科学数据获取的来源渠道的可靠程度等角度对科学数据进行分类[5-6]。(4)数据权威性。指一些科学数据因内外部因素影响而具有代表性、典型性。李志芳等以不同类型组织机构的权威程度不同的思路出发,按组织机构类型对科学数据进行分类[7]。另外,Sinnott 等人基于科学数据的开放程度对科学数据进行分类[8]。

针对科学数据分类方式与分类结果,当前研究欠缺从使用者的思维逻辑角度出发,依据使用者选择数据的判断过程作比较系统的考虑。科学数据使用者的思维逻辑是指使用者在选择匹配自己需求的科学数据时进行判断与筛选的逻辑过程。

使用者的目的不同,对科学数据的需求也不同。笔者结合选择科学数据过程的经验,一般情况下使用者选择科学数据时会首先考虑科学数据的内容与需求的相关程度,其次是科学数据的完整程度,接着是科学数据的准确程度与时效性等角度,最后会考虑科学数据的权威程度等。在有多种科学数据可供选择的情况下,使用者会倾向于选择具有权威的科学数据。

目前关于科学数据分类的研究中较多是单从某一个或某几个性质出发对科学数据进行分类,而不是按照科学数据使用者的逻辑判断顺序系统地对科学数据进行分类与管理。本文对当前科学数据分类情况进行分析与述评,梳理科学数据的分类体系,以期为科学数据的元数据设计与面向科学数据的智能检索等提供有价值的理论支撑。

图1 科学数据分类维度

2 研究方法

首先,通过整理筛选出的国内外文献的分类维度和分类类型,一共总结出13 个分类维度。其次,按照分类维度对所提及的文献进行统计。由于有些文章含有多个分类维度,所以会出现一篇文章在不同分类维度中被多次统计的情况。最后,按照13个分类维度,依次对相应的研究分类情况进行整理、分析与述评,以期对当前科学数据分类研究有综合性的梳理总结。

对科学数据进行分类是为了更好地组织数据与使用数据。使用科学数据时,使用者有自己的逻辑判断顺序,会考虑数据的内容相关性、数据完整性、数据可靠性与数据权威性等性质来选择合适的数据。科学数据分类也可以从科学数据的这几个性质出发,按照不同维度对科学数据进行分类。通过研究按照科学数据的性质进行分类的文献内容,也可以反映出当前使用者在使用科学数据时优先考虑顺序的。

3 科学数据分类体系

3.1 科学数据类型划分框架

通过对当前国内外科学数据分类相关研究的梳理,本文从科学数据内容相关性、数据完整性、数据可靠性与数据权威性等4 个角度出发,对13个科学数据分类维度进行评析。梳理总结得到的科学数据分类维度如图1所示。依据4个性质梳理总结出13个科学数据分类维度。其中白色框图的维度是当前研究中已提到的分类维度,灰色框图的维度是当前研究中还没有提到但出于更好地管理与使用科学数据等目的,本文建议补充的科学数据分类维度。图1展示的4个科学数据性质与13个科学数据分类维度的涵意介绍如下:

(1)内容相关性。科学数据内容相关性是指科学数据内容所在领域与使用者需求内容所在领域的匹配情况。科学数据的学科是指科学数据所在的科学研究领域。科学数据的主题是指研究专业、行业、领域中具体研究某一方面内容所形成的特征词汇。

(2)数据完整性。科学数据完整性是指在一个细分主题下的分类通用的完整性,体现在某一维度下子主题的完整性,常见如时间、地理、手段以及对象等。从计算机可处理角度对科学数据分类是指依据科学数据的内容特征与结构特征,从科学数据可被计算机处理的科学数据类型角度出发的一种分类维度。科学数据的出现位置是指科学数据生成、处理与存储所在的位置及其载体形式。从分类后可涵盖研究对象全样本的角度对科学数据进行分类是指科学数据通过某种划分方式分类后,分类结果总体可涵盖全部科学数据。按科学数据的地理维度分类是指按科学数据所在的空间范围进行不同维度的分类。按科学数据的时间维度分类是指按科学数据出现的时间范围进行不同维度的分类。

(3)数据可靠性。数据可靠性包括数据准确性和数据时效性,在数据完整的基础上保证数据质量,使更多优质数据被发现与利用。科学数据获取是指获取科学数据的方法、途径。科学数据的来源是指产生科学数据的系统或包含数据的记录集,科学数据的获取方法是指获取科学数据采用的技术手段。科学数据处理是指按照不同的需求采用不同的方式和工具对科学数据进行加工处理的过程。

(4)数据权威性。科学数据权威性是指数据代表性和典型性。权威性数据具有辐射性广、实用性大、论证性强等功能。依据科学数据组织机构分类属于依据机构权威程度对科学数据进行分类。数据被引情况是指搜索者使用数据搜索引擎即利用现有的数据库,根据自身需求检索并引用数据的情况。依据科学数据的资助机构对其进行分类,可以反映科学数据的权威性程度与影响力范围。根据科学数据发布人的权威性对科学数据进行分类,也可以反映出科学数据的权威性程度。

3.2 当前研究中科学数据类型的分类维度剖析

3.2.1 内容相关性

科学数据的内容相关性越高,科学数据内容与使用者需求内容的匹配程度越高,说明越符合使用者的需求。通过文献阅读梳理,表1为依据内容相关性对科学数据分类的文献及其分类结果。

(1)学科。本研究中国内研究科学数据按学科分类的文献共24 篇,国外研究的文献共12 篇。全学科分类是指对所有学科进行分类。对具体学科进行分类是针对某一具体学科进行分类。由表1可以看到,提出学科分类依据对科学数据进行分类,保证了不同学科间使用数据时的通用性与互操作性;列举部分学科名称进行分类是依据普遍常见的学科进行总结归类。结果种类较多,不够统一,提出学科分类依据的划分方式更具有普适性。

国内外研究对比,从分类方式看,全学科分类角度中,国内外分类相似,国外研究比国内研究较少提出学科分类依据。从分类结果看,国内外研究在全学科角度分类中较为相似,具体学科角度分类根据学科特点而不同。

(2)主题。本研究中国内研究科学数据按主题分类的文献共8篇,国外研究共20篇。目前研究中,分类方式不够统一,比较杂乱。按科学数据外部特征分类方面,钱鹏等[18]基于科学数据元数据中描述其外部特征的项进行分类维度的划分。这种方法对科学数据的分类就会比较全面,且获得数据时也具有通用性与可操作性。还有些其他研究列举科学数据的可分类的外部特征项,这种方式不够全面与系统,建议可直接依据元数据外部属性项确定划分方式。另外,还有研究专门针对社会属性这一外部特征进行分类,这是一般元数据协议时不会设置的元数据项,建议根据研究需要与事先调研,补充其他的元数据标准中没有涉及但研究需要的科学数据外部特征,进而对科学数据进行分类。

国内外研究对比,从分类方式看,国内研究依据科学数据的内容特征与外部特征进行分类,而国外研究更关注依据内容特征,从某一具体主题进行分类,按外部特征进行分类的研究 较 少 。 Showalter 等[20]、 Henderson 等[21]和Wulbrecht等[22]分别对行星数据、癌症数据与生命科学数据等具体主题进行分类。从分类结果看,国外研究专指性较强,依据主题特点不同分类结果也不同。

3.2.2 数据完整性

完整的科学数据在数据集合中有较全面的数据,能完整地描述数据情况以支持各种统计分析等应用。在使用者选择科学数据时,完整性数据有助于使用者正确地进行分析与决策,缺失数据可能会对决策带来干扰甚至误判。通过文献阅读梳理,表2为依据数据完整性对科学数据分类的文献及其分类结果。

(1)计算机可处理。本研究中国内研究科学数据按数据内容类型分类的文献共27篇,国外研究共31篇。科学数据的内容类型是指表达数据内容的基本交流形式的类别以及数据内容被使用者感知的感官类别。科学数据的格式类型是指结合数据内容的浏览、播放、运行等活动所需设备的类型,其反映数据存储媒介格式以及数据载体装置的类型。按科学数据内容类型分类的研究对科学数据分类结果多样,建议按照公晓[4]的分类结果,根据研究需求与研究领域科学数据特点,建立科学数据内容类型划分标准。按科学数据格式类型分类的研究可以看作是基于数据内容类型的数据存储硬件类型的分类。卫军朝和蔚海燕[38]的分类结果有些简略。

表2 依据数据完整性的科学数据分类结果

国内外研究对比,从科学数据内容类型看,国外研究主要从基本科学数据内容类型和具体领域科学数据内容类型等两个类别进行分类,且更多的研究是从具体类型列举展开。从科学数据格式类型看,国外一些研究会提出具体分类依据,如 Blower 等[39]与 Koziana 等[40]列举了 NetCDF、HDF、Sensor和ASCII FIT等数据格式;分类结果方面,国内研究比国外研究有更多更详细的分类类型。另外,国内研究比国外研究更经常提及列举具体格式。

(2)数据出现位置。本研究中国内研究科学数据按数据存储位置分类的文献共7篇,国外研究共4篇。科技文献出现位置分类角度,张迎等[30]的划分方式是依据科学数据出现位置与文献相关联的类型进行划分,这种方式比单纯考虑与文献关系要更加详细描述科学数据在文献中的作用。数据库中存储位置分类角度,张新兴[31]提出按照科学数据出现的位置尽量全面列举来分类。

国内外研究对比,从分类方式看,科技文献出现位置分类角度中较少有文献内部的分类方式;从分类结果看,国内研究比国外研究有更详细的分类类型;从研究数量与分类方式结果等可以看出,按照科学数据存储位置分类国内研究比国外研究更深入。

(3)分类结果涵盖研究对象全样本。从这个角度出发对科学数据进行分类可以体现科学数据的完整性。关于科学数据,从分类后可涵盖研究对象全样本的角度对科学数据进行分类常见的具体分类维度有科学数据结构化程度。科学数据的结构化程度是指数据梳理的标准规范化程度,其反映的是对科学数据进行描述与揭示的字段的丰富程度。本研究中国内研究科学数据按数据内容类型分类的文献共5篇,国外研究共4篇。国内外研究对比,分类方式与分类结果都较为一致,均按照科学数据结构化程度将其分为结构化数据、半结构化数据以及非结构化数据等。

(4)地理维度。在自然地理方面,数据的地理维度是指数据的自然区域,可分为综合自然地理区以及对数据所在区域按某一自然要素分区。在行政地理方面,数据的地理维度是指数据的政治经济区域。不同范畴的数据区域,其性质和数据范围也不同。本研究中国内研究科学数据按区域分类的文献共4篇。常见的从自然地理维度分类分为青藏高原科学数据、极地科学数据等,这种划分方式是列举常见的自然区域科学数据,不够全面系统。常见的从行政地理维度分类分为省市级的科学数据,这种划分方式也是列举常见的行政区域科学数据,不够全面系统。但是由于行政地理已有划分好的行政区域,所以便于系统地组织按照科学数据行政区域分类的结果类型。张新兴[41]提出从空间位置维度,通过地球系统科学数据共享平台提供即点即找检索功能,即通过在页面中点击空间位置进行数据的查找。

通过文献调研发现,目前关于按照地理维度对科学数据进行分类的研究较少。按照地理维度对科学数据进行分类,可以更好地保证科学数据的空间覆盖完整性,并且找到更有地理位置针对性的科学数据资源,有利于使用者筛选出更完整优质的又满足自己需求的数据资源。

3.2.3 数据可靠性

在使用者选择科学数据时,数据越可靠越有助于使用者分析后得到可靠的结果。当前研究中按科学数据可靠性划分的维度包括获取数据过程的可靠性与处理数据过程的可靠性等。数据获取强调数据来源渠道的可靠性,数据处理强调数据处理过程的可靠性。通过文献阅读梳理,表3为依据数据可靠性对科学数据分类的文献及其分类结果。

(1)数据获取。本研究中国内研究科学数据按数据获取过程可靠性分类的文献共35篇,国外研究共9篇。目前按照科学数据获取分类的研究中,按数据生成方式分类是指按照数据生成的方式对科学数据进行分类,这种分类方式是基于科学数据获取方法总结补充产生。按数据来源渠道分类是指按科学数据获得的来源途径对科学数据进行分类。由表3可以看到,目前研究中按照数据生成方式分类的研究较多且分类结果较统一全面,其主要依据数据生成方法进行归类。而当前按照数据来源渠道分类的研究较少,且分类结果比较杂,主要是列举获取相关研究领域科学数据的渠道,缺乏统一的数据来源渠道划分标准。

表3 依据数据可靠性的科学数据分类结果

国内外研究对比,从分类方式看,国外研究较少关于基本类型的分类方式;从分类结果看,国内外按科学数据获取分类的研究均较多,且常见分类结果相似,互有补充。

(2)数据处理。本研究中国内研究科学数据按数据处理分类的文献共20篇,国外研究共6篇。从资源利用角度对科学数据分类是指依据数据不同阶段的利用价值不同而对数据进行分类:从生产阶段角度对科学数据分类是指对数据从产生到最终整个生产过程进行划分。由表3 可以看到,目前研究中按照资源利用与生产阶段对科学数据进行分类的分类结果重叠部分较多,分类结果相似度较高。本文认为当前研究对其分类太过细碎与重复,分类结果可统一为原始数据、加工数据与最终数据。另外,依据处理层次对科学数据进行分类强调的是科学数据获得时被加工的状态,当前研究中依据处理层次对科学数据分类的研究较少。

国内外研究对比,国内研究调研并借鉴国外研究分类方式。国内外研究相互交流,所以从分类方式与分类结果来看,国内外研究均较为相似。

3.2.4 数据权威性

在使用者选择数据时,考虑数据权威性有助于数据使用结果更有典型性和代表性。当前研究中按科学数据权威性对科学数据进行分类的研究较少。通过文献阅读梳理,表4为依据数据权威性对科学数据分类的文献及其分类结果。

科学数据的组织机构是指发布和使用科学数据的单位。当前国内外研究对科学数据按组织机构分类的文献较少。本研究中,国内相关研究按组织机构分类的文献共7篇。目前国内多数学者按常见的组织机构对科学数据进行分类,但却缺乏统一的组织机构划分标准。另外,目前研究行业内组织机构类型不够完善,建议行业内组织机构可按科研、企业、高校、政府机关等维度进行划分。

国内外研究对比,国外比国内从科学数据组织机构分类的研究少,总体来看,科学数据从组织机构角度进行分类的研究比较缺乏。

表4 依据数据权威性的科学数据分类结果

4 研究发现

当前有关科学数据分类的研究,主要基于科学数据的内容相关性与数据完整性等角度,而从科学数据的时间维度、数据被引情况、资助机构以及发布人等维度来进行科学数据类型划分的研究仍未出现。如图1所示,灰色框图是本文建议补充的科学数据分类维度。本文依据科学数据性质依次对建议补充的科学数据分类维度进行评析。

4.1 数据完整性

(1)时间维度。时间维度对科学数据分类与管理、选择优质科学数据是一个重要的影响因素。首先,时间连续性对有些研究十分重要,例如化学实验中,实验室获取的原始数据需要是从实验开始到突变再到实验结束这整个时间段的全纪录,如果缺失了某部分实验数据就可能影响整个实验的分析判断。另外,不同时间段对研究的开展与分析也有深远影响。历史上不同时间阶段的器物上的化学物理数据均可反映其所在时间阶段的发展特征,时间阶段对于历史研究十分重要。使用者比较关心科学数据的时间连续性与阶段性,但是目前研究中关于按照时间维度对科学数据进行分类的划分方式比较少,对于科学数据的分类方式还有待于进一步完善,并且对于科学数据的充分利用还有待于进一步提升。

(2)分类结果涵盖研究对象全样本。当前研究中从分类结果涵盖研究对象全样本角度对科学数据分类的分类维度,只有按科学数据结构化程度这一个维度。实际上考虑分类结果涵盖科学数据全样本的分类维度还有很多,有待于进一步发现。

4.2 数据权威性

当前研究中按科学数据权威性对科学数据进行分类的研究较少。依据科学数据管理与科学数据筛选过程,本文认为,从数据权威性的角度进行分类,可以从科学数据的机构权威程度、数据被引情况、资助机构与发布人等维度考虑。

(1)机构权威程度。科学数据分类可以根据其所在机构权威程度进行分类,进而揭示科学数据的权威性程度及影响力范围。上述科学数据按组织机构分类属于依据机构权威程度对科学数据进行分类,但当前关于按组织机构对科学数据分类的划分方式与结果还不够完善,有待进一步的发展。

(2)数据被引情况。数据被引情况包括获取某个数据仓储、机构或个人的数据被引情况。数据被引情况可以反映出数据的影响力程度,按照数据被引情况对科学数据分类可以更好地组织影响力范围更广的数据,帮助使用者使用优质数据。但目前按照数据被引情况对科学数据分类的研究较少,难点在于数据被引渠道的标准化以及数据被引量级的确定。

(3)资助机构。按照科学数据的资助机构对其进行分类,可以反映科学数据的权威性程度与影响力范围。当前研究中主要是针对资助机构资助的科研项目规模对科学数据进行分类的。科学数据的产生有一部分来源于科研项目。按照科研项目的规模可以对科学数据进行分类。当前研究中科学数据按照其项目规模可分为两类:一类源于大科学研究,大都有着完善的管理与维护机制;另一类源于小科学研究,往往存储于研究者个人计算机和服务器中,缺乏统一标准与分享机制,更缺乏长期利用和共享策略。目前高校、科研院所等的研究实践更具小科学研究的特点,急需有效的数据转换、保存、组织与管理服务机制[2,46-47]。

(4)发布人。发布人权威性评价指标包括其所属机构、职称以及学术权威(包括研究数量与质量等)等。根据科学数据发布人的权威性对科学数据进行分类,有利于从创建者角度对数据权威性程度进行划分。但目前按照科学数据发布人对科学数据分类的研究较少,难点在于发布人权威性评价指标的标准化以及各指标量级的确定。

5 结语

通过对国内外科学数据分类的文献梳理后,可以发现当前从内容相关性与数据完整性等角度对科学数据分类的研究较多,而从数据权威性角度对科学数据分类还没有引起学界足够的关注。另外,当前研究也较少从数据完整性中的时间维度出发对科学数据进行分类。

关于科学数据分类维度与分类结果的国内外研究对比,可以发现:(1)依据内容相关性与数据完整性对科学数据分类的国内外分类维度与分类结果相似,国外研究比国内研究更注重具体领域内的科学数据分类。(2)依据数据可靠性对科学数据分类,国内研究比国外研究深入,分类维度更多。国内外研究关于科学数据分类方式会相互交流、互相补充,并且数据可靠性是研究数据质量学者常会关注的问题,在科学数据实际应用中,数据平台设计者也会通过系统方式控制。(3)国内外研究中,依据数据权威性对科学数据分类的研究均较少。除了国内比国外研究关于依据科学数据组织机构分类的研究更多以外,其余的维度国内外研究均较少开展。

关于从使用者思维习惯的角度对科学数据分类,对目前科学数据分类研究的文献整理总结可以发现:(1)当前的科学数据分类体系部分体现了使用者的思维逻辑。首先考虑的是内容相关性、数据完整性与数据可靠性角度的科学数据分类维度较完善,之后考虑的数据权威性角度的科学数据分类维度较少。(2)本文调研的依据科学数据性质分类的文献数量反映了使用者的思维习惯。目前研究反映了使用者选择科学数据时的思维逻辑顺序,从内容相关性与数据完整性等角度开展科学数据分类的研究已较多,关于顺序靠后的从数据权威性角度开展科学数据分类的研究还有待进一步深入。

随着科学数据的发展,对科学数据的分类组织不再只是为了更全面完整地管理科学数据,还需要从数据质量、数据影响力以及数据权威程度等角度对科学数据进行分类组织。通过完善科学数据分类体系,有助于构建更完整有效的元数据框架体系,有助于完善科学数据检索系统及其索引目录,有助于推动揭示科学数据的特殊性、差异性,以便从更多维度、更好地管理科学数据。

猜你喜欢
权威性使用者维度
设计让您在喜爱的虚拟世界中自由奔跑
理解“第三次理论飞跃”的三个维度
认识党性的五个重要维度
浅论诗中“史”识的四个维度
新型拼插休闲椅,让人与人的距离更近
民主的悖论
抓拍神器
哲学百科全书的经典之作
人生三维度
梦乡床