美国地质调查局数据管理机制及启示

2019-09-18 06:09赵辉
数字图书馆论坛 2019年7期
关键词:数据管理出版物信息

赵辉

(中国科学技术信息研究所,北京 100038)

收集、管理和使用科学数据对国家科技创新和社会发展具有重要战略意义。政府部门及相关机构是科学数据产生的重要机构[1],建立高效的科学数据管理与共享机制是提升科学数据利用率和创新效率的关键所在。美国政府部门及相关机构在科学数据管理机制构建方面具有成功经验,美国地质调查局(USGS)是科学数据收集、管理和共享服务的重要机构之一,遵循美国科学数据共享的法规和制度,致力于生态、气候、土地使用变化、能源和矿产资源、环境健康、自然灾害、水资源领域的数据资源开放和共享,对其进行研究可以为我国政府部门制定科学数据管理政策、构建科学数据管理机制提供参考。

1 USGS的数据管理政策

1.1 政策依据

USGS在1879年建立之初,就签署了各种与数据管理与共享相关的民事法案(《美国法典》,第20页、第394~395页),授权USGS向社会公布其从事科学活动的数据和发现。

USGS将公开出版物、地图、数据和模型都归入数据管理范畴,将公开出版物、地图、数据和模型统称为数据产品,并保证公众所获得的产品在技术上是合格的,且经过同行评议。对于这些产品,USGS坚持严格的开发、审查、批准和发布政策、标准及程序。2013年2月22日,美国科技政策办公室(oSTP)发布备忘录——“增强对联邦资助科学研究成果的访问”[2],号召所有年度研究与开发支出超过1亿美元的联邦机构来共同执行一个计划,提高联邦资助所形成的直接科学研究成果(包括同行评议出版物和数字化数据)的开放获取。美国内政部2015财年全部年度研究与开发预算资金为9.25亿美元,其中,74%(6.86亿美元)分配给了USGS,其余部分分配给了其他的内政部门。在6.86亿美元中,超过10%(约7 000万美元)分配给了非USGS下属的研发团队[3]。这些资金所形成的研究成果都属于oSTP所提出的数据开放获取计划的管理范围,具体包括3部分:①USGS资助的科学研究活动,或者是由USGS管理的科学研究活动所形成的数据成果;②USGS主动发布的数据成果;③USGS科学家,或者承担USGS资助研究活动的科学家对外发布的数据成果。

1.2 版权规定

2013年开始执行的开放数据获取计划规定,2013年及其以后执行的所有研究活动所形成的信息产品的电子拷贝须于正式发行日期后的12个月内向公众提供免费查阅服务。该电子拷贝既可以是被接受的最终稿(AM),也可以是最终出版版本。出版物的支持性数据优先于出版物出版日期,或与出版物出版日期同步向公众发布,公众可免费获取。此外,与USGS资助研究相关的最终数据免费提供给公众。被开放获取的信息产品全部经过同行评议[4],包括关联数据[5-8]。在所有媒体上发布的数据,无论是否由USGS发布或出版[9],数据作者可以是全职、兼职、志愿者,也可以是退休人员[10]。但是,数字化的科研数据如遇特殊情况不能公开,需经审批同意。例如,如果科研数据中包含濒危物种的位置数据,则不能公开。开放数据获取计划还要求所有新的研究方案必须包含正式的数据管理计划(DMP)。2015年2月起USGS内部的科学家必须遵守这一要求,从2016年1月开始,所有承担USGS研究项目的外部科学家也必须遵守这一要求。

美国的无形财产管理政策为联邦资助机构提供了一项权利,即在复制、出版或以其他方式使用信息产品时,免版税、非独家、不可更改。为了联邦目的,也可以授权他人进行以上出版和复制活动。同时,依据美国法律,联邦政府具有:①获取、复制、发布或以其他方式使用联邦资助所产生的数据;②授权他人接收、复制、发布或以其他方式使用这些数据。

2 数据开放的管理机构及信息系统

2.1 数据管理机构及其职责

USGS负责数据开放获取的具体机构包括6个。①科学质量与诚信办公室(the Office of Science Quality and Integrity)制定数据开放相关政策,监督政策执行。②通信与出版办公室(the Office of Communications and Publishing)负责编辑、制作、准备、发布USGS所属的系列出版物。③核心科学系统任务区(the Core Science Systems Mission Area)负责USGS出版物仓库(USGS图书馆系统的一部分)、USGS科学数据目录和数据仓库,创建和管理USGS数据管理网站的数据集成社区。④企业信息办公室(the office of Enterprise Information)负责管理特定的存储库和档案。⑤美国地质调查局的科学中心主任(USGS Science Center Directors)负责确保科学家向科学中心提供数据,遵循USGS的基本科学实践。⑥收购和捐赠办公室(Office of Acquisition and Grants)负责向USGS以外的科学家提供研究资金,要求这些科学家创建数据管理计划,并向USGS交付发表手稿的数字版本和相关数据。

2.2 数据出版系统及其关系

为了保证数据开放政策的落实,USGS将数据开放所涉及的信息系统进行了统一规划,引入了如数字对象唯一标识符(DOI)等信息管理机制,建立了对外公开的网络接口。USGS对外公开与服务的信息系统架构示意图如图1所示。USGS还对信息系统架构中所涉及的系统名称进行了定义。

(1)黑色档案(Dark Archive):指不能被开放访问的档案。黑色档案的建设目的是作为一种信息保存,用于灾难恢复的保护措施。让一份文档“光明化”指将其从黑色档案系统中提取出来,放在公众可访问数据库中。

(2)外部出版物(External Publications):指任何被非USGS实体所发布的USGS信息,包括但不限于科学杂志、专业团体卷宗、合作代理的出版物和大学或商业出版者。

(3)基础科学实践(Fundamental Science Practices,FSP):是USGS政策中规定的一套强制性要求,描述了由USGS科学家主导地发表科研结果、发布数据的同行评审过程。

(4)信息产品(Information Product):一件信息产品显示了科学知识(发现、事实或它的解释),通过演讲、文本、图形或地图被交流,以任何媒介(如印刷、数字化、Web、视听)送达到明确的受众或客户。既包括出版物,也包括数据。

(5)科研数据(Research Data):记录下来的事实材料,被科学界认为可以用于验证研究发现。事实材料不包括初步分析、科学论文草稿、未来研究计划、同行评议或与同事交流的记录等内容。这种“记录”材料也不包括物理对象(如实验室样品)。

(6)学术出版物及相关科研数据(Scholarly Publications and Associated Research Data):指任何展示USGS资助的研究成果的出版物,以及与该研究相关的任何数据。这些数据或者包括在出版物中,或者是独立的数据集,但其可以指向学术出版物。

(7)USGS信息产品数据系统(Information Product Data System,IPDS):内部的USGS IPDS是一个基于Web的应用程序和黑暗文档,它记录和跟踪FSP下的信息产品的审查、批准和传播。IPDS还向USGS出版物仓库提供了用于创建引用的书目元数据。IPDS作为一个黑暗的信息产品档案,目前还没有公开发布。IPDS收藏了USGS资助的出版物上接受的手稿。如果在信息禁止发布期结束后出版商未能提供开放获取,IPDS将向USGS出版物仓库提供副本,以满足开放获取要求。

(8)USGS科学数据库(USGS ScienceBase):是一个数字存储库和协作数据管理平台,提供对机器可读数据和元数据的开放获取。ScienceBase还充当一个跨计划的机构存储库,确保对联邦资助的研究结果进行长期管理。ScienceBase允许科学家以任何文件格式提供新的和原始的数据内容,为某些类型的格式提供高级访问和集成功能(例如,通过开放地理空间联盟Web服务提供shapefiles和GeoTIFF文件)。ScienceBase的设计目的是为项目团队提供安全开发和数据管理的功能,并促进对公开发布数据的最终审查和批准。

(9)USGS科学数据目录(USGS Science Data Catalog):是一个USGS科学数据的开放搜索和发现工具。元数据可以通过USGS科学数据目录从USGS任务区和计划获得。USGS数据管理员通过科学数据目录仪表板应用程序向科学数据目录提供元数据,并提供各种汇总报告。

(10)USGS出版物仓储(USGS Publications Warehouse):是由USGS图书馆管理的在线引文索引,可以访问USGS出版物的权威信息源。每个出版物都有一个动态生成的描述性引用页面。出版物仓储编目团队基于各种来源的数据构建和维护记录,包括IPDS、USGS科学出版网络页面和公告以及其他书目数据库。出版物仓库站点的构建方式允许Web搜索爬虫程序轻松索引,并提供基本和高级搜索功能。出版物仓储还提供许多不同的Web服务,包括可定制的RSS提要和Mods XML服务。

(11)USGS系列出版物(USGS Series Publications):指系列编号的信息产品,每个系列都是为了满足特定的受众需求,由USGS自行制作,并在USGS网站上免费发布。

图1 USGS学术出版物和数字化科研数据开放与出版体系示意图

2.3 具体管理规定

2.3.1 对学术出版物的规定

在完成同行评审、USGS批准和生产之后,学术出版物被提交到USGS出版物仓储,以PdF和XML格式进行编目和开放出版。

学术出版物最终手稿的全文被保存在IPDS系统中。IPDS是国家档案及记录管理(National Archives and Records Administration)数据仓储的一部分。这个数据仓储是所有美国国家资助所形成的信息产品的黑暗档案。IPDS中收录了所有USGS资助外部科学家所形成学术出版物的电子拷贝。内部科学家的出版物由科学家自己存入IPDS。承担USGS资助的研究项目的外部科学家的出版物由负责USGS外部项目的科学家存入IPDS。

一经出版,所有USGS对外出版的系列出版物和学术出版物都将在USGS出版物仓储中进行编目。相关的数据也要同步或提前于“AM”或“PoR”的出版,在USGS科研数据目录中进行编目。链接会提供所有信息产品的全文和访问类型(开放获取或仅订阅者可获取)。

USGS与美国开放科研管理中心(Clearinghouse for the Open Research of the United States,CHORUS)签有协议,规定如果非USGS的出版物刊登了USGS资助研究所形成的出版物且该出版物与CHORUS有服务协议,CHORUS就要向USGS进行通报在该出版物上发表USGS资助成果的信息。这些USGS以外的出版物及其元数据要在USGS出版物仓储中进行编目,并在出版商网站上提供全文链接,在时滞期后会提供免费开放获取。

对于那些不能通过CHORUS获取全文的出版物,或时滞期超过12个月的出版物,存储在IPDS黑暗档案中的手稿会通过USGS内部服务器公之于众,并可通过USGS出版物仓储获取。

2.3.2 对数字化数据的规定

在经过质量保证、质量控制、正式描述、审查和批准后,与USGS学术出版物相关的数据既可以包含在出版物中,也可以作为一个独立的数据实体发布。

与USGS学术出版物相关的数据,以及其他获准出版的数据都需将数据内容、所需的数据管理水平和所需的传播方法提交到USGS内部数据存储库中。为了提高服务能力,用户访问的是一个可信的第三方分布式存储库,但数据的权威版本由USGS保存。描述数据的元数据全部被编入USGS科研数据目录库,以此提高了开放发现的一致性。

USGS数据在基础科学实践框架下进行审批,一旦批准发布,公众就能以恰当的形式免费获得数据。

USGS对于科学库中的系列出版物和数据集、其他数据存储库以及期刊出版商分配和注册了数字对象标识符(DOIs),以提高信息产品访问的便捷性。

2.3.3 对及时访问能力的规定

USGS出版物数据仓库提供对其系列出版物最新文献和历史文献的及时搜索、发现和访问,用户可以免费进行PDF格式的下载。出版物仓储中编目的所有USGS的作者发表的非USGS所属出版物,也会在正式出版后即刻提供全文链接。出版物正式出版后12个月内,公众可以通过出版商网站或USGS网站免费阅读、下载和分析全文的电子版。无论任何时候,USGS都会提供所有经过同行评议的出版物的全文档案。

USGS鼓励公私协作,允许第三方轻松地从USGS出版物仓储和USGS ScienceBase中获取元数据记录和链接,这些记录和链接可用于外部发现和存储库系统。USGS参与了CrossRef和DataCite,使用DOIs来促进科研出版物和相关数据的访问。USGS为访问和提取元数据记录提供了多种选项,例如API,可下载的格式包括RIS、CSV、TSV、Excel、RSS和JSON。

为限制未经授权的访问和下载等行为,USGS的各个信息系统都不提供多个出版物和多个数据集的批量下载。USGS对出版物的线上服务商进行监测,如果发现非法的大规模复制和传播情况,USGS的法律办公室将会进行处理,并剔除该服务商。

3 科研数据的过程管理

对于研究、监测/观察项目产生的数据,绝大部分都可以通过USGS网站在线访问。有些数据(如国家水标尺网络监测数据)甚至提供实时数据服务。USGS确保开放的数据都符合《联邦信息安全管理法案》、隐私法和其他有关部门的政策规定,能够保护机密和个人隐私,维护恰当的私有利益、商业机密和知识产权,避免重大负面影响,保障国家的创新和竞争力。无论是USGS自行出版或与第三方合作出版,都选择使用机器可读、开放且符合数据标准的格式,提供完整的元数据以支持进一步的信息处理和传播活动。为保证数据质量,USGS建立了数据管理生命周期模型,按照科研数据生命周期模型对数据的生产、获取、分析、服务等活动进行管理和操作,具体如图2所示。

图2 USGS数据管理生命周期模型

科研数据生命周期模型描述了数据管理活动从开始到结束的各个阶段,包括计划、获取、处理、分析、存储和出版/共享,还包括一贯始终的元数据、管理质量和数据安全等活动。

明确的科研数据生命周期模型为USGS的数据活动提供了行动、操作或过程的纲要,良好的数据管理有助于提高数据资源的质量和价值,让科研人员可以重用这些经过精心管理的数据资源,这是整合数据和提升数据价值的关键。

科学数据生命周期模型中规定了科研人员和数据管理人员各自的角色和职责(见表1)。在制定数据计划和出版/共享数据阶段,科研人员和数据管理人员一起工作,其他阶段则主要是科研人员从事科研数据的相关活动。这样的规定有助于明确职责,也让科研人员清楚地知道可以在何处以及何时寻求管理人员的帮助。需要说明的是,每个项目的数据管理计划可以根据实际情况进行调整,而不是必须执行的规定。

表1 USGS科研数据管理的职责分工示意

数据管理活动与科研项目一起开始。在出版/共享数据之后,科研项目产生的科研数据和项目管理活动形成的资源可以被其他项目使用。

数据管理生命周期模型是USGS评估和改进科研数据管理政策和实践的依据,并据此确定需要的新工具和标准。

3.1 数据管理计划

生命周期模型的第一个元素是数据管理计划,旨在帮助科研人员确保考虑与处理项目数据资产相关的所有活动,从项目开始到出版和归档。在此阶段,应该评估、处理和记录模型的所有元素。大多数资助机构要求在提交项目申请书时提交数据管理计划。数据管理计划一般包括如何获取数据、使用适用的标准、确保足够的文档、提供免于损失的保护以及共享和保存支持其研究的数据。数据管理计划的每个部分都应该包括“为什么”。例如,对于元数据标准,不仅应该描述将使用哪个元数据标准,还应该描述选择该元数据标准的原因。

项目团队应该考虑方法、所需的资源(包括资金和人员)以及数据生命周期每个阶段的预期产出。参与制定数据管理计划的人员包括首席研究员、合作研究者、数据收集者、数据分析师、IT人员、建模人员、GIS人员和元数据专家。这些人员共同制订一个实用且有益的数据管理计划。

3.2 数据获取

第二个元素是收集,包括收集、生成、考虑和评估新的或现有数据以供重用的活动。水标尺数据、历史地图、地震学运动传感器输出、生物记录和卫星观测都是获得数据和信息的例子,这些数据和信息代表着USGS研究中各种各样的科研数据输入。在这个阶段要清晰定义所有权及所有权变更的历史信息,这是USGS策略和最佳实践的要求,有利于维护USGS信息产品的来源信息和完整性。

3.3 数据处理

第三个元素是处理新数据或先前收集的数据。处理活动包括:定义有效的数据元素;不同数据集的集成;提取、转换和加载;校正数据以进行分析。在此阶段,科研人员需要确认USGS的已有标准和工具是否可以满足项目需求,这些工作也有助于建立USGS的基础科研活动。

3.4 数据分析

第四个模型元素是数据分析,代表了探索和解释已处理数据相关的活动,从而对假设进行验证,获得发现,得到结论。分析活动包括总结、绘图、统计分析、空间分析和建模,用于产生科学结果和信息。在这个元素中,可以生成新的数据,跟踪数据版本的变更,并记录处理过程。分析期间的数据管理有助于提高数据分析活动的效率,保留对科学完整性至关重要的文档,并为将来的研究奠定基础。数据分析活动的输出是数据的解释或新数据集,通常以书面报告或机器可读格式发布。

3.5 数据存储

第五个模型元素是保存,指与存储数据相关的长期活动(远远超过项目生命周期),以确保数据的使用和可访问性。由于项目预算和时间压力,通常直到项目的最后阶段才考虑保存问题。而根据生命周期模型,在数据发布与共享之前,需要考虑如何长期保存数据。通常,在此时项目完成方与USGS的业务单位达成协议,以保存项目完成之后的数据。也就是说,获得联邦资助的科学家必须计划长期保存数据、元数据、辅助产品、与应用程序无关的存储格式和任何其他文档,以确保数据的可用和重用。所有由USGS资助产生的科研数据都必须保存。

3.6 数据出版与共享

在数据出版/共享阶段,将出版物同行评审概念与通过Web站点、数据目录、社交媒体和其他场所分发数据相结合。数据和信息的出版和传播是USGS的重要任务。同时也进一步明确,数据和传统出版物一样,都是科研成果,同样需要进行管理。

数据出版/共享前需要完成9项工作,包括定义数据文件的内容,使用统一的数据组织方式,使用稳定的文件格式,分配描述性文件名,保存处理信息,履行基本质量保证,提供文档,保护数据,以及保存数据。

需要为每个参数选择一种格式,并在元数据中解释这种格式,而且要在整个文件中使用这种格式。尽量选择和使用数据集的标准化格式。遵循5W1H的要求准备数据文档,说明谁收集数据、谁处理数据、谁撰写元数据、谁拥有数据、谁负责回答数据问题、谁负责数据销售;数据在哪里收集、在哪里处理、在哪里保存;数据是关于什么的,在什么项目支持下收集的数据,使用时有什么限制,质量如何,数据可以用在什么地方,测量了哪些数据,数据格式是什么;为什么要收集数据;何时收集的数据,何时处理的数据;如何收集数据,如何处理数据,如何访问数据,如何订购数据,获取数据的成本是多少,如何评估数据质量。

3.7 元数据及文档管理

元数据是数据发现的基础和保障。标题、描述和关键词等元素使用户能够基于主题搜索发现数据。空间和时间元素允许用户根据数据的地理位置或时间段发现数据。元数据也是理解和重用科研数据的关键。在数据开发时,科研人员最了解他们的数据集和创建数据集的步骤。随着时间的推移,对细节的记忆开始模糊,关于数据集的知识会慢慢淡忘。如果没有元数据记录,关于数据集的信息可能永远丢失,造成数据不可用。

USGS是美国内政部的研究部门,其任务是为其他机构的资源管理决定提供健全和中立的数据及数据解释。这些决定可能会引起争议,有可能往往会在法庭上受到质疑。必须充分记录做出这些管理决定的数据,以便使其透明和可复制,能够使第三方将这些点联系起来得出类似的结论。USGS规定,在批准和出版之前,元数据必须伴随所有USGS科研数据、软件和其他信息产品。这些元数据记录必须符合联邦地理数据委员会(FGdc)批准的标准之一。数据和元数据必须在出版前进行质量和完整性检查。在实际管理过程中,USGS建议让同一个人评审元数据和数据。一旦获得批准,这些元数据必须存入合适的机构目录和更大的系统(如DOI目录),并通过这些系统共享,DOI目录向管理和预算办公室及data.gov报告数据资产。最后,必须更新元数据记录,以反映更改,确保链接正常工作,并继续指向预期的文件。

USGS产生的大多数数据本质上是地理空间数据,因此,必须提供符合FGDC批准标准的元数据。地理空间数据不仅包括可导入地理信息系统应用程序的数据,还包括重要位置的野外照片和样本等数据。FGDC在1994年采用了数字地理空间元数据的内容标准,并在1998年进行了修订。2010年,FGDC通过了ISO 19115标准。到2015年,这一套标准文件包括ISO 19115-2,即图像和网格数据的扩展;ISO 19110地理空间特征编目标准和ISO 19119地理空间Web服务的内容标准;以及ISO 19139 XML实现模式。USGS并不支持一种标准胜过另一种标准,但要求使用其中一种标准来描述地理空间数据。

4 结语

USGS作为将数据管理和共享职责视为重要使命的政府部门,其对数据资源的认知和管理机制启示如下。

(1)出版物和数据集都是科学研究的成果,反应了研究成果的不同侧面,具有天然的联系,都具有很高的科学价值、社会价值和经济价值。作为其产出的重要部门,要进行一体化的设计和规划,建立两者融合集成的管理机制,使二者发挥更大的作用。

(2)需要建立项目管理与数据管理的集成化管理机制,使科学研究所产生的信息成果实现高效收集、管理和利用。项目管理与数据管理制度只有彼此独立,又相互依存,互为支撑,才能使数据管理活动得以制度化推广和应用。

(3)数据管理机制的成败关键在人,因此需要将人员的角色、定位和任务清晰划分。行政管理人员、数据管理人员和科研人员的关注点和职责不同,将基本职责和工作原则划分清晰,会更加有利于数据的高效管理和利用。

(4)数据信息与出版物信息相比更加复杂,领域差异性很大,管理过程中需要更多的标准,为了方便交换和共享,需要更加注重开放标准的建立和使用。

猜你喜欢
数据管理出版物信息
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
2017年出版物
订阅信息
Global analyses of sea surface temperature, sea ice, and night marine air temperature since the latenineteenth century
Arctic sea ice decline: Faster than forecast
2015 年出版物
展会信息