基于全球综合对地观测系统通用基础设施的科学数据共享研究

2013-03-22 02:54白玉琪狄黎平
中国科技资源导刊 2013年5期
关键词:数据服务服务中心分布式

白玉琪狄黎平

(1.清华大学地球系统科学研究中心,北京 100084;2.美国乔治梅森大学空间信息科学与系统研究中心,弗吉尼亚州费尔法克斯 22030)

基于全球综合对地观测系统通用基础设施的科学数据共享研究

白玉琪1狄黎平2

(1.清华大学地球系统科学研究中心,北京 100084;2.美国乔治梅森大学空间信息科学与系统研究中心,弗吉尼亚州费尔法克斯 22030)

全球综合对地观测系统旨在建立全球性的数据共享框架,为各国组织共享和使用对地观测资源提供技术解决方案。该系统的通用基础设施包括标准和互操作注册中心、组件和服务注册中心、分布式查询服务中心、资源门户4个部分。文章介绍各个组件的作用和相互间的关系,分析向全球综合对地观测系统提供共享资源的类型和技术流程,提出该系统对国内科学数据共享实践的启示。

对地观测资源;全球综合对地观测系统;通用基础设施;数据共享;观测资源管理

1 引言

国际对地观测组织(GEO)成立于2003年7月,是响应2002年世界可持续发展峰会提出的协调综合观测地球状况的紧急要求以及2003年5月八国集团首脑峰会(G8)提出的地球观测应是重要和优先行动的声明[1]。目前,该机构成员有88个国家、欧盟、67个国际组织和8个观察员。

2005年2月,GEO提出了建设全球综合对地观测系统十年工作计划(2005-2015)[2],旨在汇聚与共享GEO成员对地观测资源的贡献,在全球范围内建立一个对地观测资源的集成平台,并在农业、生物多样性、气候、灾害、生态系统、能源、健康、水资源、天气等9个社会受益领域内进行应用示范。2012年,GEO又建成了全球综合对地观测系统(GEOSS)的通用基础设施(GCI)[3]。目前,GEO成员一方面充分利用GCI在9个领域开展示范应用,另一方面也在继续改进和完善GCI。美国乔治梅森大学空间信息科学与系统研究中心(http:// csiss.gmu.edu)于2007年1月参与GCI工作,具体负责其中系统和服务注册中心的设计、实现、升级和维护。

本文将对这项研究工作进行总结,介绍全球综合对地观测系统的通用基础设施的组成部分及相互间的联系,分析了向GEOSS提供对地观测资源的类型,探讨已有对地观测数据系统与GCI系统集成的技术途径。最后,本文总结了这项研究对国内科学数据共享工作的可供借鉴之处。

2 全球综合对地观测系统的通用基础设施

2.1 系统结构

全球综合对地观测系统通用基础设施(GCI)的系统结构如图1所示。图1最下方是全球范围内分散的对地观测资源,比如各种网站和信息资源门户、信息资源的元数据服务、信息服务、各类文档以及信息资源列表等。它们由不同的信息资源提供者进行管理和维护。这些资源从逻辑上可以分为已经在GCI中注册的资源和没有注册的资源。

从图1可以看出,GCI包括4个组成部分:GEOSS标准和互操作注册中心[4]、GEOSS组件和服务注册中心[5-6]、GEOSS分布式查询服务中心[7]、GEO资源门户[8]。这4个部分紧密相联,旨在提供注册、共享和集成全球范围内对地观测资源的技术方案。

在图1中,GEONETCast是一个国际的卫星数据分发网络。GEO资源门户也提供了与之的链接。在图1中,GEO Secretariat Web Site是GEO秘书处的工作环境,它可通过GEO资源门户实现与GCI的集成。

图1 全球综合对地观测系统的通用基础设施

2.1.1 标准和互操作注册中心

标准和互操作注册中心维护GEOSS认定的标准和规范。这些标准和规范涉及数据模型、数据组织、数据交换、数据服务、系统互操作等。标准和互操作注册中心不仅要维护标准规范制定单位所制定的公开标准,比如ISO 19115:2003 地理信息元数据标准,而且要维护在公开标准的基础上做了很多扩展后形成的新的规范或者是研究团体自己制定并采用的规范,即所谓的特殊实现(Special Arrangement)。

标准和互操作注册中心工作组负责定期评估目前的清单,完成增加、修改等工作。用户也可以通过注册中心的界面提交申请,建议在注册中心中包含新的标准规范或者特殊实现。工作组完成评估后,会相应地完成清单增加工作。

2.1.2 组件和服务注册中心

在GCI中,组件和服务注册中心起着资源目录的作用。任何提供给GEOSS的可共享资源,都需要首先在这个注册中心注册。目前,GEOSS对地观测资源类型如表1所示。

表1 GEOSS中的对地观测资源类型

资源注册的详细过程,以及几种不同的注册情景,将在第4节中分析介绍。

2.1.3 分布式查询服务中心

分布式查询服务中心旨在具体完成资源元数据信息的收集和整理,提供资源元数据信息的查询服务。这些元数据信息都是按照ISO 19115/ 19119/ 19139的标准进行组织提供的。分布式查询服务中心从组件和服务注册中心中得到当前资源的描述信息。这些资源既可以是一个单独的数据集、数据服务,也可以是一个包含大量资源描述信息的元数据服务。分布式查询服务中心需要根据资源的类型,进一步地获取资源的具体内容。比如对于一个OGC (开放地理信息协会)的网络制图服务(Web Mapping Service,WMS)服务,分布式查询服务中心需要进一步地获取该WMS服务能够提供的Layer等信息。再比如,对于一个元数据服务,分布式查询服务中心需要进一步地获取其中所存储的资源元数据信息。

2.1.4 资源门户

资源门户提供了基于Web的系统,提供了查询、获取和访问GEOSS资源的能力。目前,资源门户提供了关键字查找、按社会应用领域分类查找等功能。针对表1所示的不同类型的资源,资源门户提供了不同的获取和访问的方式,方便用户了解GEOSS中可用的资源。

2.2 GCI各组成部分之间的联系

GCI的4个主要组成部分具有明确的分工,彼此之间具有很强的关联关系,它们共同完成了资源的注册、查询、获取和展示。下面将对它们之间的关系进行具体分析。

标准和互操作注册中心与组件和服务注册中心的联系主要体现在标准规范和特殊实现的信息列表上。标准和互操作注册中心负责维护这个列表,而组件和服务注册中心负责引用这个列表,并在资源注册的页面中为用户提供按照资源分类性标准引用信息和支撑性标准引用信息两类信息,供其选择。这个列表在标准和互操作注册中心、组件和服务注册中心之间自动同步。

组件和服务注册中心与分布式查询服务中心的联系主要体现在资源的描述信息上。组件和服务注册中心维护注册资源的描述信息,是GEOSS中可用资源的主目录。分布式查询服务中心获得这些描述信息后,将根据资源的类型,进一步获取资源详细的元数据信息。这两个中心所维护的资源描述信息之间有根本的区别,分别体现在信息类型、信息量和面向对象3个方面。组件和服务注册中心维护的资源类型是表1所示的9类,分布式查询服务中心则包含的内容更多。比如对于OGC WMS服务,分布式查询服务中心还包含“Layers”(图层)对象。组件和服务注册中心是资源的“目录”,无论是大量的分散独立的数据/服务资源,还是少量的对地观测资源的元数据目录服务,它们在组件和服务注册中心中,都只是一条“记录”,而在分布式查询服务中心中,它们可能对应非常多的“记录”,这些“记录”是这些资源的详细元数据信息。组件和服务注册中心是面向“人”的,其中的资源信息全部是资源提供者注册时提供的,而分布式查询服务中心是面向“程序”的,其中的资源信息,要么是自动化地从组件和服务注册中心收集的,要么是通过自动化方式进一步分析获取的资源详细信息。

分布式查询服务中心和GEO资源门户之间的联系主要体现在资源详细元数据信息的查询服务上。分布式查询服务中心通过元数据服务接口向资源门户提供资源查询服务,而资源门户在接到用户提交的查询请求后,通过该元数据服务接口,把请求发给分布式查询服务中心,并在获取查询结果之后,通过适当的方式将结果展现给用户。

3 GCI的对地观测资源注册功能

在GCI的组件和服务注册中心注册对地观测资源需要提供资源的基本信息主要包括:资源的分类信息、资源的名称/简称、资源的概要信息、资源提供方的GEO成员信息、资源的详细信息网址和服务地址、资源联系人信息、资源针对的社会应用领域、资源可用性信息、资源共享方式信息、资源时空覆盖度信息、资源针对的对地观测关键参量信息、资源的分类性标准引用信息、资源所支持的标准的引用信息。

资源分类信息指的是在表1中所示的九大类内容。资源提供方的GEO成员信息指的是需要标明资源的提供者。资源的详细信息网址指的是提供该资源的详细说明和供用户进一步了解的信息网址。资源的详细服务地址是针对服务类资源的,指的是关键的服务API地址。比如对于许多OGC的数据服务资源,可以把具体的GetCapabilities(获取能力描述信息)请求的URL作为服务地址。资源针对的社会应用领域指的是该资源适用于哪些GEOSS的应用领域。资源可用性信息指的是资源目前的业务运行状态,需要在连续性运行、间歇性运行、非运行三类可用性中选择一种。

资源共享方式信息是指在GEOSS中资源共享程度,如User registration、Attribution、No monetary charge、GEOSS Data-CORE。User registration指的是用户需要在资源提供方的站点中完成注册和登录,才可以获得进一步的数据访问权利。Attribution指的是资源提供方在资源描述信息中提供资源的知识成果来源等信息,供资源用户在资源的使用和传播过程中加以引用或者标注。No monetary charge指的是资源用户可以免费获取和使用资源。GEOSS Data-CORE是“The GEOSS Data Collection of Open Resources for Everyone”的简称,指的是资源提供者以完全开放的、完全免费或者以不超过资源复制和分发成本的方式提供给GEO团队,用于支持不同的社会领域应用。User registration和Attribution这两种共享方式对标识为GEOSS Data-CORE的资源也是适用的。

资源时空覆盖度信息描述了资源本身可能具备的时间和空间覆盖范围信息。资源针对的对地观测关键参量信息指的是需要从预先定义的GEOSS对地观测词汇库(GEOSS Earth Observation Vocabulary)中选择针对资源特定的关键参量,比如表面大气温度。目前,这个对地观测词汇库包含了大气、农业、陆地表面、海洋、人类活动、生物圈、陆地水圈、冰冻圈、古气候、固体地球、生物分类等11个大类。每一个大类下面分为若干小类,比如大气一级目录下,又分了大气温度、大气风、大气水气、大气压力、气溶胶、大气辐射、云、大气化学、大气质量等二级目录。目前1.0版本的GEOSS对地观测词汇库为三级树状的目录体系。

资源分类性标准引用信息和所支持的标准的引用信息指的是需要从分类性标准和所支持的标准中选择相应的项目,来定性地说明资源遵循的标准或者规范情况。这些分类型标准和资源所支持的标准都来自于标准和互操作注册中心。目前,分类型标准主要针对服务资源分为数据访问类、元数据服务类、数据转换类、图示和可视化类。资源所支持的标准主要包括数据格式、质量控制、元数据内容、语义描述等。在资源的描述中,增加标准引用信息能够支持按照标准或者规范查询相应的资源,能够促进资源间的互操作。

4 对地观测资源提供到GCI中的完整流程以及资源注册的类型

4.1 对地观测资源提供到GCI的步骤

(1)确定资源在GEOSS中的共享方式是User registration、A ttribution、No monetary charge、GEOSS Data-CORE中的哪一类。

(2)确定到组件和服务注册中心注册该资源的方式。完成这个步骤的几种典型情景将在4.2中介绍。

(3)资源的各项描述信息注册后,向组件和服务注册中心工作组发出批准请求通知。

(4)组件和服务注册中心工作组和GCI相关的专家共同完成评估后,将批准注册。如果没有通过评估,将提供具体的修改建议。

(5)注册信息批准之后,资源元数据信息将被发至分布式查询服务中心。分布式查询服务中心将进一步分析获取资源的详细信息。

(6)用户可以通过资源门户,查询并访问该资源。

4.2 资源注册的类型

根据资源的多少以及是否完全遵循相关标准,注册资源可以分成以下几种类型。

4.2.1 少量数据/服务资源

如果只有少量的数据/服务资源,资源提供者不必维护一个专门的元数据服务。在这种情景下的解决方式是:

(1)针对每一个资源,按照ISO 19115/19119/ 19139标准,生产其元数据信息,并以物理文件保存。

(2)把这些元数据信息的物理文件罗列在一个网页中,并通过Web服务器发布该网页。

(3)在组件和服务注册中心注册这些资源时,提供的网址为资源的详细信息网址和服务地址,并在资源分类性标准引用信息中选择“Catalog/ Registry Service”下面的“Web Accessible Folder”。

4.2.2 大量数据/服务资源

如果有大量的数据/服务资源,而且不打算采取上述快捷的方案,那么就需要维护一个专门的元数据服务。在这种情景下的解决方案包括如下步骤。

(1)建议按照ISO 19115/19119/19139标准,生产资源的元数据信息。

(2)采用OGC的元数据服务标准,建议以CSW ISO Pro f le为具体规范,架设元数据服务。

(3)在组件和服务注册中心注册这个元数据服务,该元数据服务的GetCapabilities请求URL为资源的服务地址,并在资源分类性标准引用信息中选择相应的元数据服务标准选择。

4.2.3 采用了“特殊实现”的资源

采用了“特殊实现”的资源,尤其是服务资源,首先在标准和互操作注册中心注册该“特殊实现”。由于所有的标准/规范/安排的信息,都会自动地从标准和互操作注册中心传递到组件和服务注册中心,因此资源提供者应在组件和服务注册中心注册资源,在注册中可以在支撑性标准引用信息列表中找到并应用之前注册的“特殊实现”。这样就完成了对“特殊实现”的注册和在资源注册过程中的引用。

5 GCI系统设计对国内科学数据共享实践的启示

可以从GCI的系统设计中借鉴以下两点,用以进一步推动我国科学数据共享实践。

5.1 提供程序访问接口

GCI中的4个组成部分之间的所有通信都是通过程序访问接口(API)。其中,标准和互操作注册中心提供了基于HTTP协议的访问规范,组件和服务注册中心与分布式查询服务中心都提供了遵循OpenGIS(开放地理信息协会)元数据服务规范的访问接口。

支持API的目的在于,打破系统各组成部分之间的紧耦合关系。比如,资源门户是GCI提供给用户的一个图形化界面,用以查找和获取GEOSS中的共享资源。由于它和分布式查询服务中心之间的接口是OpenGIS元数据服务规范,其他信息团体也可以通过这个API接口构建专用的GEOSS资源门户,满足对特定类型资源的查询、展示、集成和获取的特殊需求。

事实上,API一词的重点,就在于“程序访问”。一旦实现了程序访问,就能够更好地支持资源的开放、开发和利用,支持多资源节点之间的服务联合[9],建成一个名副其实的“平台”,催生资源在众多社会领域的创新应用。正是基于这个原因,美国奥巴马政府在2013年5月签署了总统令(http:// www.whitehouse.gov/the-press-office/2013/05/09/ executive-order-m aking-open-and-m achinereadable-new-default-government-),要求把开放的、机器可以访问的方式作为政府信息公开的首要形式,并要求各联邦机构限期实现。考虑到美国在数据和资源公开方面已经非常先进的事实,尤其是各类资源网站和数据目录已经非常丰富,政府进一步强调API的重要性,制定强制性措施推进建设,不得不说,这是一件令人深思的技术决策。

5.2 突出各类标准规范

GCI的标准和互操作注册中心专门维护标准规范的信息。考虑到很多信息团体都采用了自定义的通讯协议和规范而这些协议和规范尚未成为标准的现状,GCI进一步设计了“特殊实现”的概念,允许把这类协议或者规范注册提交到GCI中。GCI的组件和服务注册中心在其提供的资源注册界面中,呈现了这些标准规范和特殊实现的信息,供资源提供者选择,制定资源的分类性标准引用信息、资源所支持标准的引用信息等。GCI的分布式查询服务中心也依据该标准规范和特殊实现信息,提供对资源的查询服务。

以上这些技术环节说明,GCI非常重视资源对各类标准规范的支持和遵循情况。

6 结语

全球综合对地观测系统是国际范围内构建空间信息共享互操作平台的一次新举措。目前,全球综合对地观测系统的通用基础设施已经相对完善,也得到广泛的国际关注,其中注册的资源来自超过50多个国家,仅对组件和服务中心的访问,就超过了120个国家和地区。

本文介绍了GCI的组成部分和相互关系、向GEOSS提供对地观测资源的流程以及注册资源的几种情景,有益于促进资源所有者和资源用户对GEOSS的了解,加快GEOSS的共建共享。本文最后提出GCI对程序访问接口和各类标准规范信息十分重视,值得我们学习借鉴,以进一步推进完善我国科学数据的共享实践。

[1] 国际对地观测组织[EB/OL].[2013-05-21].http://www. earthobservations.org/index.shtm l.

[2] The Global Earth Observation System of Systems (GEOSS) 10-Year Imp lementation Plan[EB/OL]. [2013-05-21]. http://www.earthobservations.org/ documents/10-Year%20Implementation%20Plan.pdf.

[3] GEOSS Common Infrastructure[EB/OL]. [2013-05-21]. http://www.earthobservations.org/gci_gci.shtm l.

[4] GEOSS Standards and Interoperability Registry[EB/ OL].[2013-05-21].http://seabass.ieee.org/groups/ geoss/.

[5] GEOSS Com ponent and Service Registry[EB/OL]. [2013-05-21]. http://geossregistries.info.

[6] Bai Y, Di L, Chen A, et al.GEOSS Com ponent and Service Registry: Design, Implementation and Lessons Learned[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing(J-STARS), 2012,5(6):1678-1686.

[7] GEOSS Clearinghouse[EB/OL]. [2013-05-21]. http:// clearinghouse.cisc.gmu.edu/geonetwork/srv/en/main. home.

[8] GEO Portal[EB/OL]. [2013-05-21]. http://www.geoportal.org.

[9] Bai Y, Di L, Chen A, et al. Towards a Geospatial Catalogue Federation Service[J]. Photogrammetric Engineering and Remote Sensing, 2007,73(6):699-708.

Study of Data Sharing Based on Common Infrastructure for G lobal Earth Observation System

Bai Yuqi1, Di Liping2
(1. Center for Earth System Science, Tsinghua University, Beijing 100084; 2. Center for Spatial Information Science and Systems, George Mason University, Fairfax, VA 22030)

The Global Earth Observation System of System s (GEOSS) is a new generation of Earth observation resources sharing framework initialized by the Group on Earth Observation (GEO) in 2005. The GEOSS Common Infrastructure (GCI) has been established to enable the registration of, discovery of, and access to the sharable Earth observation resources. The GCI consists of the follow ing components: the Standards and Interoperability Registry, the Component and Service Registry, the Clearinghouse, and the GEO Portal. The Standards and Interoperability Registry maintains the list of GEOSS-endorsed standards and interoperability protocols. The Component and Service Registry is the master directory of all the GEOSS-wide sharable Earth observation resources. The Clearinghouse fulf lls the distributed search to make metadata information about the Earth observation resources available through Application Programm ing Interface. The GEO Portal presents a Graphical User Interface for users to discover the Earth observation resources of interest. This paper introduces each of these GCI components, and their relationships. It presents several scenarios for resource providers to follow when contributing Earth observation resources to the GEOSS. It also concludes the lessons learned from the design and implementation of this system.

earth observation resources, global earth observation system, GEOSS common infrastructure, date sharing, management of observation resource

TP79;G203

:ADOI:10.3772/j.issn.1674-1544.2013.05.019

白玉琪(1976- ),男,清华大学地球系统科学研究中心副教授,地图学与地理信息系统博士,IEEE高级会员,OpenGIS地理信息元数据服务规范工作组成员,研究方向:地球信息科学。

2013年6月1日。

猜你喜欢
数据服务服务中心分布式
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
队旗在党群服务中心飘扬
基于数据中台的数据服务建设规范研究
中证法律服务中心调解程序知多少
股东大会知多少
上海看见爱志愿者服务中心
数据服务依赖图模型及自动组合方法研究
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊