政府类开放关联数据集调查研究

2016-10-21 09:26赵蕊菡
图书与情报 2016年4期
关键词:政府

摘 要:作为开放关联数据云图中重要的数据集合,政府开放关联数据集拥有庞大的数据规模和发达的数据共享实践,受到广泛关注。文章对曼海姆关联数据目录中的284个政府类开放关联数据集进行调查,从数据集的发布国家分布、主题分布、数据集格式、链出情况、链入情况、连接谓词、词表和开放协议等方面进行统计分析,发现政府类开放关联数据集具有数据集国家分布较集中、数据集主体涵盖政府工作各个方面、数据集之间关联关系紧密、质量控制和版权保护较为严格等特点。

关键词:政府;关联数据;开放关联数据集

中图分类号: G203 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016083

Investigation and Research on Government Linked Open Data Sets

Abstract As an important part of the Linking Open Data (LOD) data sets, government data sets have a large volume data and advanced data sharing practice, and receive a widespread attention. 284 government linked open data sets from Mannheim Linked Data Catalog are investigated, and aspects of distribution in countries, themes, formats, outgoing and incoming links, predicates for interlinking, used vocabularies and licensing information. Consequently, the paper summarizes the features of government open linked data and provides reference for the development of Chinese government linked open data.

Key words government;linked data;open linked data sets

1 引言

2016年3月,中央发布的“十三五”规划纲要中提出,要全面实施促进大数据发展行动,加快政府数据开放共享。《纲要》指出,要全面推进重点领域大数据高效采集、有效整合,深化政府数据和社会数据关联分析、融合利用,提高宏观调控、市场监管、社会治理和公共服务精准性和有效性。2015年9月,国务院印发《促进大数据发展行动纲要》,称要在2018年底前建成国家政府数据统一开放平台,率先在气象、环境、信用、交通、医疗、卫生等20余个重要领域,实现公共数据资源合理适度向社会开放,政府数据开放作为国家大数据发展战略中重要的组成部分被提上了建设日程。

不仅中国,各国政府都把开放数据提到了前所未有的高度。在2009年奥巴马签署开放政府的行政命令后,政府数据的开放已成为近年来世界性的趋势。美国联邦数据平台Data.gov上线后,英国、加拿大、新西兰等国也都建立起了政府数据开放平台,开放政府数据已成为政府的一项重要工作。在我国,2011年香港特别区政府开放政府数据网站“资料一线通(data.gov.hk)”;上海在2012年6月推出了中国大陆第一个数据开放平台。之后,北京、武汉、无锡、佛山、南海等城市也都上线了自己的数据平台。尽管如此,在我国开放政府数据过程中还存在各种问题,如开放数据总量偏低,可机读性差,大多为静态数据,数据按承诺更新比例低,整体都未严格符合开放授权等。

从2006年Tim Berners-Lee提出通过关联数据发展数据网络(Data Web)后,国际互联网协会(W3C)的关联开放数据(Linking Open Data,LOD)运动正式启动。近年来关联数据引起了学者的广泛关注,同时也在政府部门的开放数据领域展开了实践探索。关联数据的核心目的就是促进数据资源的共享和重用,以此增加数据资源的应用价值。政府开放数据涵盖各个领域的数据资源,包括医疗、交通、旅行和环境等领域数据。关联政府开放数据同时也促进领域资源之间的互联,即通过关联数据技术,将具有相关性的政府开放数据进行链接,实现数据资源之间的关联发现。如美国伦斯勒理工学院(Rensselaer Polytechnic Institute,简称RPI)开发的Data-gov Wiki可以将data.gov中的数据集转换为RDF格式,以关联数据的形式重新呈现[1];英国政府发布的关联数据主要包括统计数据[2]和地理空间数据[3]。

从国际上相关研究上来看,Hendler等[4]和Shadbolt等[2]分别介绍了数据集“Semantic.data.gov”和“Data.gov.uk”的建设和发布情况:Shadbolt 和O'Hara[5]通过研究英国开放数据集的发展现状,认为在关注政府领域开放关联数据时,要关注质量、消费动力问题,要跟踪数据出处、保护公民隐私等;Galiotou等[6]介绍了希腊基于关联数据技术,应用于希腊政府门户网站的政府开放关联数据技术的案例;Janssen和Hoven[7]探讨了在建设和利用开放关联大数据(Big and Open Linked Data,BOLD)时需要关注透明度和隐私问题;Vert[8]分析了运用关联数据解决开放政府数据处理的生命周期中所需要的数据发现、清洗、造型、出版等步骤,并以罗马尼亚为例介绍LOGD在智慧城市中的应用;Corradi等[9]以博洛尼亚为例,分析关联数据在开放政府中的应用;Yuan等[10]认为,通过关联数据技术发布的政府数据可以提高数据的透明度和重用度,并对中国智慧城市建设中使用的关联政府数据进行了研究。

目前,国内还没有实现大规模的政府开放关联数据集建设。如吴玥、李占羽[11]根据国外的实践经验,总结出了发布开放政府数据到Web上的工作流程,认为我国应该按照先发布后调解的原则来发布政府数据,以便让政府数据早日实现开放与共享;袁远明等[12]深入分析涵盖内容表达层、创建层、互联层、浏览/查询层4层结构的关联政府数据技术体系,展望政府关联数据在智慧城市建设中发挥的作用;钱国富[13]认为,政府数据应通过关联数据标准进行发布,利用本体技术将与政府运作相关的各类数据模型开发成一个规范的政府数据本体,使得政府数据更规范,更关联,更易于查找和利用。在实践方面,吴玥等[14]使用关联数据技术,改进国外命名实体提取工具Scones,链接发现工具Silk,数据转换工具RDFizer以及其他工具,设计出一套适用于公安系统的关联数据模型;丁楠等[15]构建了基于关联数据技术的政府信息聚合模型,并通过美国政府关联数据网站的关联数据集进行实例验证模型的可行性。总体而言,国内的研究主要集中于关联开放政府数据(Linked Open Government Data,LOGD)的模型构建和分析,较少能应用于实践中解决实际问题。

本文通过对国际上政府类开放关联数据集进行较为详细的调查研究,重点关注不同国家和不同管理单位对于开放关联数据集的应用情况,希望对我国开放关联政府数据集的研究和实践起到一定的参考指导作用。

2 开放关联政府数据集统计分析

2.1 数据来源选择

随着开放关联数据计划(The Linking Open Data Project,简称 LOD)的发展,越来越多的数据提供者和网络应用开发者将各自的数据发布到网络上,并与其它数据源关联在一起,形成了一个巨大的数据网络。笔者以德国曼海姆大学发布的关联数据目录(Mannheim Linked Data Catalog)为主要调查对象,结合LOD云图2014年发布成果进行检索,检索时间为2016年3月20日。检索结果显示,截止调查时间为止,在互联网上发布的开放关联数据集共有1484个,主要集中于政府、出版物、生命科学、用户生成内容、跨领域、媒体、地理、社交网络等八大主题领域(见表1),与2014年8月LOD云图发布的数据相对比,可以看到,关联数据集数量增长了46.35%。其中,政府主题的数据集增长了55.19%。本次调查的样本在曼海姆关联数据目录中满足标签信息为“government”的284个关联数据集。

2.2 开放关联政府数据集概况分析

2.2.1 数据集发布国家分布概况

从表2可知,284个数据集分布在20个国家或国际组织之间。其中,英国以153个占据首位,发布机构有英国内政部、英国统计局、Data.gov.uk团队等,

注:检索时间为2016年3月20日。

发布平台有Opendatacommunities.org、data.gov.org等,数据集内容包括地方政府财政、政府预算、居民住房和家庭情况、社会福利、复合剥夺指数、部门业务计划以及地理数据等。欧盟提供有30个关联开放政府数据集,发布机构有欧盟统计局、欧盟议会、欧盟环境署、欧洲中央银行等。美国提供有20个关联开放政府数据集,发布机构为美国证券交易委员会、美国联邦统计机构、美国国会等。西班牙提供有15个,市政府、市统计局等为主要发布机构。还有一些国际组织也纷纷发布了关联开放政府数据集,如国际清算银行、国际援助透明度倡议组织、国际粮食政策研究所、国际货币基金组织、经济合作与发展组织和世界银行等。

三元组数量排名前20的数据集部分属性信息

(见表3)中,前五位有3个关联开放政府数据集都是由美国data.gov发布的政府数据,占到政府类数据集三元组总数的52.18%。

2.2.2 数据集主题分布

政府信息资源涉及到综合政务、经济管理、交通运输、信息产业、城市建设、科技教育等多个领域,在调查涉及的284个关联开放政府数据集中,其主题分布在民政社区、政法监察、综合政务、经济建设等几个方面(见表4)。其中,93个(占总体32.75%)关联开放政府数据集的主题为民政和社区,内容包括人口数据(如2001年西班牙人口普查数据“2001 Spanish Census to RDF”;英国国家统计局发布的2001年年中到2007年年中的人口数据集“EnAKTing Population Dataset”等)、社会福利(如由英国社区暨地方发展部进行的区域社会复合剥夺指数“Index of Multiple Deprivation,简称 IMD”系列调查而生成的关联数据集“English Index of Multiple Deprivation Ranking 2010”等)、民意调查(如欧洲标准调查数据集“Standard Eurobarometer”,提供欧洲社会科学研究中应用最广泛的数据来源)等。

在政法监察类数据集中,有代表性的为英国国家档案馆发布的法律主题数据集“UK Legislation”、国际透明组织发布的包括腐败感知指数和数据来源的数据集“Transparency International Linked Data”、希腊警察局发布的犯罪事件数据集“Hellenic Police”等。

2.2.3 数据集格式分布

从曼海姆关联数据目录中提供的数据集格式可以看出,不同的数据集或采用单一的格式,或将多种格式进行组合呈现。本次调查的284个关联开放政府数据集共采用了26种数据集格式,其中排名前15名的见图1。可以看出,example/rdf+xml、api/sparql和meta/void是LOGD最常采用的格式,特别是example/rdf+xml,有85.21%的关联开放政府数据集选择了此格式,如为了便于数据集的管理和互操作,由英国社区以及地方政府管理部成立的开放关联数据网站OpenDataCommunities.org中所提供的所有数据集格式都统一为example/rdf+xml格式。而与医学相关领域的开放关联数据集进行对比,关联开放政府

数据集更常采用meta/void、meta/rdf-schema来组织数据集格式[16]。

2.3 开放关联数据集关联应用统计分析

关联数据的提供者通过设置RDF连接,将单一的数据集链接到数据云图中,使得数据集可以通过RDF链接更易被发现和利用。在2014年对LOD云图中数据集的统计中发现,一共有56.11%的数据集可以链接到至少一个数据集[17]。本次调查通过参考“链出”(outgoing links)和“链入”(incoming links)概念[16]来描述开放关联数据集之前的关联关系,根据在曼海姆关联数据目录中对284个关联开放政府数据集进行调研,各个数据集的链出和链入情况详细描述如下。

2.3.1 数据集链出统计

关联数据的云图并不是强连接,并不是每一个数据集都存在于其他数据集的连接,即可能会出现数据集“孤岛”[18]。在本次调查的284个关联开放政府数据集中,有103个数据集没有链接到其他数据集,有70个数据集仅与一个数据集建立连接关系,而链出数量最高的为数据集“Community R&D; Information Service (CORDIS) (RKBExplorer)”,链出至20个数据集(见图2)。其中链出数据集数量在5个以上的数据集具体分布情况(见表5)。

2.3.2 数据集链入统计

在284个数据集中,有57个数据集被本领域的其他数据集链入(非本领域的数据集链入情况不统计),具体分布情况(见图3)。

根据LOD2014报告显示,在LOD2014年发布的关联数据中,链出数量最高的为数据集“DBpedia”,其入度(indegree)达到了207。在本次调查涉及的政府信息相关的关联数据中,数据集“reference.data.gov.uk”和“statistics.data.gov.uk”的链入数据集最多,占到了所有关联开放政府数据集的29.23%,这两个数据集分别提供英国有关人口、部门、行政区划等信息,因此其链入的数据集多为在平台opendatacommunities.org上发布的数据集。

而从LOD整体数据集来看,被关联开放政府数据集引用次数较多的数据集还有:跨领域数据集“dbpedia.org”,链入数据集71个;地理数据集“geonames.org”链入数据集33个;跨领域数据集“w3.org”链入数据集10个;跨领域数据集“lexvo.org”链入数据集9个。跨领域数据集提供标准被LOGD广泛的使用,如由Wikipedia中抽取结构化信息生成的Dbpedia数据集为包括联合国粮农组织关联数据、国际货币基金组织关联数据和Europeana关联开放数据等在内的关联开放政府数据集所引用。地理数据集geonames.org包含了超过800万个地理名称,涉及地理信息的关联开放政府数据集,如世界银行关联数据集、OECD关联数据集合、美国国会数据集、希腊政府消防数据集等被广泛引用。

2.3.3 连接谓词统计分析

关联数据中的连接谓词是RDF声明语句中的属性,定义了主体和客体之间的联系,一般由一个URI表示。谓词的选择能使得知识连接的RDF描述语义更加明确,用户和网络抓取程序也能容易获取知识连接,并通过谓词的词间关系建立更多的知识链接[19]。政府类关联开放数据集常用的连接谓词(见图4)。dct:publisher定义了责任者属性,通过该属性将不同责任者制作的数据集建立关联,形成基于同一内容不同出版者之间的数据操作。dct:spatial定义了空间属性,数据集之间可以通过该属性将不同实体地理坐标的数据集建立关联,形成互操作[20]。owl:sameAs在LOD整体使用较多,表示“两个URI引用实际上指向同一事物”,使用这一属性能够有效聚合指向同一事务对象的所有数据。

2.3.4 开放关联数据集所用词表统计

为了使应用程序更好的理解关联数据,数据提供者使用词表来尽可能的定义数据。在研究关联数据的时候,一般认为,当一个词表被至少2个数据集使用,即认为是非专有词表,反之则为专有词表。

从表7中可以看到,关联开放政府数据集最常使用的词表是作为描述语言的rdf和rdfs,都柏林核

心词表dcterms使用也较为广泛,有近半数的关联开放政府数据集选择了该词表。除此之外,关联开放政府数据集还较常使用词表cube(The RDF Data Cube Vocabulary),这是一个用来发布规范的多维数据集语言,使用W3C RDF标准构建,主要用于表达各种统计数据[21],代表性数据集包括英国复合剥夺指数系列数据集等。FOAF(Friend of a Friend Vocabulary)也是一个得到广泛应用的本体,用于描述与人相关的资源,包括个人、组织和项目等,代表性数据集为2011年美国国会议员数据集“2011 US Congress People”、巴西政治家数据集“Brazilian Politicians”和西班牙政府数据集“Datos Abiertos de Zaragoza”等。而在其他领域被广泛使用的网络本体语言owl词表在关联开放政府数据集使用率相对较低(仅为20.77%,相比于LOD 2014数据为36.49%[17],出版领域59.38%[22]、医学领域71/85[16]),使用owl词表的有联合国粮农组织的地缘政治本体、欧洲关联数据本体中心等。

2.5 开放关联数据集开放协议统计

在发布关联开放政府数据集的时候,不同的机构对数据集有不同等级和侧重的开放许可协议。数

据开放许可协议一般分为面向内容和数据两方面的协议。本次调查的284个关联开放政府数据集中,声明数据开放许可的情况(见表8)。

在284个关联开放政府数据集中,有72.54%的数据集采用各种形式使用了许可信息,与2011年(LOD的207个开放数据集中有18个数据集公开了其协议信息[23])相比,越来越多的数据集发布者开始使用各种关联数据访问协议来保护利益相关者,为政府类的关联数据能稳定健康的发展和利用提供了法律保障,其中常用的协议主要包括知识共享(Creative Commons,CC)、公共数据协议(Open Government License,OGL)、开放数据共用(Open Data Commons,ODC)等针对关联数据自身特点而制定的协议。英国由data.gov.uk发布的系列数据集(如商业、环境、专利、交通等)采用了英国皇家版权协议。还有16个数据集使用借鉴“开放知识”[24]的定义,从不同维度规定了开放协议的基本权利。

而通过调查数据集发布者的信息可以得知,在284个关联开放政府数据集中,由第三方发布的有83个,其中仅有2个没有提供开放许可信息;由制作者发布的有26个,其中有3个没有提供开放许可信息。而在175个没有明确标注发布者信息的数据集中,则有73个都无法提供明确的开放许可信息。可见明确的数据集发布者都较为注重保护信息的版权和隐私等信息。

3 开放关联政府数据集的特点

根据上文中对关联开放政府数据集的发布国家、主题分布、关联应用和开放协议等方面的统计,笔者总结出开放关联政府数据集的特点,为我国建设开放关联政府数据集提供启示。

3.1 数据集国家分布呈现较为集中,主要发布国之间数据开放程度高

在2015年英国开放基金会(OKF)公布的全球开放数据指数中,台湾以78%政府数据开放成为全球第一,紧随其后的是英国(76%)和丹麦(70%),而我国仅以18%的指数排在第93位,其中国家统计数据、全民普选数据等多个关键数据集均显示并无法公开可访问, “数据仅为公开、尚未达到开放的标准”[25]。而在由独立学术组织世界正义项目(World Justice Project)发布的“全球开放政府指数”中,得分最高的前三个国家分别是瑞典、新西兰、挪威,我国以0.43分位列全部国家和地区中的第87名[26]。

通过关联数据发布的政府数据利用本体技术,整合政府运作过程中产生的各类术语体系和数据模型,使得数据通过语义关联,便于数据的开启、链接和重用,能够有效提高数据的透明度,规范数据发布行为,提升政府数据的利用效率[27]。从调查中可以看到,关联数据集集中分布在英国、欧盟、美国等国家,另外,根据检索数据集网站the datahub,还可以发现捷克共和国、丹麦等国家的开放关联数据集也已占据一定规模,这些国家通过关联数据技术将已经发布的开放数据进行规范和重用,数据集之间建立连接关系,大大提高了政府开放数据的利用程度。

3.2 数据集主题涵盖政府工作各个方面,为构建智慧政府和智慧城市提供数据支撑

开放关联政府数据集的主题涵盖了政治、经济、文化、民生在内的多个方面,随着智慧政府建设的发展,诞生智慧的过程就是建立信息关联的过程。关联数据技术将相关数据通过W3C标准中的关联数据技术实现语义连接,并发布到统一的数据平台上供公众使用。通过数据化的高度融合,以数据信息的融合为基础实现数据之间的互联互通。关联政府开放数据能够为智慧政府和智慧城市的构建提供数据的组织和管理,促进数据资源的融合。

3.3 数据集之间关联关系较为紧密,促进政府开放数据的关联发现

政府目录和数据集的数量继续增加,最佳实践通过数据发布者和使用者的连接数量来制定。2011年6月启动的W3C政府关联数据工作组具有提供标准和帮助世界各地政府发布他们的数据作为有效和有用的关联数据的其他信息的使命,包括指导部门和对遗留数据的采集、词汇选择、URI构建,版本控制、稳定性、转换机制[28]。政府类关联数据集之间的相互关联较为活跃,有63.7%的数据集与外部有链接,而对跨领域和地理领域的数据集关联程度也较高。在搭建数据集平台时,可以借鉴其他领域数据集的关联关系,提高数据集之间信息的互联。

3.4 质量控制和版权保护较为严格,规范利益相关者行为

从LOD2014可以看到,开放关联政府数据集较多采用都柏林核心元数据组织信息,在关联数据集格式上,也有85.21%的关联开放政府数据集选择了example/rdf+xml、meta/void和meta/rdf-schema等RDF标准数据发布格式,使得发布的关联数据更为可靠,对于使用者也能更方便、灵活的重用政府数据。另外,开放关联政府数据集的开放授权协议的使用也较为广泛,这种严谨的版权保护政策能够从数据发布的源头规范人们涉及知识产权的行为,在满足互联网数据共享需求的同时,促进人们积极参与关联数据运动,保障关联数据运动不断向前发展。

参考文献:

[1] Tetherless World Constellation.The Data-gov Wiki[EB/OL].[2016-03-20].https://data-gov.tw.rpi.edu//wiki.

[2] Shadbolt N,O'Hara K,Berners-Lee T,et al.Linked Open Government Data:Lessons from Data.gov.uk[J].IEEE,Intelligent Systems,2012,27(3):16-24.

[3] Clough P,Tang J,Hall M M,et al.Linking archival data to location: a case study at the UK National Archives[J].Aslib Proceedings,2011,63(2/3):127-147.

[4] Hendler J,Holm J,Musialek C,et al.US Government Linked Open Data:Semantic.data.gov[J].IEEE Intelligent Systems,2012,27(3):25-31.

[5] Shadbolt N,O'Hara K.Linked Data in Government[J].IEEE Internet Computing,2013,17(4):72-77.

[6] Galiotou E,Fragkou P.Applying Linked Data Technologies to Greek Open Government Data:A Case Study[J].Procedia - Social and Behavioral Sciences,2013(73):479-486.

[7] Janssen M,Jeroen V D H.Big and Open Linked Data(BOLD)in government:A challenge to transparency and privacy?[J]. Government Information Quarterly,2015,32(4):363-368.

[8] Vert,S.Linked Open Government Data for Smart City Applications[C].Patrut,B,etc.SMART 2014 - SOCIAL MEDIA IN ACADEMIA:RESEARCH AND TEACHING.ITALY:MEDIMOND S R L,2015:401-406.

[9] Corradi A,Foschini L,Ianniello R.Linked data for Open Government:The case of Bologna[C].Computers and Communication.2014:1-7.

[10] Yuan Y,Wu C,Ai H.Application Of Linked Open Government Data:State Of The Art And Challenges[J].Theriogenology, 2005,63(2):283-299.

[11] 吴玥,李占羽.基于关联数据开放政府数据[J].电脑知识与技术,2010,6(11):8688-8691.

[12] 袁远明,吴产乐,艾浩军.关联开放政府数据的研究与应用进展[J].电信科学,2012,28(9):69-73.

[13] 钱国富.基于关联数据的政府数据发布[J].图书情报工作,2012,56(5):123-127.

[14] 吴玥,李占羽,李丹宁.关联数据在公安情报研判系统的应用[J].贵州科学,2011,29(2):26-31.

[15] 丁楠,王钰,潘有能.基于关联数据的政府信息聚合研究[J].情报理论与实践,2015,38(7):76-79.

[16] 涂志芳,吴丹.医学相关领域开放关联数据集调查研究[J].图书情报工作,2015,59(18):14-23.

[17] State of the LOD Cloud[EB/OL].[2016-03-20].http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/#toc4.

[18] Rodriguez M A. A Graph Analysis of the Linked Data Cloud[EB/OL].[2016-04-30].http://arxiv.org/pdf/0903.0194vl.pdf.

[19] 司徒俊峰,曹树金,谢莉.论基于关联数据的知识链接构建与应用[J].图书情报工作,2013,57(16):123-129.

[20] Data Catalog Vocabulary(DCAT)[EB/OL].[2016-03-20].https://www.w3.org/TR/vocab-dcat/.

[21] The RDF Data Cube Vocabulary[EB/OL].[2016-03-20].https://www.w3.org/TR/vocab-data-cube/.

[22] 贾君枝,寇蕾蕾.关联数据云图中出版类数据集特点分析[J].国家图书馆学刊,2016(1):59-68.

[23] 张春景,刘炜,夏翠娟,等.关联数据开放应用协议[J].中国图书馆学报,2012(1):43-48.

[24] Open Definition 2.0 - Open Definition - Defining Open in Open Data, Open Content and Open Knowledge[EB/OL].[2016-03-20].http://opendefinition.org/od/2.0/en/.

[25] Place overview | Global Open Data Index by Open Knowledge[EB/OL].[2016-03-20].http://index.okfn.org/place/.

[26] World Justice Project.Open Government Index 2015 Report[EB/OL].[2016-03-20].http://worldjusticeproject.org/sites/default/files/ogi_2015.pdf.

[27] Li Ding,Vassilios Peristeras,Michael Hausenblas.Linked Open Government Data INTRODUCTION[J].Intelligent Systems,IEEE,2012,27(3):11-15.

[28] eGovernment at W3C|Better Government Through Better Use of the Web.[EB/OL].[2016-03-20].http://www.w3.org/egov/.

作者简介:赵蕊菡,女,武汉大学信息管理学院博士研究生。

猜你喜欢
政府
地方政府赶超行为对消除贫困的阻碍分析
地方政府赶超行为对消除贫困的阻碍分析
省级政府金融权力榜
一张图看懂政府工作报告中的信息通信
贵州实现县级以上政府法律顾问全覆盖
煽动民族主义情绪 被疑与政府演双簧
月榜
完形填空三则