开放数据及其应用

2017-05-30 05:54孙福临
河南科技 2017年11期

孙福临

摘 要:开放数据是金矿,人们可以对这些数据进行自由阅读、分享、发布和使用,通过对开放数据的“开采”,可以挖掘出其隐藏的价值和作用,寻求数据最大可能的无限获取和重用。本文追溯开放数据的产生背景,详细介绍开放数据的概念和特点,进而探讨开放数据在电子政务、商业以及图书馆中的应用,以期能有更多学者加大对开放数据的研究,充分发挥开放数据的价值。

关键词:开放数据;政府开放数据;开放存取

中图分类号:G250.73 文献标识码:A 文章编号:1003-5168(2017)06-0039-04

Open Data and Its Application

Sun Fulin

(Information management College of Zhengzhou University,Zhengzhou Henan 450000)

Abstract: Open data is the gold mine, people can freely reading, sharing, release and use these data. Through the “mining”, you can dig out the hidden value and function, seeking the maximum possible infinite acquisition and reuse the data. This paper traced the background of open data,and introduced the concept and characteristics of open data, and then discussed the application of the open data in e-government, commercial and in the library. I hope more and more scholars dedicated to study the open data and give full use of the open data.

Keywords: open data;open government data;open access

随着信息技术的快速发展和社会信息的大量产生,众多国际组织和研究机构逐渐开始加大对开放数据的重视。例如,开放数据OpenCon2016年会议于11月12-14日在华盛顿特区召开,这不仅仅是一场会议,更是一个平台,在此可以了解开放存取、开放教育和开放数据,能够培养重要技能,还能促使人们采取行动,建立一个更开放的体系,从而共享世界上的众多信息,如学术科研信息、教育资料、数字化研究数据等。

“互联网之父”蒂姆·伯纳斯·李(T.B.Lee)早在2009年TED演讲中就呼吁政府、科研部门以及科学家们能够更多地致力于数据开放,在网上公开“实时的原始数据”,使这些数据能更好地服务于公众的生活。紧接着,在2010年的TED演讲中,他又做了题为《公开数据遍布世界新纪元》的演讲,进一步强调了开放数据的作用,把不同数据源的数据整合(Mush Up)起来后,展示了一些数据对交通等的可视化影响和利用一些公开数据的实例。总的来看,开放数据是继开源软件、开放存取后出现的,是崇尚开放、自由、共享理念的又一重要的研究热点,为网络环境下数据管理以及信息组织等方面的研究注入了新的生机和活力。

1 开放数据概述

1.1 开放数据的产生背景

近年来,科技期刊涨价与图书馆订购经费不足之间的矛盾越来越显著,使很多科研机构、图书馆及相关部门等不断减少期刊的订购。电子期刊出现后,虽然极大提高了信息量,为人们快速获取所需内容提供了便利,但其使用多被局限在机构局域网内,极大限制了科技知识的保存与传播,人们很难通过公开渠道获取所需的科技知识。为了打破公开获取的种种限制和解决所面临的问题,国际科技界提出了新的理念——科技信息开放存取[1]。2002年2月发布的《布达佩斯开放存取先导计划》(Budapest Open Access Initiative,BOAI)这一纲领性文件对科技文献的开放存取进行了阐述,认为开放存取是指某文献在Internet公共领域中可以被免费获取,允许任何用户阅读、下载、拷贝、传递、打印、检索、超级链接该文献,并为之建立索引,用作软件的输入数据或其他任何合法用途。用户在使用该文献时不受财力、法律或技术的限制,只需在存取時保持文献的完整性,对其复制和传递的唯一限制,或者说版权的唯一作用应使作者有权控制其作品的完整性及作品被准确接受和引用[2]。

开放存取是指通过新的数字技术和网络化通信,任何人都可以及时、免费、不受任何限制地通过网络获取各类文献,包括经过同行评议过的期刊文章、参考文献、技术报告、学位论文等全文信息。这种方式大大改变了人们的学术交流方式,也推动了人们对开放理念的认知。在随后的研究中,开放数据理念应运而生。正如有些学者提出的:开放数据是开放获取处于全面推广和扩展阶段的产物[3]。可以说,开放数据实际上是开放存取运动的一个衍生品。

1.2 开放数据的概念

信息技术和经济社会相互促进协同发展的同时,也带来了数据的巨量增长,数据作为国家基础性战略资源对国家治理、经济运行机制、社会生活方式以及国民的生产生活、消费活动等都产生了重要影响。而我国对相关问题的研究相对较晚,政府在利用数据方面仍存在一系列问题,如开放和共享程度低、产业基础较弱、相关法律法规滞后、缺乏顶层设计和统筹规划、创新应用领域较窄等。为了更大范围地推进我国大数据研究的发展和应用,建设数据强国,国务院于2015年8月印发了《促进大数据发展行动纲要》,提出“加快建设国家政府数据统一开放平台,制定公共机构数据开放计划”。可见,数据开放蓄势待发,开放数据将蓬勃发展[4]。

开放数据迅速发展并与各领域相互融合,可以分为政府数据、公共数据、商业数据、科学数据以及个人数据。不同的科研机构、相关组织、部门根据其具体工作情况对开放数据的含义具有不同的理解,但理解也存在相似之处。本文采取维基百科中对开放数据的定义,即指一种经过挑选与许可的数据,这些数据不受著作权、专利权及其他管理机制的限制,可以开放给社会公众,任何人都可以自由出版使用。一般来说,开放数据(Open Data)主要包括非文字的数据素材,如地图、化学分子、数学以及科学公式等[5]。数据开放使人们可以自由阅读、分享、发布和使用相关数据,挖掘出其隐藏的价值和作用,以寻求信息数据最大可能的无限获取和重用。正如Open Science中所阐述的那样:我们越是了解科学及其复杂性,那么这些科学数据被公开共享就更有意义[6]。

1.3 开放数据的特点

从上述定义可知,开放数据不限制数据发布者的身份、数据发布地点和目的,是可以为公众免费获取使用、再利用以及重新发布的数据。具体表现为:法律上的开放、社会上的开放和技术上的开放。也就是说,其版权允许任何人再利用和分发,不限制以商业利益为目的的出售和分发,允许修改和演绎;使用开放数据无技术限制,可免费获取,且其格式机器可读[7]。总的来说,开放数据具有以下五大特点:一是开放授权;二是开放格式(如CVS)且机器可读;三是数据具有完整性;四是电子化可下载;五是可免费公开获得[8]。

2 开放数据的应用

政府、企业、图书馆乃至个人都在不断产生着数据,然而,这些数据是分散的、割裂的。海量、无序、异构和多元的数据使网络信息组织面临巨大的挑战。为了应对这一挑战,开放数据结合元数据、云计算、语义网、本体等技术,成为网络信息组织的有效实践。开放数据相较于一般数据的最大特征就是数据集增值方式。总的来说,开放数据具有两种增值方式:一是在技术层面基于本身数据集;二是在社会层面的保障方面依据其开放性。开放数据在信息组织中的应用呈现出多元化,在科学、公共服务、商业、图书馆及教育等方面的应用,都表现出显著的价值。现在笔者将详细阐述开放数据在电子政务领域、商业领域以及图书馆中的应用。

2.1 开放数据在电子政务中的应用

政府数据是指政府和政府所属机构依据职责所生产、创造、收集、处理和存储的数据。开放意味着任何人都可以对政府进行在线访问、获取、再利用和传播。开放政府数据(Open Government Data)包括法律法規、政策性文件、部门报告、地图、统计资料、气象信息、科研数据,以及其他基于公共目的产生的众多的数据和信息产品[9]。政府是信息资源的聚集者,掌握着很多与国家运行、发展及与民众生活息息相关的数据。开放政府数据可以提高政府的透明度和工作效率。此外,政府数据蕴含着巨大的经济和社会价值,对这些数据进行合理开发和挖掘,可以促进社会的发展并为国民的生活带来意想不到的好处。开放政府数据并不是一个新的话题,自2009年,世界范围内的政府开放数据运动兴起,越来越多的国家和地区纷纷开展了政府数据的开放并逐步制定了各自的开放数据战略和政策,成果显著。

作为政府开放数据的领跑者,美国于2009年1月发布了《透明和开放政府备忘录》,提出推动政府数据的透明度和开放性。同年5月,美国开设data.gov网站,开放了47个政府数据集,其基本原则是关注获取、开放平台、解构数据等,该网站为公众提供了一站式的数据服务,这也意味着美国在政府数据的透明度与公开性方面迈出了较大的一步。美国管理与预算办公室于12月发布了《开放政府指令》备忘录,该指令要求政府机构公开政府数据、提高政府信息质量,并采用各种技术使与公众的交流更加透明,以增强与公众的互动性。随后,美国也发布了一系列政府开放数据的计划和报告,如2010年美国联邦政府各部门和相关机构发布了《开放政府计划》,于2012年又发布了第二个《开放政府计划》,并对第一个计划的执行情况进行了评估,2011年的发布了《美国开放政府国家行动计划》,以及2013年发布了《美国政府自我评估报告》、《开放数据并让机器可读》行政令、《开放数据政策:将信息作为资产管理》的备忘录和《开放数据跨部门优先目标》等[10]。美国在政府开放数据方面做出了极大努力,也取得了较大成果,为其他国家进行政府数据开放提供了参考和指导。

紧随美国之后,英国为促进政府数据开放也做了较大努力。2010年,建立和推出政府数据开放的平台data.gov.uk,随后也出台和发布了一系列利于数据开放的政策和相关措施。而相对美、英及其他国家在政府开放数据方面的进展和研究,我国相关研究开始得较晚,发展也相对缓慢。但近年来,我国也逐步加大了对政府数据开放的重视,为解决政府数据开放共享的不足,以及产业基础薄弱、法律法规建设的滞后等问题,我国也采取了一些可行性措施,并制定了一些政策,努力加大政府数据的开放。2015年3月,十二届全国人大三次会议山东代表团审议《政府工作报告》时,孙丕恕认为,电子政务的建设不断发展和完善,各级各地政府收集、接受和积累了很多与国民生产生活紧密相关的数据,拥有绝大部分社会信息资源,在一些西方的发达国家,电子政务比较完善,他们借助开放的政府数据,在医疗卫生服务、制造业等领域节约了大量成本。由此,他提出希望我国政府数据能够实现共享和公开。李克强总理对此也明确表态:政府掌握的数据要实现公开,除依法涉密的以外,数据要尽最大可能公开,以便云计算企业为社会服务,也为政府决策、监管服务[11]。

2015年9月,国务院发布了《促进大数据行动发展纲要》,重点提出要大力推动政府部门数据共享,对政府部门的公共数据资源进行整合,逐步推进公共数据资源的开放进程,促进数据的共享互通;并提出2017年底前对各部门数据共享的范围和使用的方式要进一步明确,形成不同部门之间数据资源的共享共用;到2018年在中央政府层面实现统一共享交换平台的全覆盖和通过该平台实现数据的共享及交换;于2020年年底前,逐步实现就业、交通、医疗、教育等与民生紧密相关的政府数据向社会公众开放[12]。

政府数据开放是数据社会化的关键环节,政府数据的开放提高了政府数据的透明度,使公众能更好地了解政府的工作进展,督促政府部门的发展,提高政府部门的办事效率,促进社会的公平公正。政府数据应该取之于民,用之于民,对这些数据进行关联和融合,也将会发挥出巨大的经济价值。

2.2 开放数据在商业中的应用

数据是企业开展活动的基础,是企业极其重要的资源,充分使用和挖掘数据的商业价值可以为企业带来极其强大的竞争力,且能为企业决策提供依据。2014年第十四届中国年度管理大会上,阿里巴巴董事局主席马云表示,今天阿里巴巴公司本质上是一家数据公司,他们做淘宝更直接的目的是要取得零售数据及制造业的数据;做阿里小微金服是为了建立信用体系;而做物流是为了把这些物流数据合在一起。阿里巴巴对这些用户数据进行收集、组织和挖掘,可以预测客户的行为趋势,能帮助预测用户的需求,为用户提供精确营销[13]。

大数据是金矿,不论是前面提到的政府还是企业,都已经意识到其价值。很多企业希望能够获得更多有价值的数据,而把这些不同来源、不同特点、不同性质的数据关联起来进行交叉挖掘分析,会发生强烈的“化学反应”,从而产生更大的价值。例如:阿里巴巴利用微博数据,可以通过挖掘这些数据进行精准营销;将交通部门数据与菜鸟网络结合,启动“中国智能物流骨干网”项目,以期建设遍布全国的、开放的社会化物流基础设施,搭建开放共享基础设施平台,形成一套全国范围内开放的社会化仓储设施网络,为各类企业提供更加方便、快捷的优质服务[14];可将金融监管部门的数据与用户交易和理财记录结合起来做个人信用征信。再如,百度公司取得交通部门的数据可以与百度地图结合;收集与航班相关的数据研发出百度天眼,可以将数据实时、真实地呈现出来,根据地理位置显示出周围天空正在飞行的航班,以帮助用户方便、具体地查询航班号、出发地、目的地及当前所处位置的一系列信息,为人们的出行提供便利;通过拿到的博彩指数公司的数据结合网络数据对世界杯进行预测[15]。工商管理部门可以依靠数据和技术手段,向网络交易平台推送相关数据,以实现信息共享、改革创新、监管与互动,从而积极防控网络消费风险。工商数据的开放使电商平台在与企业签约时对接相关数据,可以帮助电商加强对企业真假的审核。

这些能为企业所利用的开放数据,可以源于个人,也可以是源于政府公开的数据或企业生产、发展过程中产生的数据或收集到的其他公开领域的数据。开放数据作为新的资源,特别是对电商企业、金融行业、能源行业等影响较大。或许这些数据本身可能没有太大价值,但当企业把这些分散的、割裂的数据进行整合、交叉关联,就能够挖掘出巨大的价值,从而在为企业带来巨大经济价值的同时,也可以为人们提供优质的服务和产品,给人们的生产生活带来极大便利。

2.3 开放数据在图书馆的应用

图书馆是人类文化的聚集地,拥有着极为丰富的资源和人类遗产。图书馆的一切资源都应该向任何人开放,每个人在图书馆应该自由、平等地获得知识,以消除知识鸿沟。在知识面前,人们没有高低贵贱之分,同样,在数据时代,人们在数据面前也不应有高低贵贱之分。而开放数据从根本上说就是一种信息资源共享的形式,它与图书馆的服务理念相契合。

开放数据在图书馆中的应用,具体体现在图书馆书目的开放方面,如大英图书馆宣布开放数据服务,该馆通过调查关联数据在构造目录信息时应用的可能性,与相关组织进行合作研究,以关联数据的方式来实现书目元數据的发布,促进书目数据的开放。

在我国图书馆领域,对开放数据的应用处于领先地位的是上海市图书馆。2016年,上海市图书馆成功举办了2016开放数据应用开发竞赛,这次竞赛开启了我国图书馆开放数据服务,为我国图书馆开放数据服务做了较大贡献。当然,这次竞赛的成功举办也表明社会大众对图书馆开放数据的应用需求,同时也显示了图书馆开放数据与外部数据结合之后,可以充分释放开放数据所蕴含的潜在价值。

总之,数据广泛分布于各个国家、地区和行业,处于网络的各个角落。为了更好地为读者服务,图书馆可以合理地利用这些开放数据,为读者带来更好的体验,使读者提高使用图书馆的兴趣。为了促进图书馆建立统一的数据开放网站,以实现图书馆数据的统一规划、全面开放,满足读者信息需求的个性化以及支持图书馆服务上的创新,各图书馆要加强对开放数据的整合和挖掘,从而发现数据所蕴含的隐性知识,并通过采集读者的需求、阅读行为等,准确预测未来读者个性化阅读活动的群体数量、所需要的服务资源、服务系统、读者的阅读模式和资源的优化配置等,不断提高图书馆服务的高效性和精准性[16]。

3 结语

开放数据是金矿,虽然像美国、英国等这些对开放数据较为重视的发达国家已取得了较大成就,然而,就整体来看,他们利用的开放数据的价值还只是冰山一角,是其价值的极小一部分。开放数据蕴含的社会价值和经济价值是极其巨大的,对国家、社会及个人都有着重要作用。因此,在今后的研究中,应最大限度地实现真正意义上的数据开放,并重视对开放数据的挖掘和应用,使开放数据真正发挥出其所蕴含的价值。

参考文献:

[1]中国科技期刊开放获取平台.关于OA[EB/OL].(2017-02-25)[2017-05-02].http://www.oaj.cas.cn/aboutoa/index.jhtml.

[2]360百科.开放存取[EB/OL].(2012-10-08)[2017-05-02].http://baike.so.com/doc/3319304-3496095.html.

[3]刘兰,李麟,王丹丹,等.科技信息开放获取的历史进程[J].图书情报工作,2009(7):63-68,14.

[4]国务院.国务院关于印发促进大数据发展行动纲要的通知[EB/OL].(2017-03-01)[2017-05-02].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[5]维基百科.Open data[EB/OL].(2015-08-31)[2017-05-02].https://en.wikipedia.org/wiki/Open_data.

[6]Creative Commons.Open science[EB/OL].(2017-03-01)[2017-05-02].https://creativecommons.org/about/program-areas/open-science/.

[7]刘艺菲,杨洁.开放数据知多少[J].中国社会组织,2015(8):38-39.

[8]开放数据调查[J].中国科技信息,2015(22):4-5.

[9]罗博.国外开放政府数据计划:进展与启示[J].情报理论与实践,2014(12):138-144.

[10]洪京一.从G8开放数据宪章看国外开放政府数据的新进展[J].世界电信,2014(Z1):55-60.

[11]刘红色.李克强对政府数据表态:公开![EB/OL].(2015-03-07)[2017-05-02].http://www.gov.cn/guowuyuan/2015-03/07/content_2829215.htm.

[12]国务院.国务院关于印发促进大数据发展行动纲要的通知[EB/OL]. (2015-08-31)[2017-05-02].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm

[13]新浪財经.马云的“大数据”:做淘宝不是卖货,而是为了获得数据[EB/OL].(2014-12-02)[2017-05-02].http://www.guancha.cn/economy/2014_12_02_302187.shtml.

[14]360百科.菜鸟网络科技有限公司[EB/OL].(2013-05-29)[2017-05-02].http://baike.so.com/doc/5424394-5662613.html.

[15]罗超.政府开放大数据,大公司优先[EB/OL].(2015-03-21)[2017-05-02].http://luochao.baijia.baidu.com/article/50428.

[16]龚美林.助力识别企业真假 工商数据首次对电商开放[EB/OL].(2016-08-24)[2017-03-02].http://xjd.ea3w.com/151/1516234.html.