数据共享学探分析与研究

2016-12-31 14:49左彤
移动信息 2016年2期
关键词:数据源科学研究

左彤



数据共享学探分析与研究

左彤

北京市育英中学,北京 100161

在社会调查和搜索学习相关文献资料的基础上,学习数据共享的概念、意义和目前数据共享的情况,分析总结了目前数据共享面临和值得思考的几个问题,并提出了解决这几个问题的个人观点和解决方案。保证数据准确地、及时地和规范地的共享,提高数据共享在整个社会中的服务水平和地位,是刻不容缓的重要任务,这对社会的发展具有非常重要的意义。

数据共享;大数据;电子信息技术;数据共享标准

随着云计算、大数据的提出,我们网购,跨行转账,微信群聊,学校教学和网站访问等越来越依赖于海量数据的共享与服务,数据共享无处不在。随着信息技术的不断发展以及人们对信息共享的迫切需求,数据共享的研究也成为一个热点。或者说在我们的认识中,数据共享已经成为学习、生活等各方面不可或缺的组成部分。

作者本人通过学习、生活积累、网站查询和文献研究对数据共享进行了一定的学习分析与研究。在此与大家共同探讨学习和研究。

1 数据共享简述

随着信息时代的不断发展,不同单位、不同地区间的各种信息交流不断增加,计算机网络技术的发展为数据共享提供了保障。我们在网络上会面对各种数据格式,那我们究竟怎样有效地利用它们?怎么做好数据共享与数据转换?我们首先应该想到的是,究竟什么是“数据共享”?也就是说,数据共享的概念和定义是什么?

从《GIS数据的标准化与数据共享》论文中我们可以得到,数据共享是让不同行业、不同部门在不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。一般来说,数据共享的程度可以反映出一个地区、一个国家的信息发展水平,数据共享程度越高,那这个地区或者国家的信息发展水平也会相应越高。

对于数据共享来说,要保证数据共享的质量,必须有很好的数据源。在数据源的基础上要做好数据共享,那就得需要有一套很好的数据交换模式,需要建立统一的、法定的数据交换标准,用统一的数据交换标准来规范数据格式,让用户采用规范的数据标准来规范数据。实现数据共享,可以更充分地使用已有的数据资源,也可以减少在资料收集、采集过程中产生的重复劳动和减少相应的费用。

从《科学大数据共享研究:基于国际科学数据服务平台》一文中我们了解到,20世纪40年代,国外的科学数据共享方面的研究开始起步,在20世纪80年代得到发展,在欧洲、英国、法国、德国、荷兰和瑞典等国家非常重视数据管理与共享,美国是科学数据共享的倡导者。1975年,美国开发了 177个大型数据库,主要服务目标是政府决策和政府启动的重大科研项目[1]。

从资料可以了解到,目前国内科学数据共享的现状,国内科学数据共享起步较晚,2001年,我国科学数据共享工程启动,在资源环境、农业、人口与健康等领域开展了科学数据共享工作,也同时开始了科学数据共享政策法规和技术标准体系的调研工作。先后完成了23项具体标准的编制以及一批管理办法,整合共享了跨部门跨领域超过250亿元国家投入产生的数据资源,建立了若干数据库,为科学研究、政府决策提供了坚实的支撑,成效非常显著[1]。

2 在数据共享方面我们值得思考的问题

我们在学习和数据共享应用的过程中,发现对于数据共享有许多值得我们思考的问题:什么数据可以共享?成熟性的已经或可以公开发表的成果?共享文件格式都有哪些?是否可以是多种格式包括:doc、pdf、jpg,是否可以分可写和不可写两种形式共享,可以分不同档次共享不同格式?提供数据共享本人最关心什么?数据是否涉密和是否有回报?等等。

带着这些问题和作者本人的思考,进行各种搜索引擎网上搜索查询、通过中国知网,万方数据,维普资讯检索上近百篇相关论文,然后进行阅读学习,我们可以看到目前影响数据共享的因素有:

2.1 人与人、物与物和人与物之间的信任

能否相互信任是存在于人与人、物与物之间进行相互交换的一种重要的依赖关系,这本身就是是复杂的、多面的、互相依赖的概念。对信息的信任包括对信息本身的信任以及对信息源的信任[2]。

我个人认为,科学数据共享过程中的信任是指在数据共享过程中涉及到的人与人、物与物和人与物之间的信任,人们对于使用这些数据的用户的信任。

要实现数据共享,最起码做到的是彼此之间的信任,有了信任,数据提供者才可以愿意提供出数据源,我们才可以有数据共享的首要因素。

2.2 人们对数据共享的认识和是否愿意共享自己的数据

在有了信任的基础上,个人有共享的意愿,数据源才能得以实现共享。

而部分人会认为数据一旦共享出来,自己便是进行了知识的丧失,知识丧失是指人们由于共享知识而感觉到权力和独特价值的丧失。人们完全可能会担心独特价值的丧失而不愿意将自己的科学数据与他人共享。

所以,对科学数据共享有一个正确的整体性认识非常重要,数据源拥有者是科学数据共享的重要参与者,他们对数据共享的认识和态度在很大程度上决定着科学数据共享的进程和发展。经过调研和相关资料分析总结和研究,发现67%的研究者认为获取研究的支撑数据十分必要,75%的研究者希望获取他人的研究数据。再看数据提供者,表示愿意提供数据给他人的研究者占52%。也有研究结果表明,多数研究者认为科学数据共享对科学研究具有很重要的意义,但研究者共享自己的数据时顾虑较多。包括研究者对科学数据共享缺乏控制、时间花费、缺乏统一的标准、数据错用、保密问题等方面的担忧。相当一部分人还担心数据共享之后可能会揭示研究中的错误,或再分析会生成与原结果相反的结论。

2.3 数据共享的安全隐患

数据共享需要在网络上才能得以实现,需要遵循一定的共享规则完成数据共享。凡是在网络上实现,那么首先想到的便是数据的安全问题。

要尽可能地避免安全隐患,首先需要对数据进行分级分类管理,不同级别数据的共享方式或共享范围要有所区别。需要在通过对信息使用者的审核后才能够使用。数据共享大多数是需要在网络上实现共享,而网络上的信息系统很有可能遭受非法访问甚至黑客或病毒侵扰。而且一旦发生,就会给造成损失。网络安全问题是数据共享必须考虑的重要问题。

所以,网络安全性和数据的不统一会造成不能进行有效的数据共享,在应用系统间所形成的“数据孤岛”是数据共享建设中亟待解决的主要问题。

还有,有的需要共享的数据有可能会涉及保密问题,涉及国家安全,如军事、政治、政府文件等。这样的话,数据共享就会很难顺畅实现。当然,一旦数据开始实现了共享可能会遭到滥用或者曲解。数据共享后,使用者没有参与一手调研,不知道数据产生的背景。如果应用它来进行研究,很可能产生错误的结论。所以,这也是数据共享的一大问题。

2.4 数据共享过程中涉及到的技术原因

首先,大数据时代的数据类型多种多样,数据源差异很大,这样会造成:(1)需要在处理数据时利用不同的硬件存储数据级别不同的软件去访问数据,在硬件和软件的要求上都需要一定的技术要求;(2)出现一些研究者在共享自己的数据后,由于一些技术原因,使得数据难以访问。因此,如何对数据进行维护和改变数据格式就显得很重要。(3)好的管理系统会使数据更易访问和使用。所以,在数据共享上,要保证质量,也需要很好的数据管理系统。这就需要更高的开发水平和能力,或需要足够的费用购买好的管理系统。[3]

3 做好数据共享的应对措施和建议

我们到底应怎样做好数据共享?就以上问题我们可以考虑以下措施和建议:

3.1 国家政策驱动,激发大家积极性

由于数据共享的重重问题和困难,就存在的问题而言,没有一定的政策倾向性和要求,大家的积极性肯定不高。在这一方面,国外就有用政策驱动而得到很好效果的国家和地方。我们完全可以借鉴国外数据共享的经验。

3.2 形成环保标准的数据源与统一整合标准规范的数据

数据标准化是数据网络共享的基础。要保证信息数据的标准,制定和执行统一标准的数据转换接口,使不同的软件能够相互兼容信息数据,保证数据的标准环保统一,便于网络的传送。要解决数据兼容问题,可以采用信息数据备份。

数据的标准化是实现数据共享的关键问题之一,也是促进数据共享形成和发展的必要条件,数据共享是当前信息研究领域的一个重要方向。随着信息技术和网络技术的发展,人们对数据共享会有更高的需求,数据共享是必须要首先解决的问题。

丰富多样的数据资源是数据共享的基础。多源的、异构的数据很有可能限制数据的统一和共享的实现。为能够将分散的数据资源集中统一,可以通过设置区域和学科分中心,促进区域和学科数据资源建设。针对具体情况,进行数据的整合,为用户提供数据资源,建立数据库和数据管理系统,通过应用软件实现数据的收集与共享等。

3.3 实现在网络上数据共享的对策

要做到很好的数据共享,最好的途径当然是通过网络得以实现。网络的发展也极大地改变了计算机系统的应用模式,因此,需要根据网络系统的特点,重新确立控制点,建立相应的控制体系。

在数据共享过程中,为了保证数据的安全,有必要时进行数据加密来传输或交换。同时,要求内部数据共享平台采用防火墙,从外部有效防止信息泄密等安全事件的发生。

对于数据源的安全保障则从以下两方面考虑:首先,设置数据管理中心,采取措施确保各岗位人员之间的职责分离,其次,建立内部审核机制,以避免数据源的安全[4]。

3.4 数据共享平台的建设是实现数据共享的命脉

要实现数据共享,最重要的当然是平台的建设。从相关材料也可以了解到,目前,国外已经建立了各种数据共享平台,如美国芝加哥大学全国民意调查中心(NORC)及综合社会调查项目(GSS)、密歇根大学社会研究院(ISR)等。国内目前较为知名的共享数据库有国家哲学社会期刊库。相比发达国家来说,目前我国数据共享平台的数量较少、规模也小。因此,应加快建设规模大、水平高的数据共享平台,为数据共享做好最重要的基础工作。除了开发建立自己的数据平台外,我们也可以引进发达国家成熟的数据共享平台加快数据共享平台建设[5]。

3.5 在数据源获取建设方面,建立奖励机制

数据共享中最重要问题是数据源的获取问题。由于人们对于数据共享的理解不够,认为共享就是免费共享,所以部分组织没有完善的奖励机制,也没有奖励标准。所以,人们提供数据源受到很大的限制。也同样会影响数据共享的进度和效应。要积累规模大,精准度高的数据共享源,需要花费很大量的时间和精力。数据提供者假如不能得到一定的回报,许多较好的、有使用价值的科学研究数据源一定不会愿意提供出来给大家使用,或者只在自己单位内部使用,很难实现社会效应。因此,应加快建立和完善数据分享的奖励机制,不断满足数据共享日益增长的需求,提供数据共享最佳最快的优质服务[6]。

4 结语

在此,虽然作者本人对数据共享所涉及到的问题进行了学习、研究和探讨,提出了一些个人观点和看法。但是,由于水平的限制,对数据共享的学习和研究还远远不够。

随着人们对数据共享要求的不断发展,数据资源的共享将会更快地成为信息化建设的紧迫要求。所以,保证数据准确地、及时地和规范地的共享,提高数据共享在整个社会中的服务水平和地位,是刻不容缓的重要任务。这对社会的发展具有非常重要的意义。

当然,也是由于数据共享的复杂性,采用技术的多样性决定了我们对数据共享的学习、分析与研究将永远是我们探讨的问题和研究的重点。

[1]杨友清,陈雅.科学大数据共享研究:基于国际科学数据服务平台[J].新世纪图书馆,2014(3):24-28.

[2]李顺,徐富春,王利强,孙强,虞朝晖,张波.国家环境数据共享与服务体系研究[J].中国环境管理,2011(2):11-17.

[3]张元钊.大数据时代图书馆数据共享障碍及对策[J].科技情报开发与经,2015(8):5-12.

[4]刘同录.企业数据共享存在的问题及其解决措施[J].现代电子技术,2009(20):88-102.

[5]范志坚,方源敏,汪虹.GIS数据的标准化与数据共享[J].中国建设信息,2007(24):60-62.

[6]左建安,陈雅.大数据时代的科学数据共享模式研究[J].新世纪图书馆,2014(3):32-35.

左彤,女,陕西乾县人,1998年生,现是育英中学高三(六)实验班学生,喜好的研究方向为电子信息。

G250.7

A

1009-6434(2016)02-0007-02

猜你喜欢
数据源科学研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
点击科学
科学大爆炸
EMA伺服控制系统研究
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
数据有增加 图表自适应
科学拔牙