国内科学数据共享平台建设现状及发展策略研究

2018-09-19 01:55李正超
图书馆理论与实践 2018年8期
关键词:数据管理科学服务

李正超

(郑州师范学院信息科学与技术学院)

随着云计算、大数据、物联网等技术发展,科技文献信息数字化速度加快,数字资源与技术流、资金流、人才流一样,业已成为区域重要的生产要素和社会财富。世界各国的政府和相关组织也对科学数据管理与共享给予有力的支持,联合国教科文组织将科学数据定为开放存取信息资源;英国决定由政府资金支持的科学数据、研究成果免费向公众开放,不受版权等因素的影响;欧盟委员会也发表了类似声明,通过保证科学数据的长期可获取、共享及重复利用,为其未来发挥更大的作用奠定基础。因此,对科学数据共享进行研究尤为必要,特别是高校,其科学研究具有整体活跃、学科范围广泛、研究基础良好等特性,易于产生海量的数据,这些数据各自分散、孤立、互动性较差,造成了科学数据管理极为复杂的局面。[1]

1 国内科学数据共享理论研究

科学数据共享的模式多种多样,刘润达等[2]把科学数据共享归为专业化生产、联合共建共享、数据交换;王培正等[3]认为科学数据共享可划分为基于完全开放数据库的共享、基于查询接口的共享、基于元数据的共享、基于开放网格服务架构(OGSADAI)数据集成的共享四种模式;王晴[4]提出了科学数据共享公益性和商业化两种模式;完颜邓邓[5]根据澳大利亚高校制订科学数据管理与共享政策的经验,提出制订我国高校科学数据管理与共享政策时,内容应完整全面、各项规定应具体明确、细化对相关者责任的规定、明确各方职责、及时更新政策内容;张丽丽[6]认为科学数据共享可分为组织内部的数据共享、有管制的数据共享、中间体形态的数据共享、市场形态的数据共享等多种模式;魏悦、刘桂锋[7]针对英美澳三国的高校科研数据管理政策比较,运用数据生命周期理论论述科研数据管理政策内容,为国内高校科学数据共享平台建设和发展提供理论研究基础和实践应用参考;温芳芳[8]通过分析总结国外科学数据开放共享政策法规,为我国制订相关政策提出政府引导、发挥政府部门与公共资助机构的领导力等建议;黄国彬等[9]通过研究英、澳科学数据共享过程中的个人隐私保护政策,为我国科学数据个人隐私保护政策的制定与实施提供借鉴;东方[10]以美国图书馆界科学数据管理与共享的实践为案例,对国内科学数据共享启示包括持续关注科学数据管理与共享、开展科研项目的研究等内容;王延飞等[11]结合国际上科学数据共享发展的典型案例,通过解析发现,在科学数据共享生态中重点活跃领域、关键技术、适时开放评估等内容是我国亟待完成的研究任务。

总的来说,目前国内学者研究科学数据共享大多借鉴国外的文献研究成果,如,英国、美国等,研究领域涉及共享政策、共享治理、共享实践、隐私权等。对于科学数据共享平台的现状,虽然有少量的自评估及构建情况的报告提交,但整体上对这些科学数据共享网站现状的研究还很少,更缺乏对其数据资源、信息构建以及服务等优劣情况进行深入和综合的考察。

2 国内科学数据共享平台建设现状及问题分析

2.1 国内科学数据共享平台建设的总体情况

目前,国内科学数据共享平台总量颇具规模,已有近200个科学数据共享平台(包括非独立域名下的二级网站)。其中,高校科学数据共享平台、复旦大学社会科学数据管理平台、北京大学开放研究数据平台等8个平台发展较具代表性(见下表)。

表 国内科学数据共享平台建设现状

整体而言,国内科学数据共享平台总体建设状况良好,已由高校如武汉大学、复旦大学、北京大学等延伸到中国科学院、国家科技基础条件平台中心以及省级情报信息机构,如,四川省、上海市等。这些科学数据共享平台主要开展科学数据的存储、备份和共享服务,整合科技资源,提升创新能力。

2.2 国内科学数据共享平台建设中存在的问题

(1)思想认识不足,建设资金来源单一。科学数据共享平台是一个庞大的系统工程,包括建设目标、资金来源、服务方式、数据付费状况等。据调查,个别平台主管单位或承建者对科学数据共享存在认识不清、界定模糊的问题。① 一些科技文献共享平台中将链接的部分科学数据内容等同于科学数据共享平台,如,广东省科技文献共享平台的科学数据混淆了科技文献与科学数据的区别,科技文献包含了科学数据,而科学数据共享平台突出元数据的获取、组织、共享、保存与安全等,专指性较强,宽泛的界定将不利于科学数据共享平台健康发展。② 充足的资金来源是科学数据共享平台建设的基本保障。国内科学数据共享平台的建设资金来源单一,缺乏企业等商业机构的合作,单一性的资金来源很难维持科学数据共享平台建设的可持续发展。如,智能制造科学数据服务平台是国家科技基础条件平台建设的子项目,由科技部、财政部共同组织实施;中国科学院科学数据云由中国科学院信息化专项和国家科技基础条件平台资助;复旦大学社会科学数据研究中心提供经费,并主持建设复旦大学社会科学数据管理平台;北京大学开放研究数据平台的经费来源于北京大学图书馆等。

(2)服务方式单一。科学数据服务功能多种多样,包括数据检索与获取、最新动态推送、工具和模型应用、图书馆信息服务、多媒体展示等。国内科学数据共享平台普遍侧重于数据的推送、检索、浏览、查询、下载、可视化等,而忽视了传统的信息服务功能、社交媒体与手机APP研发等,以至于用户使用起来较繁琐,从而降低了科学数据利用率。武汉大学图书馆高校科学数据共享平台以开源软件Dspace为平台基础,可获取各类型科学数据,组织、创建符合用户需求情景的数据库,存储、发布自己的数据;也可在平台上查询、搜索已发布的数据。北京大学开放研究数据平台提供研究数据的查询、浏览、检索、下载、针对性的数据支持(如统计分析)等服务。除了中国科学院数据云DataPub数据共享社区数据社交平台,其他平台仍存在很大的空白,仍有拓展的空间。

(3)国内科学数据共享平台服务内容强化数据主导型,淡化了数据服务型。一方面,国内科学数据共享平台服务内容不完善,没有认清科学数据服务内容生命周期性。科学数据共享平台服务内容包括数据管理计划、数据空间、数据集、数据组织、数据描述、数据发布等,具有明显的生命周期性,即科学数据生产、科学数据组织、科学数据存储、科学数据出版与科学数据利用。武汉大学图书馆高校科学数据共享平台、复旦大学社会科学数据管理平台、北京大学开放研究数据平台、中国科学院科学数据云等均含有数据提交、收集、组织、存贮、分析、可视化、共享、分布、出版功能,但缺少数据管理计划功能。复旦大学社会科学数据管理平台、北京大学开放研究数据平台都选择开源软件Dataverse为科学数据共享平台基础,具有较好的数据分析和可视化功能,而武汉大学图书馆高校科学数据共享平台以开源软件Dspace为平台基础,数据分析和可视化功能较弱,用户不能直接进行在线分析和可视化处理,降低了科学数据的使用率。另一方面,国内科学数据共享平台普遍缺少科学数据教育培训与知识科普宣传推广服务内容。教育培训与知识科普宣传应为平台重点构建服务内容之一,仅发现国家地球系统科学数据共享服务平台设置 “知识百科” 栏目,并对其内容进行了分类。

(4)科学数据共享平台存在不确定因素,风险无所不在。科学数据共享平台往往涉及数据资源整合、数据出版、数据交易等内容,而科学数据监管项目是一个不断发展变化的复杂系统,尤其要在未来相当长的一段时间保证科学数据的可用性、真实性和可理解性。实验数据丢失或被损毁、设备故障、病毒侵袭等风险可能同时存在于平台系统之中,互相作用、产生连锁反应,导致科学数据监管工作更加繁重、复杂。现阶段,科学数据往往以高校、科研机构为单位储存各自的数据,但是各个单位之间的数据、单位内部数据与数据的关联性不高,数据之间的关联价值未能充分体现出来,难以实现跨单位、跨组织科学数据的开放获取,制约了科学数据的效益与价值得到最大化发挥。[12]北京大学开放研究数据平台采取DOI(Digital Object Unique Identifier,数字化对象的识别符)、规范的数据引用、灵活的访问控制、请求与审核机制、规范的版权保护、实名学术社区等,规避侵权风险;四川省科技文献共享服务平台对于一些特殊的数据访问,设置权限,仅面向四川地区的用户。国内很少有科学数据共享平台将数据的访问与安全及共享紧密联系起来,在显著位置提醒用户数据访问时需要注意保护数据的知识产权、版权、敏感和私密数据的访问等,也很少有平台关注到数据组织机构对元数据做出的说明,如,数据描述、文件命名与格式、版本控制,没有形成统一的规范标准,不利于科学数据的存储与分享。

3 国内科学数据共享平台建设策略

3.1 以开放的思想进行科学数据共享平台的顶层设计

大数据时代,全社会倡导创建“人人都是数据的提供者,人人都是数据的使用者”的数据共享服务环境。科学数据共享平台建设者需要转变思想观念,充分认识到科学数据管理的重要性与必要性,敢于进行顶层设计,制定不同阶段的发展目标、实施方案等。科学数据是一个新兴事物,需要对其统揽全局,规避数据过时、携带病毒等威胁与侵犯风险,创建有效、可信的科学数据存储库,以便广泛地进行分享交流。

(1)数据云服务。科学数据共享平台由数据环境上升为数据云服务,分为三层,第一层为SaaS即科学数据应用服务,包括共享社区、不同学科的数据云;第二层为DaaS即科学数据分析技术,包括数据处理、数据资源管理;第三层为IaaS即科学数据基础设施服务,包括存储资源、计算资源和数据资源(见下图)。

图 科学数据共享平台研究框架

(2)合理的组织架构。科学数据共享平台是一个组织或机构,应具备组织或机构的构成要件。因此,平台的主管部门可以为科学数据的共享成立专门的科学数据共享委员会,配置主任、副主任、组员若干名,委员会下设科学数据共享指导小组和行动小组。[13]指导小组涵盖不同学科领域的专家、学者,提供及时、专业的知识服务。行动小组主要由研究机构、图书情报机构等牵头,具体实施用户服务、运营管理、参考咨询以及服务协调。

(3)完善平台管理。科学数据共享平台需要制定加盟协议、岗位工作职责、使用规则、服务指南、元数据标准等。平台制度也包括专项资金投入制度,如数据库建设招投标、科学数据项目补贴资助等,专项资金可以由政府财政拨款,也可以积极引入社会力量参与科学数据建设,[14]并能够借鉴高校图书馆数字资源联合采购的成功经验,制定科学数据共享平台联合科学数据采购制度与实施办法。平台制度也含共建共享制度,包括统一规划科学数据建设、推进系统内数据合作建设、推进跨系统数据合作建设等。平台应制订科学数据长期保存政策,以及建立科学数据建设与服务的信息公开、投诉处理和责任追究等机制,从宏观政策层面保障科学数据共享平台建设与服务。

3.2 拓展科学数据服务方式

科学数据共享平台是有效开展科学数据管理的主要手段,服务方式多种多样。科学数据共享平台除具备科技文献信息服务方式外,又具备了科学数据服务,即,科学数据管理计划、科学数据获取、科学数据存储与共享、科学数据再利用、科学数据管理培训、科学数据保护与道德,以及科学数据管理参考咨询。[15]科学数据共享平台还应充分利用主流社交平台,如,新浪微博、腾讯微博、微信公众号等,及时更新通知公告、资讯动态、政策法规、研究报告等。上海研发公共服务平台的科技创新资源数据中心通过开设科技114服务热线、开通微信公众账户等措施,吸引更多用户使用平台各类服务,促进科研成果的推广。中国科学院数据云利用DataPub数据共享社区数据社交平台,推动数据共享与交流。DataPub数据共享社区具备以下功能:① 我有数据,即将数据发布到Datapub上,使更多人知道和可以获取复用科学,充分发挥数据价值;② 我要数据,即查找和获取Datapub上的数据,或将数据需求提给工作人员;③数据互动,即朋友圈交互、数据社区交互,进行全方位的数据交流与互动。通过DataPub,用户可以高效地获取数据;数据提供者获得了有效的沟通渠道。DataPub以互联网社交的方式构建数据交互系统(关注、好友、收藏、动态、社区),具有完善的数据评价机制(数据点评、结果分析、benchmark),可进行统一数据服务与集中管理(统一认证、数据授权、数据缓存)。

3.3 完善科学数据的服务内容

(1)数据主导型服务内容。科学数据共享平台多为数据主导型,重视对用户已经生成的、平台自身收集、整理的科学数据进行存储和管理。武汉大学社会科学数据管理平台、中国科学院科学数据管理平台主要用来实现数据的存储和共享;复旦大学社会科学数据管理平台不但具有数据存储和共享功能,而且将数据嵌入到用户科研一线服务。[16]

(2)教育培训与知识科普宣传推广。科学数据管理与共享教育及培训是科学数据共享平台一项重要的服务内容,具体包括工作人员培训和用户培训两种形式。平台工作人员需要具备数据抽取、转换、加载(ETL)流程和数据管道建设等专业知识以及丰富的数据仓库技能。通过了解平台所需的数据、识别相关的新数据源、提取可用的格式数据,确保数据不出错并将数据加载到用户需求中,满足用户的知识需要;同时,其必备的工具技能包括精通R语言或Python编程、强大的SQL技能、基于Hadoop的技术(如MapReduce、Hive和Pig)等。随着多条数据流水线开始出现,Dataverse、Airflow和Luigi等开源工作流管理工具可用于创建和监控数据流水线。以上是对平台工作人员培训的要求,既可通过短期技能培训,也可通过高校、研究机构等数据管理专业开展学历教育,二者根据情况而定。短期培训课程的内容主要包括制定数据管理计划、科学数据组织、科学数据保存、科学数据监管、元数据管理、数据存、科学数据监管、元数据管理、数据共享等;[1]学历专业教育课程主要包括科学数据分析、科学数据监护、数据挖掘、科学数据开发与共享等。国内信息专业教育有必要面向数据科学的信息管理与信息系统专业课程体系,从数据科学基础理论、实验方法和数据研究领域全面培养。[17]用户培训以短期培训为主,注重技巧、经验等应用,以提高用户信息素养。另外,科学数据共享平台强调知识科普的重要性。[18]用户通过知识科普,熟悉科学数据获取内容(如,数据过程要求、权限与认可)、数据组织、数据保存、数据共享、数据安全等管理政策,提高用户科学数据利用能力与平台服务效率。

(3)特色资源库建设。科学数据共享平台也应重视特色资源库建设,如,上海大型仪器设施信息服务数据库,提供上海2万多台(套)大型科学仪器基本信息、共享服务情况和政策配套等信息的查询、比对、筛选服务。

(4)精准服务内容。科学数据共享平台提供精准服务内容,是指由以用户共性需求为配置资源依据转变为以用户个性化需求为配置资源依据,为用户提供资源配置方案。[19]如,利用数据仓库技术,在对大量数据进行整理的基础上,以用户访问科学数据日志为依据,选取用户知识偏好为实验数据进行研究,达到数据精确推送。又如,行业研究报告数据库可按国家行业分类标准分别建库,为促进企业、尤其是科技型中小微企业加速发展而量身定做的决策咨询高端平台,其主要栏目可分为行业资讯、市场分析报告、技术研究报告、政策环境报告、综合分析报告、专题报告定制、行业研究报告题录等;数据库资源涉及各行各业;其中,行业资讯每天更新,深度报告按行业每月更新,全年更新深度报告也应达到一定数量。

3.4 重视科学数据共享平台的风险管理

科学数据共享平台建设之初,将科学数据监管项目纳入建设之中,详细分析系统可能面临的各种风险,制订完善的风险管理策略,保证系统长期、有效运行。科学数据共享平台注重研究科学数据共享中监管项目风险管理,包括数据资源优化整合、数据出版、数据交易可能呈现的风险;大力培养科学数据人才,如,数据管理咨询人员、科研数据馆员、数据验证人员、数据分析人员、数据可视化分析人员、数据管理专家、数据服务协调人员等。同时,科学数据共享平台针对价值较高的科学数据长期保存可以通过SaaS软件实现,如通过异地备份来保证数据安全;性价较低的科学数据,可以进行及时更新,保障科学数据的更新速度。因此,科学数据共享平台首先充分利用技术手段,如,利用防火墙和VLAN对不同区域、不同网络、网络资源间的访问进行限制,或建立平台网络防病毒体系,或平台网络安全监控中心,全程监控。此外,科学数据共享平台也应强化管理,包括人员安全培训、制度建设、安全普法教育等,规避科学数据共享平台的风险。

猜你喜欢
数据管理科学服务
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
点击科学
服务在身边 健康每一天
科学大爆炸
服务在身边 健康每一天
服务在身边 健康每一天
招行30年:从“满意服务”到“感动服务”