浅析国内数据集检索的数据源

2020-09-10 00:23王国硕谭蓉陈彦均
客联 2020年8期

王国硕 谭蓉 陈彦均

【摘 要】国内数据集众多,为了有效检索数据集亟需面向基于垂直检索的数据集检索平台。本文从数据集数据源形成,和国内的数据集数据源分布情况进行分析,并对数据集检索存在的问题进行思考,同时为需要数据集的工作者提供参考。

【关键词】数据集;数据开放;数据集检索

数据集是由数据组成的集合,随机器学习而兴起,在数据驱动的时代,数据从未如此重要,不但应用于机器学习等领域,也是各学科的科学研究者的重要数据来源。

数据集在数据集检索平台出现之前,需要去各个网站进行站内检索,费时费力。但是除了检索公开的数据集外,想要获得大量的数据非常困难。2012年,科瑞唯安公司推出数据集引用统计和共享平台,主要分享科研过程中产生的数据集,依托著名文献库WebOfScience得到广泛传播。2018年9月,Google推出数据集检索平台(Dataset Search)的测试版,2020年1月才正式上线,搜索范围涵盖媒体、网站上存在的数据集。

国内目前数据集平台很多,尚缺少全网数据集的检索,这里针对数据集检索中数据源的问题进行浅析。

一、数据集的形成

数据集的形成早期依赖于科研过程中产生,后随着我国数据应用技术的提升和应用范围的扩大,产生了各种政府、商业领域的大量数据集。

數据集形成多种多样,为了了解数据集检索中信息源的形成根源,这里以国内外媒体在COVID-19疫情期间大量引用的霍普金斯大学的疫情仪表板为例。疫情仪表板依托的就是疫情的数据集,且来自各个国家。疫情数据虽然在各个平台包括国内的腾讯、阿里以及世界卫生组织都有发布,但任一时间,经常会看到各平台的数据不尽相同。也就是各平台相对独立,并不是互相联通,各自有自己的数据采集过程。在2020年1月份启动的时候,霍普金斯大学获取各个国家的数据,主要还是依赖手工整理,更新的数量通常每天进行早晚两次,2月份采用半自动化采集。数据源包括多个国家政府卫生部门,以及数据汇总网站,包括1point3acres(一亩三分地论坛),Worldometers.info,BNO,和COVID跟踪项目(检测和住院),依靠当地卫生部门和当地媒体报道的组合,其中,中国的数据来自于丁香园社区。

经过分析后,数据集检索中面临的几个问题:1.数据集在形成的过程中就分属各个部门、网站甚至各个国家,最后也分属在各个平台上,没有统一的检索平台,对很多科研人员查找数据造成困难。例如霍普金斯大学选择在github上进行开放。2.通过例子可以看出,一份数据集通常包含了很多科研工作人员大量的心血,特别是涉及商业领域的数据集,如何开放,哪些免费也是要考虑的问题。3.疫情数据除了在github上获取,也会在其他网站找到数据集,但是很多不能确定是否权威,还有数据集质量的问题,很多数据集如果只是简单的清洗分本无法使用。

针对目前国内数据集的情况,在没有统一数据集检索平台的时候,优先考虑现有数据集分布在哪些网站里。

二、国内数据集的信息源

(一)政府机构

从2014年广东省成立了大数据管理局并发布广州市政府数据统一开放平台之后,截至2019年上半年,我国已有82个各级的政府部门发布了数据开放平台,比2018年增加了78.2%,我国的《促进大数据发展行动纲要》中明确提出“推动政府数据开放共享”。所以,政府开放数据是大势所趋。从省级到低级,开放了各种数据平台,均提供了数据集下载的功能。

以成都市公共数据开放平台(http://www.cddata.gov.cn)为例,2018年5月平台正式开通。截至2020年7月,共开放1649个开放目录,1708个开放数据集,涉及57个部门,具体105873807条数据,5106个数据文件,86个API,13个应用。平台提供了两种方式获取数据资源,分别是下载数据和在线调用API。平台已经提供的数据来源于各政府部门,可以通过各类数据的元数据文件查看了解其来源,每类数据都有其固定的更新周期,各部门会根据数据的更新周期进行更新。

以具体数据集来看,例如“设计企业(市政)信用排名”数据集信息,该数据开放状态为普遍开放,来源部门为成都市住房和城乡建设局,数据量达到314894条,提供四种格式的下载,分别是XLS、XML、JSON、CSV。该数据集共包含10个字段,分别是主键、唯一标识、企业名称、组织机构码或统一社会信用代码、今日得分、今日排名、发布时间、提供日期、60日平均得分、60日排名,其中今日得分是定量数据。以具体一条数据来看,数据内容详细,没有缺失字段。

(二)科研机构

早期的数据集分享主要集中在科研机构的科学数据集和学术文献分享的数据。这一类数据集的应用收到开放数据运动的影响。开放数据的想法是,任何人都应可以自由使用某些数据,并在不受版权、专利或其他限制的情况下随意重新发布。”政府,组织和机构发布可以完全访问数据的开放数据已经在我国积极推进,如果科研机构也开放更多的科研数据,提供有组织,有据可查和及时的数据公开方式,它将具有巨大的社会经济价值,并有助于个人和社区做出更好的决策,对职能部门的监督只是表面功能之一,更大的价值在于可以推进社会对数据进行创新性应用,这一点更符合“数据是拿来用的“的思维。

以中国科学院数据云门户的资源学科创新平台(http://www.data.ac.cn/info/)为例,共开放180个数据集,涵盖了基础地理数据、生态环境数据、社会经济数据、典型全球数据等类别,以黄河泥沙水文数据集为例,虽然数据字段丰富,但是存在下载渠道没有及时维护的情况。通过平台的整体来看,大数据驱动的资源学科创新示范平台是面向重大科学问题和国家发展战略布局、经济社会重大需求的重要平台,国内的科研机构也在积极推进科研数据的开放,只是数据集的具体下载等需求的满足需要逐步进行完善。

(三)商业机构

商业机构也是数据集下载的重要途经,多样性较强。既有政府推动的项目也有企业的自行探索。例如,贵阳大数据交易所就是2014年在贵州省政府、贵阳市政府的支持下挂牌运营,是我国乃至全球第一家大数据交易所贵阳大数据交易所,但是主要面向企业提供数据集的交易服务。

国内存在一些致力的数据集服务的网站,该类多为近几年出现的创业公司提供的服务,以数据超市网站(http://www.data-shop.net/)为例,该平台的数据由定制的爬虫程序采集于互联网,所有数据均为网站公开的非隐私数据,任何人均可看到,以数据集的形式提供。该类数据的商业性应用更强,相当于节省了用户批量采集数据的时间,代替用户进行爬虫实施与部署,直接提供数据集,大部分是付费服务,需要用户进行权衡。

很多商业网站提供免费的致力于机器学习的数据集,例如百度的paddle和阿里的天池平台。以阿里的天池平台为例,截至2020年7月,提供的数据集有40个,注重数据量和时效性。例如,平台提供2019-nCoV 新型冠状病毒基因测序数据、中文糖尿病标注数据集、优酷视频增强和超分数据集,囊括的多领域的数据集。综合来看,创业公司的网站提供多面向市场以爬虫为主要获取途径的商业数据集,而有机器学习研究背景的公司会提供数据量较大适合深度学习领域应用的数据集

三、国内数据集检索的思考

综合上面的分析,针对国内数据集检索提出一些下列思考

(一)需要一个数据集垂直检索平台

国内的数据集广泛分布在政府机构、科研机构、商业机构和媒体以及开源网站上,构建一个垂直检索平台,专注于数据集在全网的搜索,将提高检索效率,同时让更多有价值的数据集得到应用。垂直检索平台的构建从国外经验来看,一般适合拥有搜索引擎技术且数据资源丰富的公司来实施。目前全世界范围内也在探索,但是各数据集检索的平台也在日益完善,从数据集的质量和数量上稳步提升,国内可以借鉴可参考。

(二)数据集检索需要规范元数据的著录标准

可政府开放数据早期遇到的难题相同,各个部门各自为战,各自存储了大量的數据,但是整合到同一个政府数据开放平台遇到的最大挑战就是元数据的朱璐标准不统一的问题,大幅降低了数据整合的效率。一个面向全网的数据集的垂直检索平台同样面临这样的问题,而且是各个类型的机构,数据集的元数据标准想统一难度更大。但是可以像都柏林核心元数据标准一样,将几个核心字段加以描述,同时有利于数据集的检索,更容易被用户发现,这样可以驱动数据集的提供者提高元数据的著录质量。

(三)知识产权问题

涉及到数据开发,都会考虑到哪些应该开放的问题,特别是商业领域的数据,需要加强知识产权意识,科研数据集也应该明确数据集所有者的权利,规范应享有的基本权利。良好的知识产权保护体系更有利于数据集检索的实施与数据集的利用。可以参考全世界范围内推广的知识共享许可协议(简称CC协议),将其应用于数据集的存储领域,将有利于数据集检索的实施,更快锁定信息源并知晓数据集所有者该享有的权益。

【参考文献】

[1]杨波赵扬焦红.国际主要科学数据集检索平台对比研究[J].情报工程,2020(01):22-33

[2] 徐咪咪.我国政府开放数据的元数据标准主题研究[J]. 江苏科技信息.2020(02):7-9

[3] Mapping COVID-19[EB/OL].[2020/1/23][2020/07/02]. https://systems.jhu.edu/research/public-health/ncov.