美国科研人员数据管理需求分析及启示

2023-03-05 01:11韩金凤
广东技术师范大学学报 2023年6期
关键词:数据服务数据管理科研人员

韩金凤

(广东技术师范大学 图书馆,广东 广州 510665)

0 引言

21 世纪初,科学发现步入数据密集型为特征的“第四范式时代”,科研数据成为推动科技创新的重要战略资源,如何有效管理、保存和共享数据已成为全球科研人员共同关注的问题.在数据与需求的双重驱动下,图书馆积极开发科研数据管理服务,为科研人员提供数据管理技能、技术和工具的支持.科研数据管理需求调研是图书馆开展数据管理服务的首要环节,可帮助高校了解科研人员的数据管理实践情况,明确其数据管理需求,为图书馆拓展数据管理服务与教育提供新思路.

科研数据管理需求调查进入学者和图书馆的研究视野并得到广泛关注,目前国内外在这个领域已取得许多成果.虽然调研范围和调研对象各不相同,但都聚焦于揭示科研人员数据管理需求的共性.其中,机构层面的数据管理需求调研最为常见,主要确定位于特定机构研究人员的共性需求[1-2],而不关注因学科、身份等因素形成的个性化需求.部分研究则专注于特定学科(如农学[3]、社会科学[4])研究人员的数据管理行为和需求.还有针对跨机构多学科的研究人员开展的大规模调研,如DataONE 评估小组在2009—2010 年[5]和2013—2014 年[6]对千余名科学家进行的数据管理实践调查.以上三种类型的调研都面向多层次的科研人员,而另一些研究则关注特定科研子群体的数据管理需求,包括研究生[7]、首席研究员(PI)[8]等.此外,还有一些学者对调研案例进行了总体分析,包括美国数据管理调查的定量分析[9]、英国数据管理需求调研实践梳理[10]、研究人员数据共享定性调查的元综合研究[11]等.

目前科研数据管理需求调研主要着眼于特定机构或学科研究人员的需求,而缺乏从综合分析的视角对调查结果展开研究.鉴于此,本文对2017—2023 年美国数据管理需求的调查结果进行系统梳理与深入分析,探讨科研人员数据管理行为特点,厘清科研人员数据管理需求,为我国高校图书馆实施科研数据管理服务与数据素养教育提供若干启示.

1 美国科研数据管理需求调研概貌

笔者以检索式“Title=(research data OR scientific data OR data management OR data curation OR data literacy) AND Title=(survey OR assess OR interview OR practice OR need OR behavior),在 Web of Science、Elsevier、EBSCO、Emerald、Springer、Wiley、google scholar中进行检索,考虑到调研具有时效性,为使研究更具科学性和可比性,将发表时间限定为2017年至2023 年.本研究拟定两项文献纳入标准:(1)纳入文献为美国数据管理需求调查研究;(2)文献内容包含数据管理实践、数据素养或数据需求的调查研究.根据这些纳入标准筛选出有效文献,并通过追溯其参考文献和引证文献进行查漏补缺,最终获得12 篇纳入文献.

概括起来,美国科研数据管理需求调查主要涉及两个主题:数据管理实践、数据管理服务与教育期望.调研主题是对调研内容的汇总与分类,但仅依据宽泛的调研主题无法厘清具体的调研内容,有必要对调研主题进行再细化.本研究采用内容分析法,深入阅读文献,从中提取出10 个指标,通过分析指标间内在关系,将其聚类并划归入两个主题中,美国数据管理需求调研具体内容见图1.图2 呈现了调研内容的数量分布,从中可以发现,美国调研案例中出现最多的前四项依次是:数据共享、数据存储、数据收集和数据组织,这四项常规的数据管理生命周期活动,构成了科研数据管理主流程,而数据素养教育和数据分析的关注度最低.

图1 美国科研数据管理需求调研内容

图2 美国科研数据管理需求调研内容数量分布

2 美国科研数据管理调查结果与需求分析

2.1 科研人员数据管理实践

(1)数据管理计划.数据管理计划是基金组织要求受资助者制定的数据管理方案,说明在科研活动中如何创建、管理、分析、保存和共享数据.数据管理计划知识与经验方面,克莱姆森大学2021 年调查结果显示约有50%的受访者撰写过数据管理计划,与2016 年的调查数据(6.5%)相比无疑是一个进步[12];而具备数据管理计划知识的研究生相对较少[12],得克萨斯农工大学仅有3.1% 的研究生制定过数据管理计划[13].数据管理计划求助途径方面,克莱姆森大学受访者称最有可能向同事寻求帮助(45.2%),其次是资助机构指南(14.6%),向图书馆请求援助仅占9.4%[12],然而,对于图书馆而言,数据管理计划是一项易于提供服务和拓展的领域,是图书馆服务新的生长点.

(2)数据收集.数据收集是通过调查、实验、观测、模拟等方式生成原始数据,或通过公开或非公开渠道获取数据.数据生成方面,美国调研重点在于产出数据的类型、格式和数据量,调查发现科研人员生成的数据类型主要有:数字文本和数字数据、PPT、统计数据和视听数据[12];数据格式因学科而异,人文学科科研人员最常创建和使用的是文本数据,而其他学科生成最多的是表格数据[14];三项调查结果显示,大多数研究人员产生的数据量不足100GB[12,14-15],与之前的研究结果相似[16],说明科研人员所创建的数据量大小适中,并不属于“大数据”.数据获取方面,现阶段越来越多的科研人员利用二手数据来充实研究工作,如元分析,只有克莱姆森大学关注了数据集获取,43.7%的受访者在研究中引用过数据集,获取途径包括向同行请求共享、政府网站、图书馆数据库以及追踪其他文献的引证,值得注意的是,73.5%的受访者表示愿意通过图书馆使用数据集[12].

(3)数据组织.数据组织是对数据进行记录、描述和有序组织的过程,确保数据能够被他人理解、查找和再利用.调研揭示了科研人员在数据组织方面存在的问题:①科研人员普遍缺乏元数据知识[13]和经验[13-14],不了解学科元数据标准[17],佛蒙特大学调查发现,仅有2.2% 的人采用了诸如都柏林核心集(DC)、生态元数据语言(EML)等公认的元数据标准,而另一些人则使用个人自创的标准来描述数据,通常是自述文件或编码簿[15];②科研人员倾向于根据个人偏好来组织数据[18],尤其是研究生们各自为政,缺乏统一的数据组织实践,导致项目组内难以对数据进行高效的关联和管理,有学生指出小组成员的数据版本跟踪的标识符并不统一,使得他们接手后会通常只能优先查看最近的文件,他们意识到这可能是低效的做法[13].

(4)数据分析.数据分析指对数据进行清洗、处理和分析,挖掘有价值的信息,并以图表的形式直观展示出来.在现有的调研案例中,数据分析话题的关注度最低,得克萨斯农工大学调查发现,大部分研究生表示他们更依赖于使用专有软件进行数据分析,因为他们在院系开设的统计学课程中使用过SPSS 和STATA 等专有软件,然而,他们同时也表示,如果能够获得适当的学习资源,他们愿意将开源分析软件应用于未来的研究中[13].另一项调查显示,生物学家和兽医病理学家通常使用特定领域的软件(如MacVector、MAKE、FlowJo 等)来查看和分析特定数据,包括细胞数据、显微镜数据和扫描图像,而生物统计学家更偏爱主流的统计工具[18].

(5)数据存储.数据存储指以合适的存储介质来短期备份或长期存档数据,确保数据不会丢失和损坏.关于存储介质,调查结果一致表明:科研人员最常使用的存储选项包括电脑、外部存储设备、云存储[14,19],较少选用数据存储库,其中,10.8%的受访者使用外部数据存储库,仅有1.6% 的人使用图书馆机构存储库[14].当被问及克莱姆森大学是否应设立一个数据仓储库时,80%的受访者表示支持,但同时也有许多人对存储库的功能表示担忧[12].阿肯色大学调研发现,科研人员在数据备份和数据保存时有不同的选择策略,在数据备份时他们会优先选择便利的介质,如云存储、外部硬盘、办公室电脑、U盘等,而在数据存储时会考虑到数据丢失风险,更倾向于选用稳定的介质,如:办公室电脑、实验室电脑、云存储等[19].综上,科研人员偏好易于使用且熟悉的数据存储介质.此外,一些案例调查了科研人员的数据备份与数据存档意识,大多数科研人员具有较强的数据备份意识,他们通常依赖于电脑的每日或每周自动备份,或将数据备份在外部硬盘中,而小规模研究项目的科研人员往往不太重视数据备份,尽管他们认识到备份的重要性,但例行程序并不到位[17].另外,研究生缺乏数据长期保存和数据安全的意识,他们中很少有人考虑到保留数据以供长期使用[13].

(6)数据共享.数据共享指标包括数据共享意愿、数据共享层次及数据共享方式等.共享意愿方面,美国某公立研究型大学的调查显示,52.2% 的受访者愿意与他人分享自己的研究数据[14],佛蒙特大学定性和定量数据也表明,研究人员愿意在研究小组之外分享数据,然而,另一项调查发现,大部分科研人员不愿意公开共享数据或在项目团队之外共享数据[18],且共享意愿存在学科差异,人文科学[14]、社会科学[15]领域的科研人员共享意愿较低.共享层次方面,克莱姆森大学的调查揭示了数据共享的知识差距,只有22%的人在存储库或其他公共场所公开分享,28.7% 的人会在要求或请求时共享,而43.6%的人从不共享,经过三轮调查,始终共享的比例显著增长,从2012 年的9% 增长到2016年的15.1%,再到2021 年的22%[12].共享方式方面,美国某公立研究型大学受访者最常使用的方式是个人请求共享(68%),其次是作为期刊出版物的补充材料(43.3%)或在网站上发布数据(20.6%)[14],佛蒙特大学和美国国立研究院的调查结果与之相似,期刊发表是最常见的数据共享方法[15,18].然而,尽管数据存储库具有数据共享和数据保存的双重功能,但并没有被广泛用作数据共享的手段[13-14].

(7)数据素养教育.数据素养教育是科研人员通过多种途径获取数据素养技能提升教育.一项针对科学会议上81 位科学家的调查发现,68%的受访者表示并未接受过数据管理培训[20].关于数据素养教育途径的调查主要集中在研究生,研究生表示自主学习是他们获取数据管理技能最常用的手段,而教师则认为研究生主要通过教师或顾问的指导来学习数据素养,师生一致认为:朋辈学习与课程也是数据管理技能学习的常见方式,而图书馆和信息技术则较少作为教育来源,另外,教师还指出专业会议、研讨会、项目工作以及资助和伦理审查委员会培训也是学生学习数据管理的途径[21].研究生的信息寻求行为通常局限于研究环境内,他们更倾向于咨询导师、其他教师、实验室管理者和同行[22].综合来看,研究生主要通过向内汲取的方式接受数据素养教育.此外,得克萨斯农工大学的调研指出数据素养教育存在的不足:由图书馆提供的数据管理培训主要针对教师、研究人员和图书馆员,而研究生和研究助理作为接触数据最多的人,却缺少数据管理培训,因此,教师需要鼓励或要求学生在入职时接受数据管理入门培训,以确保每个人都遵循统一的标准和程序[12].

2.2 科研人员数据管理服务与教育期望

数据管理服务与教育期望是在调查中由科研人员主动反馈的、针对数据管理服务和教育提出的解决方案式的需求,主要包括3 个指标:数据管理挑战、数据管理服务期望和数据素养教育期望.

(1)数据管理挑战.调查结果显示,研究人员在数据管理过程中遇到的挑战主要有:数据分析[21-22]、数据组织[17,21-22]、大型数据集存储[17]、数据共享[17]以及处理学生离职或毕业时遗留的数据[17]等.教师和研究生在数据管理挑战的认识上有所差异,教师认为最大的挑战在于数据监管与重用以及数据保存,而研究生则认为数据处理与分析、数据规划与组织是更大的挑战[21].研究生指出数据分析的困难主要在于:缺乏分析技术知识、不熟悉分析方法和分析工具的使用,以及统计建模能力和数据解析能力较弱,而数据组织的挑战在于:组织工具技术障碍、工作量大且耗时、难以保持一致和准确[22].数据共享的过程中,最常见的障碍是缺乏足够的文档和元数据[18],其次是缺乏共享数据所需的专业知识[12,14]、缺少共享数据所需的时间和精力[12,14]、担心被 误解误 用[14-15]、知识产权问题[14-15]、机密或专有信息[14-15]以及保护隐私信息[12]等.

(2)数据管理服务期望.根据得克萨斯农工大学的调查,研究生对大学图书馆数据管理服务的认知程度不高,超过一半的受访者表示从未听说过这项服务,只有三成的受访者知道数据管理服务,大多数是通过其他教师、学生和工作人员了解的,少部分是通过研讨会得知的[13].从事大规模研究的教师比小规模研究的教师更清楚大学图书馆提供的数据服务[17].

佛蒙特大学调查发现,受访者对图书馆技术性数据服务(如数据分析和统计支持服务、信息门户网站、数据管理模板和工具)的需求较高[15],但对咨询性数据服务(如数据管理咨询和研讨会)的需求较低.美国某公立研究型大学受访者希望在以下领域获得帮助:量化分析、数据可视化、查找合适的存储库、数据管理计划、完成资助者共享数据的任务、数据收集等,最不需要支持的服务是数据组织和查找现有数据集[14].克莱姆森大学教师和研究生最感兴趣的前四项数据服务基本相同,分别是选择数据存储库、数据共享教育、项目前数据管理培训、编写数据管理计划,不同之处在于:教师希望获得数据长期存储与获取的帮助,而研究生则倾向于查找数据集并应用于研究中[12].综合来看,数据管理服务需求主要集中在数据存储、数据分析与可视化、数据共享、数据收集和数据管理计划等领域,而且数据管理服务需求在不同群体间存在一定差异,因此在提供服务时应有所侧重,以满足不同用户群的需求.

(3)数据素养教育期望.主要从教育主题和教育方式两个方面对数据素养教育期望展开调查.期望的教育主题方面,阿肯色大学受访者表示有兴趣参加以下主题的培训:数据管理计划、日常科研数据管理、准备数据并创建元数据、传播数据等[19];而在社会科学领域,研究生感兴趣的培训主题是:数据文档和组织、数据版本跟踪、使用开源软件进行数据分析,以及数据保存和安全[13].研究生更倾向于参加与研究行为密切相关的培训,如数据组织最佳实践、数据共享、发表数据集等,这与他们在项目期间承担的数据管理职责相对应[21].期望的教育方式方面,夏威夷大学马诺阿分校的师生希望能在线观看教学视频、PPT 和文本等异步学习材料,且学习模块应设计成小段,每个模块的学习时间少于2 小时[23].科学家们更喜欢研讨会和网络研讨会,而对面对面指导或者书面辅导不太感兴趣[20].这些需求和偏好都为数据素养教育指明了方向.

2.3 科研人员数据管理行为特点与需求分析

综合上述调研结果,探讨美国科研人员数据管理行为特点,从中析出具体的数据管理需求.

(1)科研人员数据管理行为呈现出个性化及随意性特点,这在数据组织和数据存储两个环节中尤为明显.由于缺乏数据管理政策、技能培训、基础设施等方面的规范指引,项目组成员按照个人喜好和习惯制定多种数据管理策略,导致组内数据管理工作分散且无序.在数据存储方面,科研人员更偏好于使用熟悉且易用的存储介质,而很少选择容量更大、功能更丰富的存储库,这对数据的安全性、长期维护及共享造成了不利影响.

(2)科研人员在数据管理方面的知识相对薄弱,主要表现在缺乏数据管理计划、元数据、数据分析、数据存储、数据共享、数据服务等方面的专业知识,导致数据管理效果欠佳.因此,学校有必要强化数据管理教育,帮助科研人员重建数据管理知识体系.

(3)科研人员对数据存储量的需求以小数据为主.当前大多数科研人员持有的数据量较少,对数据存储空间的要求也相对较低,“小数据”研究的一个特点是数据存储过度依赖电脑、笔记本电脑或外部硬盘[15],然而,这些存储设备无法满足大型数据集的存储需求.因此,部分科研人员正在寻求大型数据集的解决方案.

(4)科研人员的数据共享意愿和共享层次普遍不理想,大多数选择局部共享或者完全不共享,这主要归因于他们不了解数据共享的好处、缺乏相关专业知识以及担心数据被误解误用和泄露隐私信息等问题.同时,数据共享所需的时间成本和精力成本也较高,这也是他们不愿意共享数据的一个关键因素.

(5)了解和主动使用图书馆数据管理服务的科研人员较少,他们主要关注与项目启动和研究进展直接相关的数据服务支持,如数据管理计划、数据收集、数据分析、数据存储、数据共享等,同时,与咨询性数据服务相比,他们对技术性数据服务的需求更大.

(6)科研人员缺乏数据素养教育,其数据管理知识与技能主要来自于非正式的教育渠道,如自学、组内指导与咨询、朋辈学习等.在培训主题方面,他们更感兴趣的是与研究行为相关的主题,更喜欢在线提供异步学习材料、网络研讨会、研讨会等教育方式.

(7)科研人员的数据管理实践和需求受到学科、项目规模和学术角色等因素的影响,因此,学校应针对各学科各类型研究人员的需求,开展分类分级的数据素养教育.

综合上述分析可知,科研人员数据管理需求主要集中在以下四个方面:①数据管理服务的需求,科研人员对能切实解决数据管理难题的数据服务具有最高优先级需求,而且希望加强数据服务的宣传营销;②基础设施保障的需求,包括能同时满足小数据研究和大数据研究的数据存储库、集成数据管理资源和工具的数据管理平台等;③数据素养教育的需求,科研人员希望获得实用性强、精准化的数据素养教育;④支持数据共享的需求,科研人员作为数据生产者和数据消费者都有共享数据的需求,希望适时获得帮助.

3 启示

3.1 强化数据服务营销,提供高质量数据管理服务

调查显示大多数科研人员对数据管理服务并不熟悉,也很少利用图书馆提供的数据服务,遇到问题时很少向图书馆员寻求帮助.为提高用户对数据管理服务的认知度和使用率,图书馆应拓宽数据管理服务的宣传渠道,采用院系试点、走访项目组、发放调查问卷、宣传手册、海报、网站公告、微信公众号、QQ 群、微信群、电子屏、学术互动社区等多种方式进行宣传,以加强数据管理服务的宣传营销.

科研人员在数据管理方面的薄弱环节、挑战和期望正是图书馆拓展服务的切入点,包括数据获取、数据组织、数据分析、数据存储以及数据共享等.图书馆应以用户需求为导向,针对用户在数据管理工作中遇到的难题,挖掘新的服务生长点,不断丰富服务内容和服务形式,进一步拓展数据管理服务的广度.同时,真正高质量的数据管理服务应贯穿科学研究全过程,图书馆应重点发展嵌入式数据管理服务,融入用户科研环境和工作流程,即时捕捉用户数据需求,提供深层次、精细化、个性化的数据服务,推动数据管理服务从广度向深度延伸.

3.2 充实数据资源,建设便捷化的数据管理平台

调查发现科研人员数据组织和数据存储行为具有个性化、随意性的特点,这与缺乏完善的基础设施有关,因此,图书馆应着重加强校园数据管理基础设施的建设,主要从以下两个方面构建一站式数据管理平台:一是建设资源配置完善的集成式数据管理服务平台,我国高校图书馆应通过按需购买或搜集数据集等方式加强数据资源建设,在现有的网站基础上,将数据管理作为一个独立的子模块,集成数据集、数据管理培训资源、数据服务内容、数据管理工具与软件等资源,实现数据资源一站式发现与获取,提升数据资源与服务的利用率;二是建设易用的数据存储库,易用性是影响科研人员进行数据存储决策的关键因素,图书馆在建设数据存储库时,必须重点解决系统易用性问题,此外,图书馆还应向科研人员广泛宣传存储库的独特功能,包括:能同时满足小数据研究和大数据研究的数据备份与保存、保护数据隐私、数据共享、数据重用等.

3.3 完善内容建设,构建分层次、多形式的数据素养教育体系

根据调研结果,大部分科研人员并未接受过数据管理培训,但他们对此类培训比较感兴趣,并积极投选所需的数据管理培训主题.图书馆应以普及数据管理知识、提升数据素养与技能为目标,根据用户的需求和特征,完善数据素养教育内容建设,构建分层次、多形式的数据素养教育体系.第一,教育内容方面,在系统覆盖数据管理全生命周期内容的基础上,注重实践,将教育重点放在用户当前或不久的将来可以实施的内容上.第二,教育方式方面,除了传统的课程、培训、研讨会、沙龙、面对面指导等线下的方式,还应充分利用网络课程、在线提供学习资料、在线指导、数据管理平台等线上的方式,图书馆应采用线上线下相结合的方式开展数据素养教育,以扩大教育的覆盖面和影响力.第三,教育层次方面,图书馆应针对各学科各类型用户的需求和行为倾向,分类开展差异化的数据素养教育,如为新入学的研究生开展数据管理入门培训,为科研团队提供嵌入式数据管理培训.

3.4 多措并举,实现更大范围的数据共享

针对科研人员的数据共享意愿和共享层次普遍不高的现象,图书馆应采取多种措施促进数据共享:首先,图书馆可以与校内其他部门合作建设数据共享平台,整合科研数据共享政策、学科数据共享规范、数据共享实践优秀案例、数据存储共享平台等信息,为用户提供便捷的数据共享资源导航.其次,图书馆可以与学校科研部门联合制定数据共享激励机制,在学术任命、晋升、认可和奖励等方面对共享数据者予以激励,以提高用户共享数据的积极性,并增强机构数据存储库的数据完整性.最后,图书馆可以通过提供数据共享援助,强化用户对数据共享的理解和认同,重点为用户提供元数据方面的培训与支持,元数据是影响数据共享与可访问性的关键因素,科研人员作为数据生产者和数据消费者都会面临元数据描述与理解的挑战,图书馆应提供必要的协助,帮助科研人员开展元数据描述与数据文档利用工作.

猜你喜欢
数据服务数据管理科研人员
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
地理空间大数据服务自然资源调查监测的方向分析
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
科研人员破译黑猪肉特征风味物质
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
治疗艾滋病,中国科研人员有了新发现
广东公安科研人员风采
如何运用税收大数据服务供给侧结构性改革