生命科学数据管理的主体责任与驱动机制研究

2021-09-08 05:55夏义堃管茜周艳
图书与情报 2021年3期
关键词:数据共享利益相关者

夏义堃 管茜 周艳

摘   要:生命科学数据管理是推进生物技术创新和医疗健康水平提升的重要基础与关键要素,从责任主体驱动机制与数据行为角度展开分析能够为完善生命科学数据管理提供实践指导和理论启发。基于利益相关者理论和科学数据管理框架,运用文献调研法和网络调查法、案例分析法,归纳和分析不同责任主体的生命科学数据管理行为。生命科學数据管理的责任体系多元复杂、价值诉求与数据管理方式多样,只有激发研究人员、资助方、期刊出版方、数据仓储/平台、学术共同体多主体数据管理参与热情,形成协同管理模式才能够营造高效的生命科学数据管理生态体系。

关键词:生命科学数据;科学数据管理;数据共享;利益相关者;数据管理责任

Abstract Life science data management is the key foundation and factor at the promotion of biotechnology innovation and medical level. It will provide practical guidance and theoretical inspiration for the improvement of life science data management by the perspective of responsibility-driven mechanism and data behavior analysis. Based on stakeholder theory and science data management framework, the author sorted out life science data management behaviors of different responsible entities by the methods of using literature research, network investigation and case analysis. There are multiple entities, value needs and various management methods in the complicated process of life science data management, and the efficient ecosystem of life science data management should be built through stimulating the enthusiasm of multi-entities' participation and forming a collaborative management model.

Key words life science data; science data management; data sharing; stakeholders; data management responsibility

在数字化时代,各类生物、医学实验所产生的大量原始实验数据,不论是用于流行病学、药物遗传学还是干细胞研究、癌症研究以及精准医学研究,都具有举足轻重的地位。有关生命科学数据的收集、存储、加工等数据管理活动被视为“生物价值”生产的关键要素,对于生命科学研究的创新以及生物医药产业效益提升具有不可替代的重要影响。因此,推进生命科学数据管理能力和效率的提高刻不容缓,本文基于国内外生命科学数据管理相关研究成果,对生命科学数据管理理论的发展脉络、主要政策及其内容要素进行梳理,并将利益相关者理论融入生命科学数据管理生态体系中,从多元责任主体的角度分析各方数据管理利益诉求,并提出建立生命科学数据管理的多元协同模式。

1   研究回顾与问题的提出

1.1    生命科学数据管理研究综述

生命科学数据管理是科学数据管理的重要组成部分,其数据管理实践早于其他学科,可溯源到20世纪60年代美国学者的蛋白质序列数据共享行为,即《蛋白质序列和结构图集Atlas》的发布[1]。而其他学科的数据共享可追溯到1985年美国国家统计委员会发表的“共享研究数据”报告[2]。数据管理与生命科学研究之间有着紧密的内在联系,在生物学领域,支持数据共享的学者往往会强调各类材料和数据交换的学术传统[3],有学者甚至直接指出生命科学和精密医学领域的“更大思维”就是数据驱动的研究[4]。国内外有关生命科学数据管理的研究主要集中在以下方面:

(1)生命科学数据管理重要性研究。很多学者论证了基因组数据收集与共享、基因数据挖掘与比对、基因序列分析等在基因组学、系统生物学、结构生物学等新兴学科孵化以及基因诊断等实践应用中的重要作用[5-6];随着大数据的发展,一些学者从生物医学样本的数字化转换过程及其与多源数据的关联融合角度,探讨生命科学知识生产加工的数据化过程和学科交叉融合的深刻意义[7-8],如促进信息共享,理解癌症就是理解有关癌症的信息等[9],“使广泛的数据利用和分析用于疾病诊断,寻找新的治疗方法以及对人类生物学的更好理解”[10]。

(2)生命科学数据管理规范与特点研究。许多学者从科学数据管理视角探讨生命科学数据管理的制度标准,指出在生物、医学等领域,应创建复杂的、内部一致的、可扩展的数据管理体系,并为收集,存储,保存、访问和引用科学数据而开发标准和准则[11-12],也有学者研究生命科学数据存储、数据空间建构标准与FAIR原则等实践[13-14]。同时,可复制性、可验证性等质量要求也是生命科学数据管理研究的热点,对数据质量要素内涵的探讨始终在持续进行中[15-16]。同时,生命科学自身复杂性带来的数据标准以及元数据制定等各种挑战及其解决办法也是研究的重要内容[17]。

(3)生命科学数据开发利用研究。如Gardner[18]、Bhattacharya[19]等从开放数据集、提取数据中的生物学信号、建立元分析、进行科学发现与研究验证等角度分析了研究人员生命科学数据再利用行为与过程;也有学者从数据再利用实践角度展开分析,如TFrisby和Contreras[20]分析2018年美国癌症登月项目获批者的数据存取与共享政策執行情况,调查研究人员数据共享动机等[16],指出生命科学管理与共享政策的执行仍面临政策推介不足、执行指导以及研究人员技能培训薄弱等一系列现实困难,生命科学本科生或研究生培养体系中有关数据共享和再利用教育并未得到重视和明确[21]。同时,也有学者从文化传统角度指出要真正实现生命科学数据的再利用,还需要实现文化氛围的改变[8]。

(4)生命科学数据利用中的安全与伦理研究。生命科学数据利用的伦理与安全问题一直受到各方重视,相关研究主要集中在隐私保护和知情同意履行以及数据权益归属、分配公平等方面,对保密性的恐惧和隐私保护要求等伦理挑战问题贯穿数据产生及其应用[22-23],“涉及研究内容、研究过程、研究结果、成果及其转化的整个过程[24]”。许多学者提出应建构保障性制度框架,在数据质量、数据访问与存储等基础上,应增加参与者隐私、风险和利益以及伦理原则等内容[25],“需平衡开放数据源的安全和隐私挑战与开放数据对改进研究和医疗服务的潜在效益”[26]。也有学者提出应对生命科学数据生产者、研究人员与使用人员的数据供给与利用义务进行责任限定[27]。

1.2    生命科学数据管理责任与利益相关者理论

20世纪90年代以来,包括生命科学数据在内的科学数据开放存取与共享等管理问题受到普遍重视,伴随数据驱动研究范式的出现和开放数据运动的推进,有关科学数据管理的制度体系在英美发达国家不断完善。2010年,美国国家科学基金会颁布《数据管理指南》,明确要求所有提交的项目申请书都必须包含“数据管理计划”,并要求指明责任主体。如国家科学基金会下属的生物科学理事会要求在数据管理计划中应说明各方在管理和保留研究数据(包括关键人员离开项目的应急计划)方面的职责义务[28]。同时,美国国立卫生研究院进一步规定,数据收集与管理的职责分别由学术带头人和数据管理/数据管理中心负责,此外,学术带头人及临床诊所还应该负责决定数据的加工利用是否需要遵守联邦隐私保护条文[29]。参照美国国立卫生研究院有关数据管理责任范畴的界定,可将生命科学数据管理责任细分为如下内容:

(1)制定数据管理计划,包括但不限于: 数据标准、操作流程、数据源的描述、数据收集和处理程序、数据传输格式和程序、数据管理质量控制程序以及数据安全措施等。

(2)相关人员数据伦理与数据素养教育、培训。

(3)数据管理计划的有序执行,包括数据采集与创建、数据组织与存储加工、数据传播与共享等流程的质量控制,如及时记录数据、修正数据等。

(4)数据平台或数据仓储,包括数据许可、数据审核、数据服务工具开发、数据获取请求的迅速查询与回应等。

(5)对于临床以及人类样品等相关内容,数据管理人员与研究人员合作制定数据分析/统计计划,明确数据分析的目标、底线要求与统计方法、程序等。

(6)数据库文档验证或确认使用经商业验证的数据收集程序,包括合规验证与质量验证;根据请求转移数据库和文件,相应分析结果需要重新验证与分发。

(7)按照要求进行数据管理执行情况的报告,开发数据管理案例,开展数据管理执行效果评估。

通过责任梳理发现,生命科学数据管理过程涉及政府、科研资助机构、学术共同体、期刊等多个利益主体,利益主体的责任驱动与行动协同是实现生命科学数据管理的关键。而脱胎于管理学和经济学的利益相关者理论的核心思想是组织中的利益相关者直接影响组织目标的实现,应充分考虑和满足不同层次利益相关者的诉求, “在股东利益和社会责任之间取得平衡,形成相关利益者之间的多边契约[30],”以获得更长远的竞争力。利益相关者理论的运用,有助于澄清生命科学数据管理体系内不同利益主体的身份与特征,客观反映各主体的利益诉求和行为逻辑,为破解生命科学数据管理问题提供了可资借鉴的分析框架。

2   生命科学数据管理的主体构成及其驱动机制分析

开放数据是开放科学的重要组成部分,不仅更好地诠释了现代科学的普遍主义、公有性、无私利性等基本原则,也深化了科学数据管理的目标任务。根据Springer Nature Group对全球各学科7700多研究人员的调查结果,将近三分之二(63%)的受访者会将数据文件作为补充信息提交,或将文件存放在存储库中,或两者同时进行。其中,生物科学研究人员共享与出版物有关数据的比例最高(75%),其次是地理科学研究人员(63%),再次为医学研究人员(59%)[31]。从利益相关者角度判断,相较其他学科,生命科学数据管理的责任主体已初步形成了良好的数据共享传统与数据开放驱动机制。

2.1    生命科学数据管理主体要素构成

从数据生态角度来看,生命科学数据管理需要整个研究界的共同关注,并需要政府部门、资助者、研究机构、图书馆、出版商和研究人员本身提供协作解决方案。除上述主体外,生命科学数据管理的复杂性决定了参与主体的多元性,还包括数据仓储或平台、学术共同体以及民众、受试者等多类型主体。正如利益相关者理论所阐述的,“利益相关者之间并非均质,不同的利益相关者对一个项目的作用和地位有所差异[32]。”各主体在生命科学数据管理中发挥的作用影响不尽相同,分别以决策者、监督者、执行者、参与者、激励者、服务者等多重身份存在,有些直接参与到数据管理过程中,如数据仓储/平台、期刊出版部门等,有些间接施加影响,如政府部门、民众等。同时,有些主体以显性方式通过资源、载体、技术等直接对生命科学数据管理过程产生影响,有些主体则以间接、内隐的方式,如图书馆员的数据技能培训、同行数据共享氛围等参与到生命科学数据管理过程,并发挥持久作用影响。总体而言,在政府宏观引导下,科研项目资助机构、期刊出版部门、PI及其研究团队、学术共同体以及数据仓储/平台构成了生命科学数据管理的核心责任主体(见图1)。

2.2    生命科学数据管理的主体驱动机制

生命科学数据管理展现了生命科学研究创新的过程与结果,数据开放与再利用有助于形成新的数据关联与创新发现,并通过数据生产与数据开放将生命科学学术研究与学术传播融合在一起,构成复杂的数据管理生态网络。其中,主体数据管理驱动力的来源包括各主体内在的目标愿景、外在预期以及与各种压力、条件的对冲。以PI及其团队研究人员为例(见图2),其数据管理的内在动力来自于数据共享与再利用后的学术引用与同行认同、学术影响力提升,外在动力则源自资助机构、所在单位以及学术期刊对于数据采集、加工与共享利用的具体要求。此外,生命科学伦理以及受试者隐私保护等也会对研究人员的数据行为形成感知风险与底线要求,并对数据开放与共享造成一定冲抵,而数据仓储以及平台工具类的完备程度与便利水平、图书馆数据技能培训咨询的服务提供与利用情况等也会构成数据管理的外在氛围与驱动要素。

结合各主体数据价值诉求及功能耦合(见表1),各主体生命科学数据管理责任具有明显的差异性和互补性,对于PI及其团队研究人员而言,资助机构与期刊出版、数据仓储/平台之间围绕项目资助、数据采集加工、共享与存储再利用形成了衔接有序的上下游主体数据交换与数据责任衔接机制,既有项目资助、学术发表以及职务晋升等显性激励,也有影响力提升、同行认同等隐性激励,还有数据开放共享后的数据质量验证以及隐私、安全审核等学风、伦理底线约束。同时,在数字化环境下数据管理的责任分工趋向精细化和专业化,数据管理的决策责任、指导责任、执行责任、监管责任、技术支撑责任等通过横向和纵向多主体的责任分工,形成“组合拳”效应,营造了数据管理的环境驱动、制度驱动、管理驱动、服务驱动氛围,并发挥了“1+1>2”的协同管理功效,推动生命科学数据管理模式从指令要求、外在驱动转向自觉执行、内生驱动的主动性行为。

3   多元主体生命科学数据管理责任划分

早在2003年,惠康基金就提出了基于大规模生物学研究项目的资源生产者、资源用户与科研项目资助机构的三方主体数据共享责任框架(见表2)。鉴于PI及其团队研究人员数据管理责任划分的国内外研究较多,本文着重对资助机构、期刊出版部门、数据仓储/平台以及学术共同体的数据管理规则、方式与手段进行分析。

3.1    科研项目资助方的生命科学数据管理行为分析

无论是公共部门还是民间乃至企业的科研项目,资助方的数据管理规则与要求对于研究人员科学数据管理计划的制定、执行有着举足轻重的重要影响。由于掌握着资源调配权,科研项目资助方可以运用多种方式推进生命科学数据管理,如指定科研项目数据管理责任人、将数据管理计划作为项目申报的必要要件、审核数据管理计划制定情况、根据计划执行情况划拨经费、推选数据管理最佳案例等。

以美国国家科学基金会对生命科学数据管理的有关要求为例,在责任主体界定上,一方面在项目申报书、执行建议中指出,首席PI负责整个项目数据管理计划的制定和实施,包括在项目年度执行报告和最终结题报告中汇报整个项目的数据保存和访问、共享等管理情况。另一方面,还规定项目主管部门和访客委员会将监督数据管理计划的执行;在数据管理计划的内容制定中,要求必须明确:(1)描述将要收集的数据类型与内容、来源,以及所使用的数据和元数据格式及标准;(2)描述项目结题后将使用哪些物理和/或网络资源和设施(包括第三方资源)来存储和保存数据;(3)描述项目结题后将使用哪些媒体和传播方法以保证数据和元数据可供其他人利用;(4)描述数据共享和公共访问的政策(包括隐私保护、保密性、安全性、知识产权和其他相应权利的规定);(5)描述结题后各方的数据管理角色和职责(包括关键人员离开项目的应急计划);在项目结题报告中,有关数据管理计划执行情况的说明必须清晰说明以下内容:(1)项目研究中产生的各种数据;(2)结题后将要保留的数据;(3)如何传播和验证数据以便共享?(4)使数据可供他人利用的格式(包括元数据);(5)项目生成的数据已存放/正在存储以供公众长期访问的具体位置。

为加速癌症研究与治疗方法的创新,2016年,美国国家癌症研究所启动了18亿美元的“癌症登月计划”,其中数据生成后的公开存取与共享政策(PADS)是该计划实施的关键性举措[34]。按照PADS政策规定,一是所有项目申请人都应提交书面的数据公开存取与共享计划书,清晰描述数据公开和共享的具体流程与方式,如果不能共享,则应说明理由和依据;二是数据公开要求更加激进,规定在可行范围内,受资助的所有研究项目均应在公布研究结果的同时(最好在期刊发表四周内),将数据存储到PubMed Central中,而不是期刊发表后一年内公开提供数据;三是进一步扩大了数据公开范围,不同于国立卫生研究院规定的数据共享范围,PADS政策将数据共享范围界定为必须共享的任何“记录在案的科学事实,科学界普遍接受,以记录和支持出版物的研究发现”,涵盖了所有形式的临床、药理学、人口统计学、分析结果、调查报告以及收集或开发的其他数据[35]。

民间生命科学研究项目资助方同样积极推进数据开放与共享,比尔与梅琳达·盖茨基金会(Bill and Melinda Gates Foundation)和陈扎克伯格倡议(Chan Zuckerberg Initiative)等资助机构对其支持的任何研究项目都有明确的开放数据要求。作為全球最大的非政府来源生命科学研究项目资助机构,英国的惠康基金会是第一家强制要求执行开放存取的学术资助机构(2006年),其《数据管理和共享政策》,不仅强制实施学术成果的开放获取,并且会核实、评估和监督数据共享工作的实施进展[36]。按照惠康基金资助项目的最低要求,研究论文的基础数据,包括查看数据集或复制分析所需的任何原始软件均应在发表时提供给其他研究人员。当研究数据与突发公共卫生事件有关时,研究人员必须尽可能迅速和广泛地共享有质量保证的中期和最终数据,并在期刊出版之前共享[37]。

3.2    期刊出版部门的生命科学数据管理行为分析

学术发表既是激励研究人员数据开放共享的首要驱动力,也是期刊出版部门引导研究人员推进生命科学数据管理的主要调控手段。随着数据驱动型研究的推广普及,研究成果的数据发布以及相关资料的存储再利用日益受到重视,成为生命科学在内许多学科学术发表的重要组成部分,并推动了重在描述实验和观察数据的新型期刊-数据期刊的出现。1999年美国生态学会(ESA)出版的学术期刊Ecology首次刊发数据论文[38],随后涌现出BMC Plant Biology、Human Genomics和BMC Research Notes三种数据期刊,继而推动数据期刊向其他学科延伸扩张。

2011年,国际科学、技术和医学出版商协会提出了数据出版物的金字塔模型[39](见图3),将所有项目研究数据划分为原始数据和数据集、数据收集和结构化的数据库、经过加工的数据和数据表达以及数据出版物四个层次,不同层次的数据在学术发表环节有着不同的规范要求与展现方式。对于生命科学数据而言,期刊出版部门的主要管理方式、手段如下:

(1)制定鼓励数据开放共享的管理政策。英国皇家学会在其《出版伦理与政策》中明确:为了让其他人能够验证并利用发表在皇家学会期刊上的研究成果,作为成果发表的先决条件,作者应提供支持文章结论的相关数据、代码和研究资料,并存放到恰当、公认、公开可用的存储库中,如Dryad或Figshare。为鼓励研究人员的数据共享,皇家学会还向Dryad支付了所属期刊的数据存放费用[40]。2016年,国际医学期刊编辑委員会(ICMJE)发布了一项关于临床试验数据共享的提案,要求2018年7月1日后提交到ICMJE所有成员期刊的研究报告必须包含数据共享声明,声明中应明确是否去除了个体标识性数据、可共享哪些数据、何时可获取以及获取要求等。同时,还规定2019年1月1日后,有关受试者的临床试验数据,必须在临床试验注册平台提交数据共享计划并就相关问题进行阐述说明[41]。

(2)进一步细化数据提交、可用性、存储与开放存取等规范要求,增强数据管理的可操作性。目前,Nature、Science、Cell等许多涉及生命科学研究的高影响力期刊都制定了如《数据政策》《编辑出版政策》《数据可用性声明》等制度条例,要求保存与提交的文章或研究项目必须提供相关数据集,几乎所有期刊都对数据归档有强制性要求(见表3),并应详细说明如何保存和引用共享数据。2016年,Cell 出版集团推出了结构化、透明、可访问和可报告的数据处理方法 (STAR)[42],要求共享所有技术、源数据以及重复实验所需的任何信息资源,并要求同行评审专家在审阅文章的同时检查数据是否可用,以提高其期刊发表成果的研究透明度和可再现性。

作为全球生命科学领域最大的开放存取出版商,有着约300种同行评审期刊的BMC(BioMed Central)明确提出“在不违背参与者隐私保护的前提下,应向BMC期刊提交手稿意味着手稿中描述的材料,包括所有相关原始数据,将免费提供给任何希望将其用于非商业目的的科学家。”[44]为此,BMC(BioMed Central)要求所有投稿作者提交的手稿材料中必须包含“数据和材料可用性”部分,详细说明在哪里可以查找到相关数据(必须进行数据存储,鼓励以机器可读格式存储在公开可用的数据存储库中),不希望共享数据的作者必须声明不能共享数据的原因。

(3)加强与数据仓储/平台机构的合作,为生命科学数据的开放管理提供存储服务。许多期刊纷纷与Dryad或Figshare、Mendeley Data、Protein Data Bank、GenBank等有关生命科学的数据存储、托管机构展开合作,并要求将提交的论文数据、资料等上传到指定数据平台,形成数据存储与期刊成果发表之间的内在关联。

3.3    数据仓储/平台方的生命科学数据管理行为分析

数据仓储/平台既是当前生命科学数据组织、存储、管理、分析、共享及发布的最重要载体,也是广义的数据发表与出版平台。通过政府部门、资助机构以及期刊出版商、研究机构等数据管理法规政策的执行,数据仓储/平台能够有效汇聚生命科学出版物、专利、数据集、软件和材料,实现数据资源的统一标识与统一归档,支持标准化的数据质量控制和完整的全生命周期管理,进而吸纳更多生命科学研究资源和用户、工具的加入,形成数据存储、监护、共享与关联利用的良性循环。

西方发达国家十分重视生命科学数据仓储/平台建设,英国的生物技术与生物科学研究理事会(BBSRC)专门设立了生物信息与生物资源基金(BBR),旨在加强生命科学数据库、软件工具以及种质资源等生物资源建设,强化生命科学基础设施服务与保障能力[45]。当前,生命科学领域代表性数据仓储/平台大都明确了自身的数据共享管理政策与使用条例,制定了数据提交与质量审核办法。如加拿大的Brain-CODE设置了信息管理政策与平台使用条款,指导用户收集、存储和访问数据;美国癌症影像中心(TCIA)制定了数据使用政策,为数据管理与共享提供了标准规范[46]。

为方便研究人员利用,美国国立生物技术信息中心的数据平台(NCBI)、欧洲生物信息研究所分子生物学数据库(EMBL-EBI)等平台机构不仅为研究人员编制数据管理计划提供服务[49],还提供数据保存、分配数据标识符(GenBank 数据库使用GI 标识符,NCBI、EMBL 等平台则提供Accession、Version 标识符,Dryad 给予DOI 标识)、在线参考咨询、数据技能培训、工具软件应用指导等,以便用户能够更好地利用数据仓储/平台开展生命科学数据管理与研究发现。

2016年,美国癌症研究中心提出创建一个全国性的数据生态系统,由可互操作的存储库、分析服务和互动门户的动态集合组成,允许研究人员、患者和临床医生以独特而强大的方式查询、聚合、分析和可视化癌症数据。就本质而言,这一系统不仅为研究人员成功地打造了一个安全、高效的癌症研究科研环境,还是汇聚患者、研究人员、数据平台等各方合力的癌症数据管理生态体系(见图4),既建立了互动开放的大型数据共享专区,支持患者与健康人士为攻克癌症研究贡献数据(临床或遗传数据等),也实现了用户、资源、系统和相关配置的集成管理。

3.4    学术共同体的生命科学数据管理行为分析

学术共同体由具有共同研究兴趣和价值取向,并遵守共同学术规则的同行群体组成,形式上多以组织化的研究机构和松散化的学会、理事会等组成。尽管“数据共享是确保生物科学研究透明且可复制的主要要素”[49],但因受试者隐私保护、医学伦理等要求等使得生命科学数据管理更具敏感性和脆弱性,客观上会促使研究人员的数据行为走向封闭,需要学术共同体在强化研究人员数据管理主体责任意识、营造良好数据生态方面发挥重要作用。

大学、研究院等PI及其团队研究人员所属研究机构,是有效规范与执行、监督生命科学数据管理的首要责任主体,既要“承上”,采取有效措施保证政府主管部门及其资助机构数据管理法规政策的有效实施,也要“启下”,动员和引导研究人员有效执行数据管理政策,并对其数据行为进行监督约束。目前,很多大学均制定了各自的数据管理政策,如哈佛大学的《科研数据与资料的保存》、斯坦福大学《研究数据保存、获取政策》、剑桥大学《科研数据管理政策》、牛津大学《研究数据及记录管理政策》……,不仅结合各校实际明确了数据管理的目标原则、伦理隐私、知识产权保护以及数据保存、备份、存储、组织等具体政策,还划分了研究人员、数据分析专家、图书馆员、信息中心等相关人员和部门的职责任务,切实保障了学术共同体内生命科学数据管理任务的执行。悉尼大学的《科研数据管理政策》不仅规定了学校层面、院系层面以及研究人员等不同类型责任主体的数据管理职责任务,还要求各主体之间加强协作,建立数据管理的伙伴关系(见表4)。

此外,康奈尔大学、悉尼大学、弗吉尼亚理工大学等许多高校图书馆、科研记录管理办公室等还会提供针生命科学数据管理的咨询指导、最佳案例等专门性服务,英国的巴斯大学、比利时肯特大学等还将数据集、数据库的公开共享纳入科研项目以及教师职业晋升的考核指标,大学内部多主体的协同管理成功营造了良好的数据管理生态,并构成研究人员数据管理的积极驱动力。

尽管学会、理事会等机构组织形式松散,缺乏数据管理的强制执行力,但学会内在的学术价值观、数据文化、群体认同等在客观上会形成强大的行为约束力。因此,很多学术团体成为加强生命科学数据管理不可或缺的倡导者、引领者和推动者,促使研究人员不断强化数据管理的行为自觉。2012年,美国细胞生物学学会年会上,研究人员对于学术评估中期刊影响因子的滥用及其对研究文化的负面影响展开讨论,直接催生了《旧金山研究评价宣言》的诞生,并对研究人员、资助机构、期刊以及研究机构提出了不同的评价要求;为进一步激发研究人员数据共享热情,一些研究机构、学会开始修改其数据政策和评价制度,如开放研究基金会在其《通过研究评估激励研究成果共享:资助者实施蓝图》的报告中提出要改变在高影响力期刊上发表文章是唯一衡量标准的观念,应重视并奖励开放数据等所有类型的研究成果[51]。

4   研究结论与对策建议

在数字化时代,生命科学数据管理不仅贯穿于生命科学学术研究、学术传播的全过程,而且渗透到医疗健康管理的各个层面,数据与生命科学研究的关系愈加紧密,就愈加需要有充分而高质量的数据管理机制来帮助研究人员乃至患者理解和利用数据。同时,生命科学数据管理也是一项复杂而牵涉面广泛的系统工程,需要充分调动和吸引研究人员、科研项目资助方、期刊出版部门、数据仓储/平台以及学术共同体等多责任主体的参与,并构建多主体协同的生命科学数据管理责任机制。

为此,一是要倡导开放科学,深化生命科学数据资源开发利用重要性的认识,形成数据开放共享的各方共识;二是要兼顾不同责任主体的数据利益,从激发主体数据管理内驱力入手,如完善科研评价制度,调动研究人员数据开放的主动性。再如,加大投入,增強数据仓储/平台生命科学数据集成与服务能力,全面提升多主体数据管理的源动力(见图5);三是要科学厘清数据管理各环节的职责目标,形成衔接紧密的责任闭环,既要保持各环节数据管理主体职责履行的独立性,也要注重分环节主体责任的传递性与衔接性;四是以数据仓储/平台为依托,建设多主体共同参与的生命科学数据共享空间,推进多元主体数据管理业务的有效衔接与业务协同,提升整体数据管理水平;五是把握生命科学数据管理特点,强化数据安全与隐私保护、伦理规范的制度执行,增强研究人员数据管理自我约束力,健全数据审核机制与质量保障机制,提高数据再利用水平,实现生命科学数据管理与科学研究创新和医疗健康水平的同步发展。

参考文献:

[1]  Strasser B J.Collecting,Comparing,and Computing Sequences:The Making of Margaret O.Dayhoff's Atlas of Protein Sequence and Structure,1954-1965[J].Journal of the History of Biology,2010,43(4):623.

[2]  Hedrick T E.Justifications for the Sharing of Social Science Data[J].Law & Human Behavior,1988,12(2):163-171.

[3]  Stevens H.The Politics of Sequence:Data Sharing and the Open Source Software Movement[J].Information & Culture:A Journal of History,2015,50(4):465-503.

[4]  Prainsack Barbara.Personalized medicine:Empowered patients in the 21st century?[M].New York:New York University Press,2017.

[5]  朱彥,贾李蓉,高博,等.中医临床术语系统v2.0设计与构建[J].中国中医药图书情报杂志,2018,42(3):10-15.

[6]  Martin Bobrow.What is"data sharing"and why should biomedical researchers embrace it?[J].Transplantation,2015,99 (4):654-655.

[7]  Goisauf M,Kaya Akyüz,Martin G M.Moving back to the future of big data-driven research:reflecting on the social in genomics[J].Humanities and Social Sciences Communications,2020(7):55.

[8]  Rung J,Brazma A.Reuse of public genome-wide gene expression data[J].Nature Reviews Genetics,2013,14(2):89-99.

[9]  Sherkow,Jacob S.Cancer's IP[J].North Carolina Law Review,2018(96):297-380.

[10]  Bollinger J M,Zuk P D,Majumder M A,et al.What is a Medical Information Commons?[J].The Journal of Law Medicine & Ethics,2019,47(1):41-50.

[11]  Kaye J,Heeney C,Hawkins N,et al.Data sharing in genomics——re-shaping scientific practice[J].Nature Reviews Genetics,2009,10(5):331-335.

[12]  Zimmerman M D,Grabowski M, Domagalski M J,et al.Data Management in the Modern Structural Biology and Biomedical Research Environment[M].Structural Genomics and Drug Discovery,2014:1-25.

[13]  Griffin P C,Khadake J,Lemay K S,et al.Best practice data life cycle approaches for the life sciences[J].F1000research,2017,6:1618.

[14]  Roche D G,Lanfear R,Binning S A,et al.Troubleshooting Public Data Archiving:Suggestions to Increase Participation[J].PLoS Biology,2014,12(1):e1001779.

[15]  Faniel I M,Jacobsen T E.Reusing Scientific Data:How Earthquake Engineering Researchers Assess the Reusability of Colleagues' Data[J].Computer Supported Cooperative Work(CSCW),2010,19(3):355-375.

[16]  Sparks R,Lau W W,Tsang J S.Expanding the Immunology Toolbox:Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.

[17]  Figueiredo S.Data Sharing:Convert Challenges into Opportunities[J].Frontiers in Public Health,2017,5:327.

[18]  Gardner D,Toga A W,Ascoli G A,et al.Towards effective and rewarding data sharing[J].Neuroinformatics,2003,1(3):289-295.

[19]  Bhattacharya S,Andorf S,Gomes L,et al.ImmPort:disseminating data to the public for the future of immunology[J].Immunologic Research,2014,58(2-3):234-239.

[20]  TFrisby T M,Contreras J L.The National Cancer Institute Cancer Moonshot Public Access and Data Sharing Policy—Initial assessment and implications[J].Data & Policy,2020,2:e9.

[21]  T Tenopir C,Allard S,Sinha P,et al.Data Management Education from the Perspective of Science Educators[J].International Journal of Digital Curation,2016,11(1):232-251.

[22]  Yoon A,Kim Y.The role of data-reuse experience in biological scientists' data sharing:an empirical analysis[J].The Electronic Library,2020,38(1):186-208.

[23]  T Travis K.Sharing Data in Biomedical and Clinical Research[J/OL].[2021-02-20].Science:www.sciencemag.org/careers/2011/02/sharing-data-biomedical-and-clinical-research.

[24]  關健.医学科学数据共享与使用的伦理要求和管理规范(一)前言[J].中国医学伦理学,2020,33(2):143-146.

[25]  Nebeker C,Torous J,Bartlett Ellis R J.Building the case for actionable ethics in digital health research supported by artificial intelligence[J].BMC Med,2019,17:137.

[26]  Kobayashi S,Kane T B,Paton C.The privacy and security implications of open data in healthcare[J].Year Med Inform,2018,27(1):41-47.

[27]  Duke C S ,Porter J H.The Ethics of Data Sharing and Reuse in Biology[J].Bioscience,2013,63(6):483-489.

[28]  Directorate for Biological Sciences Information about the Data Management Plan Required for all Proposals[EB/OL].[2021-03-02].https://www.nsf.gov/bio/pubs/BIODMP061511_old.pdf.

[29]  Clinical Research Data Management(DMID Policy-013-NCRS 2.2 v2.0)[EB/OL].[2021-03-02].https://www.niaid.nih.gov/sites/default/files/datamanagement.pdf.

[30]  Freeman R E,Evan W M.Corporate Governance:A Stakeholder Interpretation[J].Journal of Behavioral Economics,1990,19(4):337-359.

[31]  Researcherschallenges in sharing data cross geographic borders and disciplines[EB/OL].[2021-03-02].https://group.springernature.com/gp/group/media/press-releases/archive-2018/researchers-challenges-in-sharing-data-cross-geographic-borders-/15545272.

[32]  何平均,刘思璐.农业基础设施PPP投资:主体动机、行为响应与利益协调——基于利益相关者理论[J].农村经济,2018(1):76-81.

[33]  Sharing Data from Large-scale Biological Research Projects:A System of Tripartite Responsibility[EB/OL].[2021-03-02].https://wellcome.org/sites/default/files/wtd003207.pdf.

[34]  Kaiser J.Open access takes root at National Cancer Institute[J].Science,2019,365(6465):629.

[35]  NCI Cancer Moonshot Public Access and Data Sharing Policy[EB/OL].[2020-08-04].https://www.cancer.gov/research/key-initiatives/oonshot-cancer-initiative/funding/public-access-policy.

[36]  Policy on data,software and materials management and sharing[EB/OL].[2021-03-02].http://welcome.ac.uk/funding/guidance/policy-data-software-materialsmanagement-and-sharing.

[37]  Data,software and materials management and sharing policy[EB/OL].[2021-03-02].https://wellcome.org/grant-funding/guidance/data-software-materials-management-and-sharing-policy.

[38]  刘灿,王玲,任胜利.数据期刊的发展现状及趋势分析[J].编辑学报,2018,30(4):18-23.

[39]  Integration of Data and Publications[EB/OL].[2021-03-02].https://www.stm-assoc.org/standards-technology/2020-stm-research-data-year/integration-of-data-and-publications/.

[40]  Data sharing and mining[EB/OL].[2021-03-02].https://royalsociety.org/journals/ethics-policies/data-sharing-minin.

[41]  陈昕,姜永茂,包雅琳.大數据时代医学期刊数据共享方案的实施探讨[J].中国科技期刊研究,2018(5):474-477.

[42]  Introducing STAR methods[EB/OL].[2021-03-02].https://www.cell.com/star-methods.

[43]  He L,Nahar V.Reuse of scientific data in academic publications:An investigation of Dryad Digital Repository[J].Aslib Journal of Information Management,2014,68(4):478-494.

[44]  Editorial policies[EB/OL].[2021-03-02].www.biomedcentral.com/about/editorialpolicies#DataandMaterialRelease.

[45]  2019 Bioinformatics and Biological Resources(BBR)Fund[EB/OL].[2019-12-13].https://webarchive.nationalarchives.gov.uk/20200930155721/https://bbsrc.ukri.org/funding/filter/2019-bioinformatics-biological-resources-fund/.

[46]  赵安琪,付少雄,冯亚飞.国外健康科学数据管理实践及启示[J].图书情报知识,2020(1):105-114.

[47]  袁梦雪.国内外健康医学科学数据管理平台对比分析[J].数字图书馆论坛,2020(1):11-19.

[48]  Enhanced Data Sharing Working Group Recommendation[EB/OL].[2021-03-02].https://www.cancer.gov/research/key-initiatives/moonshot-cancer-initiative/blue-ribbon-panel/enhanced-data-sharing-working-group-report.pdf.

[49]  Vasilevsky N A,Minnier J,Haendel M A,et al.Reproducible and reusable research:are journal data sharing policies meeting the mark?[J].Peer J,2017,5(10):e3208.

[50]  RESEARCH DATA MANAGEMENT POLICY 2014[EB/OL].[2021-03-02].http://sydney.edu.au/policies/showdoc.aspx?recnum=PDOC2013/337.

[51]  Incentivization Blueprint[EB/OL].[2021-03-02].https://www.orfg.org/incentivization-blueprint.

作者简介:夏义堃,女,武汉大学信息资源研究中心教授,研究方向:政府数据治理;管茜,女,武汉大学信息管理学院硕士研究生;周艳,女,湖北国际旅行卫生保健中心工程师。

猜你喜欢
数据共享利益相关者
科学大数据的发展态势及建议
展会品牌利益相关者的构成及其网络结构研究
利益相关者视角下四川省实施民办高校分类管理的研究
关于政府审计几点问题的思考
基于利益相关者的公立大学财务治理的研究
数字化迎新系统宿舍分配模块的设计与实现
贵州大数据产业发展战略理解和实施建议
上市公司会计舞弊数据分析
利益相关者视域下有色金属行业现代学徒制长效推广机制的构建
面向海上平台机械电气设备的数据共享平台的设计与实现