开放数据视角下健康医疗数据价值评估指标体系研究*

2022-05-30 00:49吴丹麦魏明月
医学信息学杂志 2022年1期
关键词:咨询权重专家

胥 婷 吴丹麦 魏明月

(上海市卫生健康信息中心上海 200040) (上海交通大学公共卫生学院上海 200025) (上海市儿童医院上海 200062)

石晶金 于广军

(中国福利会国际和平妇幼保健院/上海交通大学医学院附属国际和平妇幼保健院 上海 200030) (上海市儿童医院 上海 200062)

1 引言

1.1 各国数据开放行动概况

根据开放知识基金会(Open Knowledge Foundation)的定义[1],开放数据是指能被任何人自由使用、重复利用和重新分配的数据资源。2009年12月时任美国总统奥巴马签署《开放政府指令》(M-10-06),命令美国各联邦机构必须45天之内在Data.gov上至少开放3项高价值数据集,此后数据开放运动浪潮迅速席卷全球。2013年6月18日美国、英国等8国签署《G8开放数据宪章》[2],明确了5项原则和3项共同行动,包括国家行动计划、发布高价值数据和元数据映射,共同推动健康领域等14个重点领域数据开放。截至2020年12月10日开放知识基金会运营管理的数据目录网站(Datacatalogs.org)已收录全球590个数据开放站点[3],包括联合国数据目录(UN Data)、欧盟开放数据(EU Open Data)、北京市政务数据资源网。识别并优先开放高价值数据已成为世界各国数据开放运动中普遍遵循的原则。美国《开放政府指令》以及《G8开放数据宪章》均强调优先开放高价值数据,世界银行[4]提出数据开放应大体遵循 “80/20法则”,即大约20%的数据会贡献80%的公共价值,需重点识别这些数据并优先发布。部分国家和组织在实践中建立了高价值数据的识别和评估准则。如美国联邦首席信息官理事会创新委员会(Federal CIO Council)发布指南OpenDataPrioritizationToolkit[5],以问题清单方式给出评估数据开放的价值、成本和风险准则;2016年7月欧盟Share-PSI项目发布指南BestPractice:DatasetCriteria[6],以最佳实践方式规范高价值数据集识别准则,保证其优先于其他数据发布。

1.2 健康医疗领域数据开放

健康医疗领域数据高度集中,医疗健康大数据应用需求已不局限于患者诊疗环节,该领域数据开放共享和应用将会产生巨大的经济和社会价值并将引发卫生健康体系重大变革。但是因其具有多方持有性、隐私性和复杂性等特点,健康医疗数据的开放共享存在阻碍。本文针对健康医疗数据价值评估指标体系构建相关问题进行探讨,以期在符合法律、道德和伦理的前提下,为促进高价值健康医疗数据优先开放、释放数据红利提供参考。

2 研究背景

2.1 研究概况

随着大数据应用成为热点,数据价值评估相关研究逐渐深化。根据评估目的不同数据价值评估方法主要可分为两种[7-8]:一是从宏观即自上而下角度,对开放数据的共享价值实现情况进行分析;二是从数据使用者即自下而上角度,将数据作为一种资产,用微观经济学方法对数据被利用后的价值增值情况进行定量评价。目前部分研究提出数据价值的产生同时受到数据本身属性和应用场景的影响这一观点。本研究从受理数据申请角度出发,以数据管理者立场评估平台数据开放可能产生的潜在价值,首要任务是识别影响开放数据价值产生的因素。

2.2 国内外研究进展

杨永标、蒋菱和项添春等[9]将数据品种、时间跨度、数据深度等数据属性与数据应用场景相结合,提出一种适合大数据价值评价的计算方法,结合层次分析法进行数据价值评价。郭明军、于施洋和王建冬等[10]基于协同创新理论,对数据价值内涵进行阐述,从跨维运动角度提出数据价值包括内在、表征、应用价值3类。王卫和王晶[11]基于信息系统(Information System,IS)成功模型和技术接受与使用统一理论(Unified Theory of Acceptance and Use of Technology,UTAUT)模型,提出开放政府数据价值实现影响因素模型,其中包括开放数据质量、开放平台质量、平台服务质量、用户绩效期望和社会影响5个1级指标。国内有研究[12]构建一个系统、科学、可操作的地方政府数据开放评估指标体系并为每项指标分配权重,包括数据准备度、平台层、数据层、利用层4个维度及下属多级指标。李然辉、阮亚芬和段立新等[13]提出数据资产收益取决于数据质量和应用价值,其中质量是应用价值的基础。美国咨询公司Gartner[14]提出一种将数据作为资产进行价值评估的方案,其中包括基本指标(反映数据属性)和财务指标(从市场和成本角度考虑)。Gustafson T和Fink D[15]指出大数据价值链由数据获取、存储、分析、应用4部分构成。

3 研究设计

本研究采用多种质性研究的方法,按照以下步骤开展:第一,通过文献回顾法,初步检索了解健康医疗数据价值影响因素,阅读、梳理、提取文献中关于健康医疗数据价值评估影响因素信息。第二,邀请领域内专家开展焦点小组访谈,初步构建指标框架、设计问卷。第三,通过邮件方式面向领域专家开展德尔菲法咨询,对指标框架提出修改意见,通过层次分析法对指标进行量化权重赋值。第四,数据统计分析。通过有效问卷回收率衡量专家参与积极性。以权威系数指标(Cr)衡量专家权威程度,受到专家判断依据(Ca)和对内容的熟悉程度(Cs)两个因素影响,Cr>0.7时专家权威性可接受,计算公式为Cr=(Ca+Cs)/2,见表1、表2[16]。

表1 专家判断依据及其影响程度

表2 专家对问题的熟悉程度系数

专家对指标评价结果使用均值、标准差、变异系数和满分比进行统计描述。指标权重量化通过Yaanp V1.1软件完成。

4 研究结果

4.1 评估框架初稿及函询问卷设计

经检索得到131篇文献与研究主题相关,阅读和梳理后提取文献中提到的影响数据价值的关键因素。邀请2名卫生管理专家和3名计算机信息专家开展小范围内的小组访谈,依据文献结果制定评估框架初稿。以框架初稿为基础设计函询问卷,包括3部分:一是研究背景介绍、框架概况和填表说明;二是采集专家对框架各指标内容的认可程度,分为5个等级,即“非常不认同”“较不认同”“一般”“较认同”和“非常认同”,每个指标有相应修改意见填写栏;三是专家基本情况调查表、专家对研究内容的熟悉程度和判断依据调查表。

4.2 德尔菲法咨询专家基本情况

邀请15名专家开展德尔菲法咨询,包括医院领导者、信息科负责人及一线工作者、政府卫生信息部门从业人员、信息公司技术人员和高校研究者,见表3。

表3 德尔菲法咨询专家基本信息

4.3 专家积极性和权威性

通过积极系数衡量咨询专家积极性。进行2轮函询,均发放问卷15份。两轮均回收有效问卷15份,专家积极系数为100%。通过权威系数衡量咨询专家权威性,两轮结果相同,见表4。按照计算公式专家判断系数为0.9,熟悉系数为0.72,本次研究权威系数为0.81,说明专家权威性较好。

表4 专家判断依据

4.4 专家评价结果

4.4.1 第1轮评价结果 第1轮函询结束统计得出专家对初拟框架的评价结果,见表5。

表5 第1轮专家咨询意见一致性

续表5

其中A代表1级指标,B代表2级指标,C代表3级指标。根据专家评价结果,1级、2级指标的平均认可程度较高,一致性较好。对均值和满分比较低、变异系数较大的3级指标进行以下修改:将C3“数据规范性”修改为“数据标准性”,含义为“数据模型、数据元、术语等是否符合国家或地方相关标准”;新增指标C4“数据的可访问性”,含义为“数据访问的延时性、吞吐能力”;删除指标C12“项目负责人职称水平”;将指标C15“决策者职称水平”修改为“决策者职务水平”;将指标C18“数据使用者的教育水平”修改为“数据使用者的健康素养水平”,指个人获取和理解健康信息并运用这些信息维护和促进自身健康的能力。

4.4.2 第2轮评价结果 将经过修改的问卷再次发给专家进行第2轮函询,回收后进行数据统计分析,结果显示专家对指标认可程度和一致性均有所提升,所有3级指标均值大于4,变异系数小于0.2,专家仅对指标的解释等细节提出意见,说明专家意见趋于统一。

4.5 健康医疗数据价值评估框架终稿

经过两轮德尔菲法咨询最终确定健康医疗数据价值评估框架终稿,包括两个1级指标、7个2级指标和21个3级指标,见表6。

表6 健康医疗数据价值评估框架

4.6 指标权重赋值

4.6.1 指标权重量化模型 根据前两轮咨询确定的评价框架设计第3轮专家咨询稿,用于每一层级指标间重要程度的两两比较并在Yaanp软件中绘制模型,见图1。模型绘制完成后构建判断矩阵,录入收集的专家意见。本轮咨询共发出问卷15份,收回问卷13份,回收率为86.7%。

图1 指标权重量化模型

4.6.2 一致性检验 在层次分析法中专家基于标度给出重要性的两两判断,其为模糊的主观判断,存在一定误差是正常现象,因此数据回收录入后需进行结果一致性检验。经检验在13份数据中有5份结果的一致性比例大于0.1,判断矩阵不一致。应用Yaanp软件对这5条记录进行分析可知,判断矩阵不一致是由判断矩阵中多项数据的小误差累积造成,可通过最小改变原则修正,经软件算法自动修正后一致性比例均小于0.1,满足判断矩阵一致性要求。最终包含该5份自动修正一致性的问卷,共13份问卷纳入权重分析。

4.6.3 权重分配结果 由于3级指标数量较多且前一轮咨询时专家意见一致性较高,此轮权重分配未纳入3级指标。本轮咨询专家均为领域内具有丰富经验的资深研究者或实践工作者,因此专家权重设置为平均分配。每位专家的重要度评价包括3个判断矩阵,其中1个是1级指标下的判断矩阵,两个是2级指标下的判断矩阵,运行软件群决策功能计算得出指标权重分配,见表7。

表7 指标权重分配

5 讨论

5.1 研究方法科学性

德尔菲咨询法是一种利用专家经验和学识进行评价、预测的研究方法,其通过多轮调查问卷了解专家观点并辅以有效控制,最终得到专家共识。专家选择和有效控制反馈是研究科学性的基础,德尔菲法咨询专家数量一般以10~50人为宜[17]。本研究应用德尔菲咨询法制定健康医疗数据价值评估指标体系,邀请15名计算机信息和医疗卫生相关领域专家,85%以上的专家为中高级职称,接受硕士以上学历教育且工龄超过10年,专家权威系数为0.81,说明专家具有较好的代表性,其理论和实践经验丰富。前两轮函询专家问卷回收率均达到100%,对认可度较低的指标在意见填写栏中仔细填写具体修改意见,说明专家参与积极性较高。经过两轮函询后对专家认可度较低且差异较大的指标进行修改,认可度评分均值和满分比提高,变异系数减小,说明专家意见趋于一致,形成具有科学性的评估指标体系终稿。在第3轮权重量化分析中,对专家意见进行一致性分析,对不符合一致性要求的判断矩阵进行自动修正,修正后一致性比例均小于0.1,说明专家意见较为一致,最后形成的量化权重得到专家认可。

5.2 评估指标体系应用及意义

5.2.1 指标体系构成 面向数据申请请求,优先发布高质量、具有增值潜力的高价值数据是数据管理过程中应遵循的指导原则。为支持平台数据管理者在实践中遵循这一原则,本研究经过两轮函询,制定健康医疗数据价值评估指标体系,包括两个1级指标、7个2级指标和21个3级指标。两个1级指标分别为“内在价值”和“应用价值”。1级指标“内在价值”的含义是数据本身性质会影响健康医疗数据价值,包括“数据可用”“数据易用”和“数据重要”3个2级指标。以2级指标B1“数据可用”为例,其含义为在数据完整、能够反映真实情况、符合国家或地区相关标准时,健康医疗数据在开放共享和利用过程中容易产生更大价值。另一个1级指标“应用价值”是指数据开放能够产生的价值与数据应用场景有关,本研究梳理总结健康医疗数据应用的4个场景,分别为“科研使用”“管理决策”“患者查询”和“商业使用”,即为4个2级指标。以2级指标B4“科研使用”为例,其含义为当数据开放用于开展科研工作且已通过伦理审查时,科研项目的立项级别越高、资助金额越大,开放的健康医疗数据更有可能产生更大价值。

5.2.2 应用意义 经过第3轮专家咨询对指标权重进行量化分析后可以发现:在两个1级指标中,数据内在价值和应用价值权重相差不大,这说明健康医疗数据开放的价值产生基于数据本身质量、稀缺性等特性,同时以数据应用为前提才能共同释放数据价值。在数据内在价值的3个2级指标,即“数据可用”“数据易用”和“数据重要”中,“数据可用”所占权重最大,提示管理者数据准备是数据开放的前提条件,合理、规范地准备数据是在平台上发布数据及提高数据价值、可获取性和可利用性的必要前提,其中需要考量数据完整性、准确性和标准性等条件。在数据应用价值的4个2级指标中,“科研使用”“患者查询”和“管理决策”权重差别不大,“商业使用”权重相对较小,说明区域卫生信息平台数据具有公益资源属性,应用中要以患者、卫生管理和科学研究为优先,商业使用需要慎重权衡价值与风险,可以从商业使用主体的信用水平、综合实力和用途等方面综合考量。

6 结语

历经10余年的卫生信息化建设,我国各级医疗卫生机构和公共卫生机构积累了海量健康医疗数据,但是数据利用水平相对薄弱,重要原因之一就是缺乏数据开放共享的原则和操作指导。本研究基于高价值数据优先开放原则,借鉴国内外相关研究文献和专家意见,经过3轮专家咨询,制定健康医疗数据价值评估框架,从数据本身性质和数据应用两个方面指导数据管理者从价值角度对健康医疗数据进行评估,为进一步构建科学、可操作的健康医疗数据开放实践指南奠定基础,为数据管理者遵循这一原则提供理论工具,具有一定科学性和创新性。

猜你喜欢
咨询权重专家
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
致谢审稿专家
权重常思“浮名轻”
为党督政勤履职 代民行权重担当
咨询联盟大有可为
请叫我专家
专家面对面
组织知识传播与共享评价指标体系及其RS权重配置
专家答疑
健康咨询