OHDSI/OMOP CDM在药品不良反应监测中的应用

2019-08-15 00:46宋佳芳朱贺韩晟
医药导报 2019年1期
关键词:研究者药品数据库

宋佳芳,朱贺,韩晟

(1.北京大学药学院药事管理与临床药学系,北京 100191;2.北京大学医药管理国际研究中心,北京 100191)

药品在疾病诊断、治疗和预防等领域为人类健康带来益处。但药品在使用时也会产生一定安全性风险。用药错误、不合理用药及药品不良反应(adverse drug reactions,ADR)都会对人体造成不同程度的伤害。药品的安全性是药品的重要属性之一。关注药品安全,发现、评价、认识和预防药物不良作用,对在使用药品过程中产生的相关风险进行警戒和应对处理至关重要。目前我国ADR监测的主要途径是依靠ADR自发上报系统的被动监测方式。但被动监测产生的信号存在滞后性等问题[1]。而主动监测在信息收集方式上存在一定的强制性,并且在方案设计之初就有明确的目的,因此收集的信息更全面,对风险信号的识别更及时[2]。随着医疗记录电子化与信息化的不断进步和数据库系统的完善,大数据技术的信号挖掘技术提高,以基于大规模现有真实世界数据如电子医疗记录数据、医疗保险数据等,使开展ADR主动监测成为可能。

1 大数据下的ADR主动监测

20世纪70年代,电子信息技术融入到医疗行业中,使患者信息收集的方式由传统的人工记录逐渐转为计算机收集。逐渐积累的电子医疗信息数据库为ADR主动监测奠定了基础。近几年,很多国家探索利用大型电子医疗数据进行药品安全性主动监测。2007年,美国通过了食品药品管理修正法案(FDAAA),首次明确提出加强药品上市后的安全监管,要求美国食品药品管理局(FDA)利用电子医疗保健数据建立主动监测系统开展药物警戒,2008年美国FDA发起“哨点计划”(The Sentinel Initiative),通过分布式数据库和数据管理模式,以日常记录的电子医疗数据作为分析基础,对药品、医疗器械等进行安全性的主动监测[3]。此外,欧洲多个国家共同参与研究、开发了“探索和理解药品不良反应(exploring and understanding adverse drug reaction,EU-ADR)项目”,在分布式网络方法的基础上还增加数据挖掘等分析方法对多来源的电子医疗数据中可疑的不良反应与药品组合进行探测,进而进行ADR的早期监测[4]。

利用电子医疗大数据库开展主动监测的优势和发达国家带动作用,推动了包括我国在内的多国研究人员在此方向上的探索与实践。随着信息技术快速发展,我国在医院数据与医疗保险数据中的真实数据电子化逐步完善,为ADR主动监测奠定了基础。目前我国多数医疗机构都应用了医院信息系统(hospital information system,HIS),患者的检查和诊疗过程在HIS 中有相应的电子记录。电子医疗记录(electronic medical record,EMR)数据是对临床日常过程进行详尽记录,包括患者治疗过程中药物使用的时间、规格、剂量、用法,以及患者在治疗中出现的症状、处理方法、实验室检查结果、诊断、处方及费用等,是对临床治疗总体的客观反映。因此,从数据来源来看,医疗大数据不仅在维度上多方面保留患者的用药信息及用药后的相关或潜在的反应,同时对于患者数据可以进行动态更新,提高了时效性,因而可以快速高效地发现和识别药品风险信号,尤其是罕见不良事件[5-6]。近年来,对于利用HIS 开展药物警戒相关研究与应用,国内机构、学者也在不同程度进行了相关的尝试和应用。国家ADR监测中心在早期采用病历回顾性研究方法,基于HIS数据,对6个省市16家医院使用过双黄连注射剂的完整住院病历进行调查,了解双黄连注射剂的临床合理使用情况、不良反应类型及其发生率[7-8]。同时建立了国家ADR监测系统(自发报告系统)与HIS对接的接口标准[9]。陆晓彤等[10]基于上海某家医院的HIS系统数据,建立肝酶升高ADR自动监测系统,并对974例发生肝功能损伤的住院患者进行监控,并对药品进行统计分析。李丽等[11]选取了全国15 家三甲医院异位妊娠患者的HIS 数据,应用关联规则算法分析真实发生的异位妊娠患者的临床用药关联情况。此外,医疗保险数据库也是开展主动监测的数据来源之一。医保数据可实时记录患者基本信息、就医医院基本信息、患者疾病基本信息、患者治疗基本信息(用药记录和费用信息),医保数据库以其较高的标准化及可视化程度,为算法和数据挖掘技术的应用提供良好的基础,可以提供基于大样本的用药风险识别。

2 当前应用大数据进行ADR监测存在的挑战

大数据下的ADR信号识别虽然提高了信号识别的时效性,部分解决了传统信号识别的人工筛选和大量统计工作带来的困难,但是也为研究者开展工作提出了挑战。

医院HIS系统数据虽然是患者临床实际的详尽记录,信息完整度较好,但由于医院是HIS系统的拥有者,系统建立的最初目的是为了完整记录患者的就医情况,为医生诊断、治疗、预防疾病提供基础信息,并非以科学研究为目的而产生的数据。同时,由于电子病历中病程包括大量患者医疗实践中的文本信息,数据的结构化和可视化欠佳。因此,对于大量文本有效信息不缺不漏的提取及可视化的完成是研究者分析大数据时所要解决的问题之一。此外,由于医院信息管理体系的复杂性,导致同一医院的不同科室之间数据结构不同,甚至同一地区的不同医院之间,出现系统之间不同概念的命名、分类规则的差异等问题(例如药物及诊断的分类编码),导致医疗机构之间的信息难以相互融合。所以虽然中国数据有着样本量巨大、更新速度快等数据层面的优点,但由于很多医院只是针对其中的部分科室进行临床信息管理系统的应用和采纳,并没有充分发挥大数据作用。

此外,单个数据库有时并不能满足ADR主动监测的需求。在评估药物使用和不良事件的关联性时,不仅要关注药物暴露和可疑不良事件的信息,也要收集各种可能混杂因素的信息,包括社会人口学特征、合并症、联合用药等情况[12]。因此使用某一家医院的电子医疗记录很难覆盖患者所有就诊情况,数据的分割使得它们之间的很多关联信息难以被捕捉,而医保数据库中又缺少就诊时详细的检查结果等信息,往往需要整合多家医院、多个类型的异构数据库。这里不仅涉及对每个数据的标准化问题,还需要考虑到资源的共享机制、隐私的保护机制等。

因此,虽然目前电子化信息化为大数据时代奠定了数据大量化、快速化、多样化的基础,但如何解决医院内部或多个医院之间的信息管理系统中实现沟通与交流,整合多异构数据进行研究分析,让大数据更加价值化,是目前研究者面对的挑战。

3 健康观测数据科学和信息学(observational health data sciences and informatics,OHDSI)/观察医疗结果合作项目(observational medical outcomes partnership,OMOP) 通用数据模型(common data model,CDM)模式介绍

OMOP是FDA联合学术界、国际数据公司、药品生产企业等开展的公共和私营部门合作项目[13]。OMOP这项5年的计划,由多方合作、多数据源、覆盖大规模人群、采用分布式网络和/或集中式中央数据库、建立和使用CDM[14],同时开发了许多利用观察性研究分析数据的新方法,并建立了一个观察性研究的分析实验室。

OHDSI是在OMOP项目结束时开启的新项目。OHDSI是一个国际合作组织,意在创造公开的数据分析方法,通过大规模的分析来发现观察性健康数据的价值[15]。OHDSI团队包括学者、产业科学家、医疗服务提供方、研究第三方等[16]。目前,已有来自美国、加拿大、澳大利亚、英国等几十个国家地区的上百个组织机构参与了OHDSI全球协作网络,拥有超过10亿人口规模的临床数据,累计协作研究发表了上百篇论文。比较而言,OMOP 更偏向于方法学研究,而OHDSI 则是建立在OMOP 的方法学研究的基础上,用观察性数据来回答真实临床问题的方法开发和应用。

总体而言,OHDSI/OMOP CDM有以下特点:

①通用数据模型。OMOP的核心部分是CDM的开发[17],意在对不同来源的医疗数据建立起统一标准的形式。通过CDM 数据模型对信息的梳理,达到不同信息的编码和信息之间的关系进行详细的分类和定义的目的。OHDSI团队延续了OMOP CDM的语言设定和主要数据模型。OHDSI的主要目标是建立一个开放的观察性数据网络,在OHDSI中研究者可自行将自己的数据集中每一个元素需要根据CDM 文字库进行匹配和统一,进而抽取、转换和加载(extraction-transformation-loading,ETL)成CDM 格式的数据。数据格式统一化的好处在于可以对大量数据进行分析并且可以参与到全球的研究中,使国际多中心的分析更快更有效地进行。

②分析方法与工具开发。OHDSI建立多种数据挖掘和数据分析的工具。例如ETL工具的开发(如WhiteRabbit、Usagi等)。数据分析工具开发(如ACHILLES、PLATO等)。ACHILLES 是一个可视化数据浏览工具,在提取数据之前,可以利用ACHILLES对数据进行初步的统计分析。ACHILLES有2个主要的组成部分,第一个组成部分是应用R包,对数据进行初步的分析,第二部分是将初步统计结果形成报告。多数据库的分析都可以在ACHILLES上实现。在OMOP CDM的相同数据语言的基础上,对于数据拥有者来说,利用ACHILLES可以对数据库的质量进行评估,其他研究者可以通过ACHILLES对数据库进行初步的分析,评估这个数据库潜在的分析价值。ACHILLES可以呈现出每种情况的分布情况、年龄分布、性别分布、样本入组时间等。其他在研发的数据分析工具还有HERMES,用于对特定关键词进行检索,并寻找关键词及其相关概念的联系。PLATO可以用于对患者的某种结局指标进行预测和估计。HOMER可以对风险进行识别,同时给出比较效果研究的结果。例如HOMER可以对一种药物和不良反应进行关系分析。

③信息共享与交流模式。OHDSI为研究者建立了网络的交流与合作的平台,这也是基于通用数据模型实现的。由于不同类型数据之间的异质性,相同研究目的下的研究结果可能不尽相同,且难于整合。但是在CDM的基础下,数据的结果可以分享到多中心的合作组织,利于数据结果的整合。网络合作式研究不仅打破了大量合作者合作的阻碍,并且通过研究者之间的讨论和审阅,提高研究质量。

4 OHDSI/OMOP CDM在ADR主动监测的实践

ADR主动监测是药物警戒的重要组成部分,目的是监测药物投放市场后的临床ADR,进行关联性研究。ADR的信号产生,需要把病历数据中药物治疗信息和不良药物反应提取出来,进行关联形成分析。从而产生各种概率的分布,供研究者筛查和进一步分析提供线索。同时也可经验式地检测出一些潜在的ADR。研究者通过利用OMOP CDM的数据模式,对国外数据库进行分析,尝试将观察性大规模数据应用于药品不良反应的主动监测中。XU等[18]将美国2007—2012年的Humana claims data数据,提取转化成OMOP CDM的格式,建立起可以通过患者ID关联的患者基本信息、患者就诊信息、患者疾病等信息、患者暴露信息、药物使用信息、观测信息、观测时间、支付方信息等9块数据集,基于此分析6组药品-不良反应之间的关联性。研究发现,CDM格式可以有效地将不同格式数据统一化,甚至外推于建立分布安全监测网络中,可以快速地在大规模观察性数据中发现药品的不良反应信号。BOYCE等[19]搭建了药物与治疗结局指标的整合的知识库(integrated knowledge base),并阐述如何将OHDSI应用于评估药品-不良反应关联性。不仅局限于初步利用OHDSI进行识别ADR风险信号,同时可应用OHDSI/OMOP CDM对数据库的格式进行统一整理,不仅可以囊括电子医疗数据,还能将自发上报系统、产品标签、科学研究、生物信息提示等多维度数据库整合起来,记录包括药物不良相关病例报告时间,观察性研究和随机对照试验发表在科学期刊上的日期,不成比例分析符合自发报告系统中的信号阈值的时间等信息,对药品-不良反应之间的关系进行多维度分析。

5 OHDSI/OMOP CDM应用的启示

为顺应大数据时代的发展,我国已经出台一系列相关规定和政策,促进医疗大数据在上市后药品安全及不良反应监测中的应用。2015年9月,国务院出台了关于积极推进“互联网+”行动的指导意见[20]、印发了《促进大数据发展行动纲要》[21];2016年6月,国务院印发《关于促进和规范健康医疗大数据应用发展的指导意见》[22],指出围绕重大疾病临床用药研制、药物产业化共性关键技术等需求,建立药物副作用预测、创新药物研发数据融合共享机制。新形势下,开展ADR监测的政策和形式对药品生产企业、医疗机构、监测机构均提出了更高要求。在《药品不良反应报告和监测管理办法》[23]《三级综合医院评审标准(2011年版)》及《三级综合医院评审标准实施细则(2011年版)》[24]等均明确指出,我国要积极开展ADR监测。在大数据背景下,我国在探索进行ADR主动监测的同时,也应积极学习国外的经验。

5.1整合异构数据用于科研分析 OMOP CDM 数据组织与整合提供了一种数据库生成的新思路。而通过OHDSI中ETL数据提取的逻辑与方法,使不同来源的数据可根据语言转换模板,自行转换成统一的数据模型。在相同数据语言逻辑下进行连接,可以建立起基于患者个体为中心的数据库。既保证覆盖患者就医范围,可纳入分析可疑的风险信号和潜在的ADR,同时对于其他混杂因素,也可整合到数据集中。此外,还可以支持单课题或多课题的研究。

5.2提高研究质量,保证研究快速有效开展 目前由于数据与分析方法的不公开,在处理数据时多数研究者都有着主观的判断,研究的可重复性较低。由OHDSI模式下的研究,可基于相同数据结构、相同的分析方法或分析逻辑,研究者既可以将数据整合进行大样本库的分析,不同的研究者又可以根据已统一语言的数据库,利用商定的分析方法进行单个数据中的队列比较分析。最终对结果进行整理和整合,可以提高结果的可信度,更加准确地识别ADR。此外,类似于OHDSI建立起统一研究方法,可由某种药物扩散至某一类药物,快速及时地在不同数据库进行同时分析扫描,实现了ADR监控的快速性、时效性。

5.3合作式科研新思路 ADR的主动监测是在缜密的研究设计下开展。基于相同数据语言的研究者交流网络,研究者可以通过交流平台将研究设计进行完善或找到合作伙伴。由于研究者之间交流的数据模型是数据拥有者转换之后的,这可以保证原始数据的隐私问题。通过研究者之间的交流协作,快速高效地完善研究设计,开始研究。

6 结束语

关注药品安全,积极主动监控ADR,是维护公众健康的重要手段。电子化与信息化将医疗机构的临床实践过程进行存储与整理,迎来了医药大数据时代,表现出数据巨量化、存储方式多样化、服务时效性、高价值性的四大特点。与医药大数据有关的所有涉及或可能涉及医药相关资源的扩增,都可以成为ADR主动监测的数据来源。在大数据时代下,应考虑建立起以研究为目的的数据平台,整合多源数据,高效地融入数据挖掘、文本挖掘技术,让大数据在控制用药风险中发挥其重要作用。因此,借鉴国外相关经验,尽快在我国建立可交流的数据网络,开展基于大数据的药品安全主动监测系统研究,融入多方协作,从而加快ADR发现进程,真正从源头上减少ADR的发生。

猜你喜欢
研究者药品数据库
是不是只有假冒伪劣药品才会有不良反应?
高等教育中的学生成为研究者及其启示
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
数据库
药品采购 在探索中前行
数据库
数据库
数据库
药品集中带量采购:谁赢谁输?