基于电子病例报告表在医院医疗信息平台自动抓取儿童肺炎真实世界数据的方法学探讨

2022-05-24 02:42王颖雯桂永浩张崇凡洪建国方金武王伟炳董晓艳陆国平叶颖子汤梁峰葛小玲余松轩张晓波

中国循证儿科杂志 2022年2期

王颖雯苏玲桂永浩张崇凡陆权洪建国沈兵冯瑞方金武王伟炳顾莺董晓艳王莹陆国平俞蕙叶颖子, 汤梁峰葛小玲黄敏余松轩徐虹, 张晓波,

自美国食品和药物管理局于2020年发布了“真实世界证据计划”[1]以来，真实世界数据对医疗保健和监管决策的支持作用越来越显著[2]。真实世界数据采集的完整性、一致性和准确性，是开展相关多目标研究的数据基础。

病例报告表(CRF)是临床试验的数据采集工具，其设计初衷是根据研究目标记录研究方案所要求的原始信息[3,4]。随着电子信息的发展，CRF也从纸质格式向电子格式过渡，即电子病例报告表(eCRF)。CRF历来是针对每项临床试验单独设计的，彼此间截然不同又无法兼容[5.6]，反复开发eCRF及基于各种特异性eCRF的数据采集系统花费巨大[7]，且功能单一。本研究以儿童肺炎为例创建通用eCRF，使其囊括儿童肺炎诊疗过程中的全部变量，以确保临床研究数据采集的可及性，同时避免过度的信息收集。基于eCRF的数据采集平台，将计算机化病历系统(EMR)和实验室信息系统(LIS)端口连接，自动抓取eCRF所需数据，通过eCRF采集数据的应答率，对电子病历书写进行质量控制，同时提取病历书写中非结构化数据，为临床提供决策支持，并不断正向促进电子病历数据的标准化。

1 方法

1.1 eCRF体例及模块创建通过系统文献检索、提取儿童肺炎研究变量并由审核专家确定，开发临床数据交换标准协会(CDISC)eCRF表单，验证和修正变量后，构建和完善平台数据中采集测试模型(图1)。

1.2 核心变量审核专家选取上海地区13名儿童肺炎诊断治疗专家为变量审核专家，其中上海市儿科临床质控中心专家委员会专家3名，上海医学会儿科学分会呼吸学组委员2名、急救学组委员4名、感染学组委员2名，复旦大学GRADE中心专家2名。

1.3 检索策略

1.3.1 检索数据库英文网站/数据库：BMJ Best Practice、Up To Date、苏格兰学院间指南协作网(SIGN)、英国国家卫生与临床优化研究所网站(NICE)、澳大利亚乔安娜布里格斯研究所循证卫生保健中心数据库(JBI)、考克兰图书馆(Cochrane Library)、美国儿科学会、PubMed、EBSCO、Springer Link、Elsevier Science Direct、Embase(OVID)、Web of Science；中文网站/数据库：中华人民共和国国家卫生健康委员会网站、中华儿科学会、中国生物医学文献服务系统、中国知网(学术期刊库)、万方数据知识服务平台、维普期刊数据库、医脉通。检索时间为建库/开网至2021年12月1日。语种为中文和英文。

1.3.2 检索式以NICE为例：("Pneumonia" OR "Pneumonia, Staphylococcal" OR "Pneumonia, Mycoplasma" OR "Pneumonia, Pneumococcal" OR "Pleural Effusion" OR "Pleural Effusion, Malignant" OR "Tuberculosis, Pulmonary" )AND (“children”[Title] OR “child”[Title])。

1.4 文献纳入和排除标准纳入实施对象为>1月龄至18岁儿童青少年的指南、或专家共识、或诊断治疗规范。排除重复和无法获取全文的文献。

1.5 文献筛选苏玲和王颖雯独立阅读文献题目和摘要，根据文献纳入和排除标准进行初步筛选。汤梁峰和叶颖子阅读全文进行二次筛选。筛选过程中不确定是否纳入的文献，与张晓波和徐虹讨论决定。

1.6 构建儿童肺炎研究的核心变量池由叶颖子和汤梁峰从上述选择的文献中分别提取与儿童肺炎相关的变量，审核专家通过面对面讨论会，对变量进行补充和审核，取得≥90%审核专家同意的变量进入核心变量池。

1.7 儿童肺炎eCRF的标准化设计

1.7.1 技术标准采用CDISC标准[8,9](表1)。本研究儿童肺炎eCRF生成基于其中的临床数据获取协调标准(CDASH)。

表1 CDISC核心标准[9]

1.7.2 依据CDASH设计表单拟包括以下10个域：人口统计学信息(DM域)，既往与伴随用药史(CM域)，病史(MH域)，体格检查(PE域)，生命体征(VS域)，症状(SC域)，访视(SV域)，纳入和排除标准(IE域)，试验分组(TA域)，数据收集备注与说明(CO域)。

1.7.3 命名核心变量池的变量根据CDISC核心标准中的CT、TA、XML、LAB，对采集到的核心变量规范命名，按照CDASH 标准中定义的变量收集类别标记所有变量收集的紧迫程度，如：将规定必须收集和记录的数据标记数据收集的推荐级别，将核心变量归入相应域。需要说明的是，本研究中关于CM域中变量(性别、年龄、身份证号、籍贯、现住址)的定义依据《卫生部关于修订住院病案首页的通知》(卫医政发〔2011〕84号)中的住院病案首页部分项目填写说明，与住院病案首页采集项目一致。

1.7.4 设置变量采集描述及回答问题选项对核心变量进行问题描述，对需要回答的变量问题，则按照CDISC中的CT设置回答选项。

1.8 测试eCRF采集能力

1.8.1 建设基于儿童肺炎eCRF的数据采集平台分析变量来源，如HIS、EMR、LIS、检查信息管理系统(PACS)，与多源数据分别建立数据接口。根据数据采集模型开展数据自动采集。制定针对性的映射操作指南，完成术语标准化，生成肺炎领域研究专用的术语库。对由于版本迭代产生的源数据诊断编码、术语不一致的问题，建立映射表进行内容整合与术语匹配。对照CDISC标准代码，部分无法通过EMR、LIS 等数据库抓取的变量则人工录入，以确保数据的完整性与规范性。

1.8.2 测试数据采集能力在医院肺炎电子病历中，通过已建立的eCRF的数据采集平台完成5轮数据自动采集，每轮按照随机数字表抽取20份典型病历。单个变量采集准确率=核查准确采集的份数/原始数据份数×100%。对结构化变量，单个变量采集准确率100%为达标；对文本数据变量，单个变量采集准确率90%为达标。每轮测试后，对于采集准确率不达标的原因进行分析，如为自然语言分析模型缺乏对特定表述规则的学习，则通过机器学习优化规则；如为医生表述不规范，则反馈临床，改善医生书写行为；对未出现变量则通过下一轮继续抽样，新增核查病例。

1.8.3 测试数据采集时效和系统安全测试内容包括：①数据产生的24 h内是否能够进行自动采集，②是否具有数据的核查和锁定功能，③是否具备规定时间内无操作的自动退出，④是否具有初次登录密码强制修改及密码复杂性要求。

2 结果

2.1 核心变量池的变量来源审核专家确定了7部指南[10-16]、4部诊疗建议[17-20]和10部专家共识[21-30]作为儿童肺炎eCRF核心变量的选择来源，同时还选择了9部经典专著[31-39]作为补充和完善。

2.2 核心变量基于上述文献，提取了383个儿童肺炎变量进入核心变量池，审核专家最终确定了335个作为儿童肺炎eCRF核心变量，其中人口学信息变量8个，结构化变量175个，文本数据变量(通过自然语言分析)152个；在CDASH设计表单的10个域(本文1.7.2内容)的基础上扩增了8个域，分别为物质滥用(SU域)、实验室检查结果(LB域)、影像学检查结果(EG域)、微生物发现(MI域)、治疗(EX域)、用药记录(DA域)、不良事件(AE域)和转归(DD域)。

2.3 采集能力测试结果表2显示5轮测试评估和改进修正结果。人口学信息模块第1～5轮均100%达标。结构化信息模块第1轮变量89.7%达标，未达标变量数6个，未出现变量数12个；第2～5轮均100%达标。文本数据模块第1轮变量50.0%达标，未达标变量数21个，未出现变量数70个；第2～5轮达标变量率呈明显升高趋势，未达标和未出现变量数呈明显下降趋势；第5轮90.1%达标，未达标变量数7个，未出现变量数8个。总体达标率为95.5%(320/335)。

表2 以eCRF变量为基本单位的数据采集质量[n(%)]

2.4 数据采集时效和系统安全测试结果 5轮测试中，所有被测数据变量均能够在数据产生的24 h内实现自动采集，均可实现数据的核查和锁定功能、规定时间无操作的自动退出功能以及初次登录密码强制修改和密码复杂性要求功能。

3 讨论

在儿童肺炎相关的系列研究中既包括对疾病发生机制、疾病发生发展过程的研究，也包括对疾病诊断、药物疗效及安全性、卫生保健效果评价的研究。高质量、清晰可追溯的数据是临床研究成功完成的重要保证。尤其近年来，国内外多中心合作研究、甚至同一医院多部门合作研究广泛开展，将不同来源的数据有效整合是研究顺利进行的重要前提[40]。花费大量时间清理映射和翻译不兼容，不但影响不同领域研究间的交流、阻碍研究的进展，也无形中增加了研究成本。本研究开发的eCRF首先基于CDISC标准构建，能够实现以统一的CDASH进行标准化数据收集，并实现允许在试验中与其他同意开放的CDASH标准研究结果数据进行比较，推动不同医院之间的治疗决策分享与数据共享[41]；CDASH数据标准还方便了研究人员将其映射到数据提交的国际标准格式(SDTM)，提高数据汇总分析效率和临床试验数据提交质量；再者，通用eCRF理想情况下可用于儿童肺炎所有潜在研究，与之前研究集中在特异性临床试验CRF的创建和数据标准化相比[42]，可以满足儿童肺炎研究的绝大多数临床试验数据收集，减少单个研究的系统开发费用，提高儿童肺炎临床试验数据的一致性。

eCRF的数据采集平台旨在通过临床数据的自动采集，获得真实世界的数据。因此，对临床数据采集系统的数据采集能力评价尤为重要，其直接关系到数据的质量。基于儿童肺炎通用eCRF建立的数据采集平台实现每日0点自动运行采集任务，将符合条件的数据分别从HIS、LIS、EMR或PACS等系统采集并储存。在保证自动任务运行的情况下，每日检查任务运行情况确保任务正确运行，通过检查运行日志，比对数据的产生时间和入库时间，保证数据采集的及时性。根据权限最小化原则进行权限配置，并通过安全制度、权限审批、密码复杂性要求、超时自动退出等避免账号滥用的产生。

在测试平台采集能力所定义的准确性标准基于如下考虑：①对于临床高度结构化数据以及关键变量，要求准确率为100%。而运用自然语言处理(NLP)进行采集的变量，结合当前中文自然语言处理的技术水平，采用了目前通行标准90%，此标准并非一成不变，应随着不断的评价反馈和技术持续提升进行修改。②抽样核查所需的病例数不仅需要考虑数据采集系统的功能以及病例中所能提取的数据量，同时还需要兼顾核查所需要的工作量，以及期待通过测试评估发现问题等因素。③进行评价结果分析时，如果原始数据缺失，则需要补充纳入新的素材进行下一轮测试，如果准确率不达标，则需要进行个性化分析并完善后进行下一轮复测，常见的原因一般为自然语言分析模型缺乏对特定表述规则的学习，可以通过机器学习、优化规则、改善医生书写病史行为等提升数据采集水平。

既往对专病队列的CRF模块的开发多基于单一诊断治疗规范[43]或已有研究的CRF[42,44,45]，本研究通过系统检索儿童肺炎的指南、共识、诊断治疗规范和专著，以专家共识确定eCRF的数据集来源，使得所构建的儿童肺炎eCRF数据采集平台不仅能实现规范化数据采集，在未来还可实现以数据采集结果来规范儿童肺炎的诊疗，提升临床医生对于儿童肺炎的诊疗能力。通过标准的电子病历数据弥补真实世界数据与研究数据之间的差距，推动我国真实世界数据生态建设。

eCRF和相应数据采集平台系统的成功建设，为开展儿童肺炎相关临床研究提供了有力的信息化支撑，促进了儿童肺炎病历规范化书写与数据完整性、准确性的提升，为下一步多中心研究的开展和建立重症肺炎风险评估系统打下了坚实的基础。系统的建成运行，使得符合纳入和排除标准的患儿就诊、入院、在院、出院随访信息可以及时结构化纳入专病研究平台，将标准化数据通过平台数据统一收集以便统计、分析与运用，以便进一步优化诊疗方案，持续提升患儿及家属满意度。

本研究局限性：尽管创建小组具有专业知识，但这种新的eCRF在临床试验中的有效性尚待证明。其是否具备对所有临床试验的适用性和数据采集的可及性，我们仍需持谨慎态度，表单仍有持续迭代开发的需要。