临床医学研究数据库的创建和质量控制要点

2022-01-23 05:30王瑞平李斌
上海医药 2022年1期
关键词:数据录入临床研究质量控制

王瑞平 李斌

摘 要 规范、高质量的数据库的创建是临床医学研究的重要环节,是后续数据统计分析和成果呈现的重要基础,也是进而发表高质量的科研论文的重要保障。本文概要介绍临床研究常用的数据库类型(Excel数据库、EpiData数据库、SPSS数据库和EDC数据库)及其创建方法,重点介绍数据库变量设置、数据录入规则和数据质量控制要点等内容,为医务人员科学开展临床研究提供参考。

关键词 临床研究 数据库创建 质量控制 数据录入

中图分类号:TP392; C81 文献标志码:C 文章编号:1006-1533(2022)01-0010-05

基金项目:国家重点研发计划“中医药现代化研究”重点专项项目(2018YFC1705301);国家自然科学基金面上项目(82174383);上海申康医院发展中心管理研究项目(2020SKMR-32);上海市皮肤病医院引进人才科研基金项目(2021KYQD01)

Key points for database creation and quality control in clinical medical research

WANG Ruiping, LI Bin

(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)

ABSTRACT The establishment of a standardized and high-quality database is an important link in clinical medical research, a basis for subsequent data statistical analysis and results presentation and also a guarantee for the publication of highquality scientific research papers. This paper briefly introduces the database types commonly used in clinical research (Excel database, EpiData database, SPSS database and EDC database) and some methods for their creation, with emphasis on database variable setting, data entry rules and key points of data quality control, so as to provide reference for medical staff to scientifically carry out clinical research.

KEy wORDS clinical research; database creation; quality control; data input

数据库创建是临床医学研究中的重要环节。规范、高质量的数据库是后续数据统计分析和成果呈现的重要基础。为帮助医务人员在开展临床研究时能够选择合适的数据库,本文就常用数据库的类型、创建方法和质量控制要点等作一概要介绍。

1 临床研究数据库的分类与特点

临床研究中常用的数据库包括Excel数据库、 EpiData数据库、EpiInfo数据库、SPSS数据库和EDC数据库等,归纳起来可分为4类。

1)应用Office办公软件创建的数据库,主要是指Excel数据库。Excel数据库具有上手容易、创建简单、数据录入简便等特点,适用于小规模临床研究。

2)应用统计分析软件创建的数据库,包括EpiInfo数据库和SPSS数据库。创建这类数据库需使用者有应用统计分析软件的基础和经验,并熟悉数据库的架构和设置要求。如在应用SPSS软件创建数据库时,使用者需先在“Variable View (变量窗口)”中设置变量名,然后才能在“Data View (数据窗口)”中录入数据。

3)应用专为辅助临床研究而开发的数据库软件创建的数据库,以EpiData数据库为代表。EpiData软件具有数据库创建、质量控制设置、数据录入、数据库合并、一致性检验和数据导出等功能,由于其功能强大、使用方便且开源免费,受到越来越多临床研究者的青睐,近年来在临床研究和流行病学调查中的应用越来越广泛。

4)应用电子数据捕获系统创建的数据库,以EDC数据库为代表。电子数据捕获系统是一种适用于临床研究数据采集、传输和管理的平台软件,其采用国际通用的临床数据交换标准协会(Clinical Data Interchange Standards Consortium, CDISC)的标准来创建数据库,能实现EDC数据库与医院的医院信息系统、实验室信息管理系统等的互联互通并从中直接获取研究所需数据,同时还有使在异地开展的多中心临床研究的数据录入同质化的功能,目前在各期临床研究、特别是多中心临床研究中应用广泛。

2 临床研究数据库的创建方法

临床研究数据库的创建基本上包括变量名设置、变量属性定义和变量间的逻辑关联设定3个步骤。根据4类临床研究数据库的内部架构、特点和核心要求,它们的创建方法和操作步骤有所差异和区别。

2.1 Excel数据库

以研究者要根据调查问卷创建一个Excel数据库为例,假设调查问卷中的主要内容包括:①一般人口学特征,如年龄、性别、文化程度、调查日期;②烟草暴露情况,包括是否吸烟、每天吸烟量、吸烟年数;③疾病情况,是否罹患肿瘤、高血压、糖尿病等。首先,研究者根据调查问卷中的内容设置变量名。变量名可直接使用英文译名或英文字母加数字命名。例如,对于年龄,可以设置变量名为“age”或“A1”,推荐直接使用英文译名“age”。如将变量名设置为“A1”,则需做好备注,以方便后期数据录入时识别。将所有设置好的变量名录入Excel数据库的第一行(图1)。其次,定义每个变量的属性。例如,年龄、每天吸烟量、吸烟年数为定量变量,对它们需同时标记清楚变量的单位;性别、文化程度、是否吸烟,以及是否罹患肿瘤、高血压、糖尿病为定性变量,对它们需同时标记清楚变量的分类。最后,统一设定变量间的逻辑关联。例如,当“smoking”為“no”时,其后的“number_smoke”和“year_smoke”均应自动跳过而不能录入数据。完成以上3步后,Excel数据库即告创建完成,可进行数据录入了。

2.2 SPSS数据库

仍以上述调查问卷中的主要内容为例,应用SPSS 16.0软件创建SPSS数据库的步骤如下:首先,研究者根据调查问卷中的内容设置变量名。变量名设置需在SPSS的“Variable View”中操作(图2上部),变量名可直接使用英文译名或英文字母加数字命名。例如,对于性别,可以设置变量名为“gender”或“A2”,推荐直接使用英文译名“gender”。如将变量名设置为“A2”,则需做好备注,以方便后期数据录入时识别。其次,在“Variable View”的“Label”中定义年龄、每天吸烟量等定量变量的单位,在“Variable View”的“Values”中定义性别、文化程度、是否吸烟、是否罹患肿瘤等定性变量的分类。最后,统一设定变量间的逻辑关联。完成以上3步后,SPSS数据库即告创建完成。数据录入需在 SPSS的“Data View”中操作(图2下部)。

2.3 EpiData数据库

还是以上述调查问卷中的主要内容为例,应用EpiData软件创建EpiData数据库的步骤如下:首先,根据调查问卷在EpiData软件中建立QES文件(图3a),其中变量名可直接使用英文译名或英文字母加数字命名。例如,对于年龄,可以设置变量名为“age”或“A1”。因为EpiData数据库在数据录入时有变量问题提醒,故推荐使用英文字母加数字命名变量名。但须注意的是,在采用这种命名方式时,变量名与后面的问题提醒部分之间一定要用空格隔开,如“A1 年龄 □□岁”。其次,根据变量类型设置数据录入格式。数值型变量用“#”表示,1个“#”代表1个数字;字符型变量用“_”表示,每2个“_”代表1个汉字;日期型变量用“yyyy/mm/dd”或“mm/dd/yyyy”表示。将设置好变量名和数据录入格式的QES文件存盘,然后根据QES文件生成REC文件(图3b)并存盘,这时就已可以进行数据录入了(图3c)。最后,为保证数据录入的准确性和录入效率,需为数据库建立CHK文件(图3d),设置数据录入质量控制相关要求,主要包括Range/Legal(合法录入值)、Jump(跳转)、Must enter(必须录入)和Repeat(重复)4项内容。

2.4 EDC数据库

与上述3种数据库的创建方法类似,EDC数据库的创建也主要包括变量名设置、变量属性定义和变量间的逻辑关联设定3个步骤。以上海申康医院发展中心创建的EDC数据库“CRIP数据库”(图4)为例,首先是采用CDISC标准在“DEV(开发环境)”中设置变量名。变量名应具有国际通用性,以方便多中心临床研究数据的拼接和后续开展合并分析。其次,与EpiData数据库创建中建立CHK文件类似,在“DEV”中对每个变量设置数据录入质量控制相关要求,并进行试运行模拟测试。最后,经模拟测试无误后锁定数据库,推送至“PROD(生产环境)”后即可正式使用了。EDC数据库的创建需要专门的知识和技能,一般多委托专业公司开发。

3 临床研究数据库的质量控制要点

为保证所创建的临床研究数据库的质量,研究者需按照一定的原则和要求创建数据库,规范数据录入操作,并对数据库中的数据进行质量控制。

首先,对于小规模临床研究,优先选用EpiData数据库,通过建立CHK文件来保障数据录入的准确性和录入效率,并对双录入数据开展一致性核查,确保数据的准确性。如果研究的数据量较小,也可考虑选用Excel数据库或SPSS数据库,以节减建库时间。须指出的是,在Excel数据库和SPSS数据库中,数据录入时因无逻辑校对和质量控制,数据录入操作务必认真、仔细,避免出错。对于规模较大、变量较多的临床研究,特别是多中心临床研究,在经费允许的情况下,建议委托专业公司开发EDC数据库。

其次,在数据录入时,各种临床研究数据库都要求录入的是阿拉伯数字,而不能录入汉字(如男、女,是、否等),否则后续数据统计分析无法进行。在数据录入前,研究者应全面审核调查问卷的内容,保证调查问卷内容清晰和逻辑正确。对于数据量较大的临床研究,可在数据录入开始前对数据录入人员进行统一培训,以保证数据录入的准确性和一致性。

再次,对于已完成数据录入的数据库,在正式开展数据统计分析前应先完成数据质量控制工作。数据质量控制的主要内容包括:①数据的完整性。研究者应全面核查数据库变量数据的缺失情况,对于主要结局变量数据,争取做到无缺失。如主要结局指标和核心变量数据存在缺失,应采用数据填补技术(均值填补、k近邻填补、回归填补、随机森林填补、多重插补和热卡填充等法)进行数据填补[1]。②数据的逻辑性。重点核查数据间的逻辑关联是否正确,身高、体质量、年龄等一般人口学特征是否存在不符合逻辑的异常数据,以及时间数据间的逻辑性等。

最后,为保证数据录入的真实性,需抽取一定比例(一般为5% ~ 10%)的原始调查问卷与数据库中录入的数据进行核对,以评价整个数据库的数据录入质量。如果核对结果发现录入的正确率<80%,则判定数据库的数据录入质量较差,通常建议重新进行数据录入。只有在完成上述所有质量控制工作且数据录入质量评价结果为良好后,才能锁定数据库,并基于锁定的数据库开展后续的数据统计分析。

参考文献

[1] 李業锦, 赵芃, 杨嵛惠, 等. 队列研究中纵向缺失数据填补方法的模拟研究[J]. 中华流行病学杂志, 2021, 42(10): 1889-1894.

猜你喜欢
数据录入临床研究质量控制
基于SPSS软件在市场调研中的数据录入方法
基于SPSS软件在市场调研中的数据录入方法
腹腔镜手术联合促性腺激素释放激素激动剂治疗卵巢内异囊肿的临床研究
黄芝通脑络胶囊治疗糖尿病周围神经病变的临床观察
浅谈机车总风缸的制作质量控制
浅谈在公路桥梁施工环节的质量管理及控制
浅谈石灰土基层施工及质量控制
黄土路基台背回填的质量控制
动态X光片在颈椎病早期诊断中的临床研究
缺血性脑血管病患者脑动脉狭窄的分布