吉林省乳腺癌筛查数据标准化采集系统的构建和数据库管理

2019-11-19 20:27于德利郑永焕阴春霞江玉娟高宏英
中国医药导报 2019年27期
关键词:云存储筛查大数据

于德利 郑永焕 阴春霞 江玉娟 高宏英

[摘要] 目的 探討吉林省乳腺癌筛查数据标准化采集系统和大数据平台的构建及意义。 方法 2016年1月~2018年12月,将原国家卫计委颁布的《乳腺癌筛查信息采集表》利用JAVA语言编写为乳腺癌筛查数据标准化采集系统,内嵌于可直接接入互联网汇影iustar 130便携式彩色超声诊断系统中。筛查过程中同步完成受筛者身份验证、筛查数据(图像、数值、文字说明等)采集。采集的数据经特殊的安全性处理后传输至云端进行存储,云端数据通过多种互联网终端设备凭权限进行有限制的检索及利用。省内各个市县地区的筛查数据在云端服务器汇总后形成吉林省的乳腺癌筛查大数据。 结果 2016年1月~2018年12月吉林省内8个地、市、区乳腺癌及乳腺癌前病变检出率为80.24/10万,早期乳腺癌69例,占比63.89%。吉林省乳腺癌筛查数据标准化采集系统实现筛查流程的标准化,提供数据采集的关键质控节点,使筛查数据的标准化采集、传输和存储一次性完成。保证了数据采集的准确性,提高了数据采集和使用的效率。 结论 吉林省乳腺癌筛查数据标准化采集系统是一个实用、高效、安全的数据采集、管理及应用系统,也是构建一个专业大数据平台的基本工具。筛查数据真实有效,可为临床科研,公共卫生的规划、管理、决策提供数据支撑。

[关键词] 乳腺癌;筛查;大数据;云存储

[中图分类号] R737.9          [文献标识码] A          [文章编号] 1673-7210(2019)09(c)-0167-06

Construction and database management of standardized data acquisition system for breast cancer screening in Jilin Province

YU Deli1   ZHENG Yonghuan2   YIN Chunxia3   JIANG Yujuan1   GAO Hongying4

1.Department of Breast, Changchun Obstetrics and Gynecology Hospital, Jilin Province, Changchun   130000, China; 2.Maternal and Child Health Service, Health Commission of Jilin Province, Jilin Province, Changchun   130000, China; 3.Dean′s Office, Changchun Obstetrics and Gynecology Hospital, Jilin Province, Changchun   130000, China; 4.the First Medical Treatment Area, Hepatobiliary Hospital of Jilin, Jilin Province, Changchun   130000, China

[Abstract] Objective To explore the construction and significance of standardized data acquisition system and large data platform for breast cancer screening in Jilin Province. Methods From January 2016 to December 2018, the Information Collection Form of Breast Cancer Screening promulgated by the former National Health Planning Commission was compiled into the Standardized Data Collection System of Breast Cancer Screening in JAVA language. It was embedded in the portable color ultrasound diagnostic system of iustar 130, which can be directly connected to the internet. In the process of screening, the identification of the screened person and the collection of screening data (included image, numerical value, text description, etc.) was completed simultaneously. After special security processing, the collected data was transmitted to the cloud for storage, and the cloud data was retrieved and utilized with limited privileges by a variety of Internet terminal devices. The screening data of various cities and counties in the Jilin Province form the large data of breast cancer screening in the province after being aggregated by cloud server. Results From 2016 January to 2018 December, the detection rate of breast cancer and precancerous lesions in eight prefectures, cities and districts in Jilin Province was 80.24/100 000, and early breast cancer accounted for 63.89%. The standardized data acquisition system of breast cancer screening in Jilin Province realized the standardization of screening process, provided key quality control nodes for data acquisition, and made the standardized collection, transmission and storage of screening data complete at one time. It ensured the accuracy of data acquisition and improved the efficiency of data acquisition and use. Conclusion The Standardized Data Acquisition System of Breast Cancer Screening in Jilin Province is a practical, efficient and safe data acquisition, management and application system, as well as a basic tool for building a professional large data platform. Screening data are real and effective, which can provide data support for clinical research, public health planning, management and decision-making.

[Key words] Breast cancer; Screening; Large data; Cloud storage

流行病學调查显示全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势[1-2]。我国虽然不是乳腺癌的高发国家,但近年我国乳腺癌发病率的增长速度要高出高发国家1~2个百分点[2]。据国家癌症中心和卫生部疾病预防控制局公布最新资料显示,乳腺癌发病率位居女性恶性肿瘤的第一位[3]。乳腺癌病因复杂,针对病因学的一级预防效果不理想。研究[5]表明,其发病存在一定的规律性,具有乳腺癌高危因素的女性容易患乳腺癌[4]。有临床实践和研究[6-7]表明,通过对特定人群的筛查可以早期诊断乳腺癌。早诊断、早治疗与该病的预后有明显的相关性。因此,利用乳腺癌筛查作为二级预防的手段尤显重要。我国乳腺癌筛查作为“两癌筛查”中的一项内容,已由原国家卫计委指导并拨出专款,各省市具体负责全面推广。虽然在乳腺癌的筛查推广以来积累了一定经验,但在实际筛查工作中仍存在不少困难与问题。因此,对于乳腺癌筛查数据标准化采集系统的应用研究,具有重要的研究意义与临床价值。

1 资料与方法

1.1 数据资料

数据资料来源于2016年1月~2018年12月连续3年吉林省内8个地、市、区,21个筛查点,共149 552人次。

1.2 数据采集模块

采用Windows及Android平台,用JAVA语言进行程序开发,封装为乳腺癌筛查数据标准化采集系统,可在Windows及Android平台上运行。然后Windows版本内嵌于汇影iustar 130便携彩超内,或在PC工作站上运行。Android版本可在以Android为操作系统各种移动终端上使用。其中Windows版本支持数据采集、存储、上传、检索及分析功能模块。Android版本主要支持数据检索、分析功能模块。

在采集模块中目前集成包括患者基本信息、病史、触诊、超声、X线、病理共6个子模块。未来将增加MRI、CT等子模块,或新增自定义功能。乳腺彩超和乳腺X线征象参照美国乳腺影像学报告和数据系统(BI-RADS)分级标准[8]进行评估,0级(Ⅰ类):需进一步行影像学检查;1级(Ⅱ类):超声无异常,良性;2级(Ⅲ类):超声良性发现;3级(Ⅳ类):可能良性发现,需短期随访;4级(Ⅴ类):疑恶性发现,需活检进行确认;5级(Ⅵ类):超声高度提示恶性。≥4级(Ⅴ类)为阳性。乳腺癌TNM分期参照第6版美国癌症联合会癌症分期手册[9]进行过去传统的数据采集数和经过完善后的数据采集的流程,见图1~2。

1.3 数据分布式云端采集

绝大多数的筛查数据通过在系统菜单中选取对应内容采集,还有少量数据以填写数字的方式进行采集。所有采集获得的数据不需要进行格式的转化,经系统进行加密算法加密后可以直接上传至云服务器存储。加密算法主要是将筛查设备信息和筛查医生身份信息与受筛数据进行关联运算。同时将受筛者的个人隐私信息与筛查数据分别存储。检索时根据用户的权限级别,系统会选择提供完整数据还是仅提供临床相关的数据。

1.4 采集系统及管理平台流程

1.4.1 确认筛查单位以及受筛者身份  筛查单位在每一台筛查终端设备(彩超或工作站)中都有确认的筛查终端编码,同时通过电子身份锁对筛查医生进行身份确认。没有电子锁将无法启动筛查功能。每位有资格进行筛查工作的医生都有自己的电子身份锁,因此采集的数据可以进行准确的追溯。每一位受筛者的身份也要进行严格的确认,杜绝受筛查者身份造假。受筛者需要在系统终端刷身份证确认身份后(新的版本中还可以在刷身份证的同时进行脸部拍照识别),才能接收筛查。当身份证信息重复时,系统会给出报警并请求确认受筛者是否重复筛查。

1.4.2 标准化数据采集流程  将所需采集的数据尽量使用菜单的方式完成。最大限度的避免筛查医生主观因素对于数据准确性的干预,并通过逻辑关系设置质控管理。左右双侧乳房触诊数据的录入界面。除了目标的直径数据需要人工填写外,其余内容完全通过下拉菜单完成。超声数据采集是乳腺癌筛查的重点内容。既往的筛查流程中只能对超声的描述和测量数据进行采集,对于超声的图像则因无法存储而放弃采集。但超声图像却是最直观的数据之一。全新的筛查系统支持图像的徒步采集功能,同时提供一个完整的包含4个部分的乳腺超声报告:测量、注释、图像选择和附加信息。测量菜单中包含了超声可见目标的超声特征描述和测量值;注释菜单中为描述性语言(不超过255个汉字),主要是对受筛者的乳腺特征进行描述;图像选择菜单中每1位受筛者每一次筛查可以存储50幅静态图像或12 min动态图像,由于最终生成的可供受筛者检索的乳腺超声报告中只能包含4幅图像,因此筛查医生可以在这个菜单中进行图像选择,以确定最终出现在超声报告中的图像是哪4幅;附加信息菜单中允许筛查医生填写一些与科研或临床相关的额外信息,如特殊既往史、特殊病史等。

2 结果

2.1 乳腺癌筛查结果

行乳腺彩超检查人数为149 552人,超声阳性率为0.51%(764人),其中0级83人、1级103 601人、2级39007人、3级6097人、4级729人、5级35人;乳腺X线检查人数为4030人,X线阳性率为2.63%(106),其中Ⅰ类24人、Ⅱ类3064人、Ⅲ类218人Ⅳ类、Ⅴ类95人、Ⅵ类11人;病理检查240人,乳腺癌及癌前病变120人(50.00%),其中不典型增生7人、小叶原位癌1人、导管原位癌10人、浸润性导管癌92人、浸润性小叶癌5人、其他恶性肿瘤5人、乳腺癌及癌前病变120人;早期乳腺癌(临床分期0~ⅡA期)69例,占比63.89%,乳腺癌TNM分期:0期13人、Ⅰ期13人、ⅡA期43人、ⅡB期31人、Ⅲ期及以上8人,死亡率不在本研究筛查统计之中,筛查结果:2016年1月~2018年12月吉林省内8个地、市、区乳腺癌癌及乳腺癌前病变检出率:80.24/10万。

2.2 筛查数据采集的效率提高

系统的操作界面非常简单,可操作性好,不设隐藏的功能菜单,所有项目一目了然。负责筛查工作的医生可以在2 h内完全掌握本系统的基本结构和操作方法。完全实现了无纸化的操作。由于患者的基本信息输入是靠身份证读卡器完成,可在1 s内完成信息输入,而传统的身份信息采集需要2 min。其余的病史、触诊、超声等基本数据的采集是靠下拉菜单选择完成,只有受筛者的电话号码和测量的数值是通过键盘输入的,大大提高了筛查效率。据实际测算,采用本系统后,50人次的平均筛查时间由(180.59±2.36)s缩短到(60.25±3.37)s。

2.3 采集数据的真实性得到保证

由于使用身份证读卡器直接读取受筛者身份信息,并可附加脸部照相存档功能。只有此两部操作全部完成,才能开始信息填写,因此,伪造受筛者信息的操作受到根本限制。每一个受筛者的筛查数据都是其本人的真实数据。

2.4 采集数据的可靠性得到保证

数据采集过程中除了具体的测量数据需要手动填写,其余均采用下拉菜单选择完成。不存在操作者主观意识对于数据的影响。所有采集获得的数据可以直接上传至云端,不需要数據转换,没有数据转换过程中产生的误差和错误,最大限度的保证了数据的可靠性。

2.5 采集数据的的利用率得到提高

利用省级的大数据,可以对吉林省人群公共卫生服务需求做出精准判定、细分并分别给与支持;可以对公共卫生服务的方向做出快速调整,可以对服务内容进行精准设计;合理分配公共卫生资源,以期对有限的资源实现高效的配置。利用本系统可以在相对较短的时间内构建吉林省的乳腺癌筛查大数据,可以更高效的指导相关的工作。全新的筛查用户可以借助所有的互联网终端,凭借有限的权限对筛查数据进行补充、检索及使用。见表1。

3 讨论

乳腺癌筛查数据标准化采集系统和大数据平台的构建,可以减少过去由于筛查流程不规范、数据采集流程不严谨的现象。在总量庞大的数据中选取符合标准、可用于流行病学分析的可靠数据[10]。乳腺癌筛查数据标准化采集系统和大数据平台的构建不仅可以快速录入、获得个人准确信息,让资源数据得到有效的共享和利用,还可扩充获取患者信息模块,有效避免数据丢失,具体优势有以下4点:

3.1 减少数据采集的失误

①身份验证。无论是执行筛查的医生身份验证,还是受筛者的身份验证都要进行。执行筛查的医生进行身份验证,数据的真实性和准确性可以追溯,当出现数据失真、失效事件时可以进行追责;受筛者进行身份验证,则受筛者身份信息不能够进行造假,与之相关的数据自然具有真实性可言。身份验证质控的是影响筛查数据真实性和准确性的关键问题。②基本信息、病史采集、触诊及超声筛查4个环节中所有的数据采集均无需手工录入,可以减少其间产生误选、误录的现象。数据采集过程中,需要多个人为操作的步骤进行数据采集;数据采集完成后的转换上传无需人为操作干预,降低数据误差概率,准确性增加[11-13]。并且可以避免既往的数据采集内容存在缺失,包括:超声筛查仅有文字说明,缺失图像的采集;缺失诸如钼靶、病理等检查的数据的现象。

3.2 数据有效的管理,利用效率高

由于提供上述身份验证的质控,数据上传后可以根据不同用户的身份权限来开放使用。首先是基层参与筛查的医疗单位和医生有访问和使用(实际上省市级的医疗单位也无法使用)的权限,其次受筛者对于自己的筛查结果也有访问的权限。相当于一个非常有使用价值的数据库得到应有的利用,发挥其对于工作和科研的指导意义。

3.3 采集表格灵活性和可扩充性

新系统对于数据采集内容进行了模块化的设计,既可以将不同的筛查标准分别以模块的形式嵌合于系统中,使系统可以适合任何型别的筛查数据采集(如甲状腺癌的超声筛查、宫颈癌的超声筛查等),也可以对现有的筛查内容进行不断的补充升级。以本系统为例,既往的筛查中并不包含钼靶、MRI、CT以及病理等内容。而本系统可以通过追加一个采集模块,允许受筛者或筛查医生将相关内容通过移动终端(工作站、PC、手机)补充录入至数据库。

3.4 避免数据丢失、查询困难

纸质资料不易保存,且存在数据难查找、使用繁琐等问题。全新的筛查系统支持数据采集、存储和传输同步完成,我们对所有的上传数据进行特殊的算法处理,可以有效的保证数据的安全。算法处理包括几个主要方面:①每一位受筛者的个人隐私信息与临床数据是分开存储的,临床数据与个人隐私信息之间通过筛查号关联,筛查医生只具有访问临床数据的权限;②每一位受筛者的全部数据存储之前与执行筛查的医生的电子身份锁信息和用于筛查的终端设备编码进行关联计算。由于每一个医生电子身份锁只具备有限的访问权限,因此每一个筛查医生只能访问自己筛查过的受筛者临床数据;区域专家有权限访问本区内所有受筛者的临床数据;③每一位受筛者可通过自己的身份证号码及绑定的手机号码访问自己的筛查数据或补充上传额外的临床数据,但无法进行数据的修改。④所有数据采用分布式存储方式,在不同的服务器进行交叉备份存储,避免极端情况下的数据丢失[14-16]。基于上述的安全措施,系统可以提供多种检索路径,授权用户可以使用任何网络终端设备访问与自己权限匹配的数据[17-21]。如果是私人用户想了解自己的筛查信息,可以凭身份证信息进行完整的个人数据检索或者补充更多的临床数据。如果用户(临床医生、主管部门)想将筛查数据用于科研研究,则凭权限可以利用数据库中涉及临床部分的内容。

筛查的数据存储管理,从单纯纸质保存到部分数据化到现在的全部数字化保存,已经使数据的存储能力得到了很大提高。本研究侧重于在全部数据化保存的基础上,实现数据的质量控制和数据的再利用、分析,为今后的工作提供数据支持。在乳腺癌筛查数据采集系统和数据分析平台的研发进程中遇到了很多困难,有些已经解决,有些还需进一步研究改进,现将经验和教训总结如下:①只有找到开放的彩超平台供研究使用,才能将筛查数据转化为数字信息,内置于超声机内,实现一般信息、流行病学信息、临床体检信息和超声信息及超声图像相结合,同时还要保证超声机的正常使用不受影响。②在超声数据的测量获取中实现自动生成是研发难点之一,工程师经过了反复设计才得以解决,实现了数据测量后自动在报告单中呈现,避免人工填写出现误差。③在大量数据图片获取和传输过程中,只能保障4幅以内的图片传输,这也是今后应优化的一点。因为有时确诊1个乳腺癌需多幅图片来确认。需要在设备上加以改进。④本研究只解决了超声和流行病学、临床体检、一般情况的信息数字化存储和平台传输,对于进一步的乳腺X线信息、病理信息等还需手动输入。如果采用图片输入,X线信息、病理信息,只有存储功能,尚无法进行分析和检索。换而言之,本研究只解决了乳腺癌筛查的大部分工作的数字化存储和传输及平台分级工作,还有很多工作需进一步开发和完善。⑤本研究只是初步实现了超声Ⅰ类诊断的自动化分析,尚不能实现超声的全部自动化分类,对于超声有异常发现的,还要筛查医生进一步判断。⑥本研究在数字化筛查的推进过程中,还受到筛查人群的认知、医务工作者的人力、社会财力等多因素的制约,制订完全数字化筛查模式的路还很长,需更多有志之士参与其中,同时也需要政策的支持和帮助。

综上所述,乳腺癌筛查数据标准化采集系统是一个实用、高效、安全的数据采集、管理及应用系统,也是构建一个专业大数据平台的基本工具。筛查数据真实有效,可为临床科研,公共卫生的规划、管理、决策提供数据支撑。

[参考文献]

[1]  Chand P,Garg A,Singla V,et al. Evaluation of Immunohistochemical Profile of Breast Cancer for Prognostics and Therapeutic Use [J]. Niger J Surg,2018,24(2):100-106.

[2]  邹兴文,杨丽,李伟栋.广州市173335名农村妇女乳腺癌筛查分析[J].中国肿瘤,2018,27(8):568-572.

[3]  窦建卫,朱中博,杨硕,等.基于“温气化形”法论治乳腺癌癌前病变探析[J].国际中医中药杂志,2018,40(11):1088-1089.

[4]  Wang T,Parada H,McClain KM,et al. Pre-diagnostic aspirin use and mortality after breast cancer [J]. Cancer Causes Control,2018,29(4/5):417-425.

[5]  张瑾,陈薇,刘蕾.2017年《NCCN乳腺癌筛查和诊断临床实践指南》(第1版)更新与解读[J].中国全科医学,2017,20(24):2939-2943.

[6]  Black E,Richmond R. Improving early detection of breast cancer in sub-Saharan Africa:why mammography may not be the way forward [J]. Global Health,2019,15(1):3.

[7]  王小松,欧阳取长.4720例女性乳腺癌病例生存分析[J].湖南师范大学学报:医学版,2014,11(03):35-40.

[8]  Duma MM,Chiorean AR,Chiorean M,et al. Breast Diagnosis:Concordance Analysis Between the BI-RADS Classification and Tsukuba Sonoelastography Score [J]. Clujul Med,2014,87(4):250-257.

[9]  Singletary SE,Allred C,Ashley P,et al. Staging system for breast cancer:revisions for the 6th edition of the AJCC Cancer Staging Manual [J]. Surg Clin North Am,2003,83(4):803-819.

[10]  赵成,徐娟,杜佳月,等.乳腺癌筛查及卫生经济学评价研究进展[J].医学与社会,2018,31(11):17-20.

[11]  Zuo TT,Zheng RS,Zeng HM,et al. Female breast cancer incidence and mortality in China,2013 [J]. Thorac Cancer,2017,8(3):214-218.

[12]  Li T,Mello-Thoms C,Brennan PC,et al. Descriptive epidemiology of breast cancer in China:incidence,mortality,survival and prevalence [J]. Breast Cancer Res Treat,2016,159(3):395-406.

[13]  侯艳红.基于数据库管理的数据采集系统的设计及实现分析[J].微型电脑应用,2016,32(7):78-80.

[14]  Terry MB,Liao Y,Whittemore AS,et al. 10-year performance of four models of breast cancer risk:a validation study [J]. Lancet Oncol,2019,20(4):504-517.

[15]  党晓伟.基于网络编码的二层分布式存储及数据修复算法[D].西安:西安电子科技大学,2014.

[16]  Yildirim E,Foran DJ. Parallel Versus Distributed Data Access for Gigapixel-Resolution Histology Images:Challenges and Opportunities [J]. IEEE J Biomed Health Inform,2017,21(4):1049-1057.

[17]  Nelson HD,Weerasinghe R,Martel M,et al. Development of an electronic breast pathology database in a community health system [J]. J Pathol Inform,2014,5(1):26.

[18]  Khakbazan Z,Taghipour A,Latifnejad Roudsari R,et al. Help seeking behavior of women with self-discovered breast cancer symptoms:a meta-ethnographic synthesis of patient delay [J]. PLoS One,2014,9(12):e110262.

[19]  Nelson HD,Weerasinghe R,Martel M,et al. Development of an electronic breast pathology database in a community health system [J]. J Pathol Inform,2014,5(1):26.

[20]  胡琢瑛.乳腺癌伴隨疾病全方位管理之妇科问题管理[J].中国临床新医学,2019,12(2):120-124.

[21]  段丹.网络终端安全接入控制技术研究[D].西安:长安大学,2015.

(收稿日期:2019-01-31  本文编辑:封   华)

猜你喜欢
云存储筛查大数据
点赞将“抑郁症筛查”纳入学生体检
预防宫颈癌,筛查怎么做
NRS2002和MNA-SF在COPD合并营养不良筛查中的应用价值比较
智力筛查,靠不靠谱?
基于云存储的气象数字化图像档案存储研究
云存储技术的起源与发展
基于云存储的数据库密文检索研究
浅析龙岩烟草业务数据与监控数据中的云存储与大数据
基于大数据背景下的智慧城市建设研究