甘肃省健康医疗大数据治理的实践与探索

2021-01-08 09:08闫宣辰姚进文陈耀龙
甘肃医药 2020年11期
关键词:病历甘肃省卫生

闫宣辰 姚进文 陈耀龙

1.甘肃省卫生健康统计信息中心,甘肃 兰州730030;2.兰州大学基础医学院,甘肃 兰州730000

大数据是新一轮信息技术革命与经济社会发展融合的产物,充斥在人类经济社会的许多角落[1],正在迅疾并日益深刻地改变人们的生产生活方式[2]。并且,随着云计算、物联网等新技术的不断发展,各行各业都积累了数量庞大的各种数据,为了对这些数据进行有效的利用和挖掘,数据的治理逐渐显现出其重要的作用[3,4]。数据治理不仅受到业界的重视,其相关研究也引起了学界的关注,国外学者[5]提出较为完善的理论体系。为应对新形势的挑战和工作的需要,甘肃省卫生健康统计信息中心联合兰州大学基础医学院循证医学研究所,依托甘肃省全民健康大数据平台,尝试对我省的健康医疗大数据的治理进行实践性的探索。本次研究以我省全民健康大数据平台的五大基础数据库为治理重点,总结大数据治理过程中的重点和难点,挖掘大数据治理的经验,评估数据治理过程中工具的选择,探索对大数据治理的结果进行科学的评估。

1 概述

甘肃省卫生健康委于2016年5月启动了省级全民健康信息平台建设,建设内容主要包括:完善全员人口数据库、电子健康档案数据库和电子病历数据库,依托省级交换平台建成医疗协同服务、公共卫生服务、人口计生服务、医疗保障管理、药品采购配送、综合卫生管理等六大应用系统,实现面向社会公众的服务、跨区域业务应用协同和数据交换共享、面向各级卫生计生机构的综合信息统计分析、大数据应用和决策支持功能。经过三年多的建设和发展,甘肃省的卫生信息化取得了明显的成效,并且积累了大量、优质的健康医疗数据。但是,由于医疗机构信息系统的建设时间、建设主体和承建单位的不同,采用的数据库、平台、网络结构等不同,造成了大量形态不同的数据。为进一步提高我省健康医疗大数据的质量,使我省的健康医疗大数据发挥真正的作用,省卫生健康统计信息中心开始探索对大数据进行治理。本次数据治理在保证不对原有系统做任何改动的前提下,数据保留在原系统不做任何迁移,逐项对我省的全员人口数据库、电子病历数据库、健康档案数据库、健康扶贫数据库和卫生资源数据库进行了治理。

2 大数据治理的过程

2.1 明确数据的标准与规范 甘肃省全民健康信息平台是根据国家信息化建设的要求,以全员人口、电子病历、健康档案等五大基础数据库为基础,实现了医疗保障、免疫规划和慢病管理等多项业务系统的互联互通,新建了远程医疗、双向转诊等新业务系统,通过居民电子健康卡的创新应用,为我省健康医疗大数据的可持续发展奠定了坚实的基础。该平台以国家制定的疾病诊断、手术操作、药品和医疗服务项目编码为标准,以全省统一的接口规范完成了医疗机构的接口改造工作,基本实现了省、市、县、乡、村医疗机构的全覆盖。数据标准和规范的制定,一定程度上解决了医疗机构信息化建设的历史遗留问题,通过数据标准和规范的明确使医院内部多个系统之间、不同医疗机构之间的数据实现互联互通,凸显数据深度挖掘的价值。

2.2 最大限度整合历史数据 过去卫生行政部门和医疗机构也积累了大量的历史数据,由于历史原因,数据的利用率和开发程度处于非常低的水平。由于数据标准和规范的不同,历史数据的使用必须要经过数据的转化,将其进行转化为满足现行标准和规范的数据。历史数据的转化中,需要建立较多的对应关系和对应规则,需要充分考虑当时的政策背景和业务场景。数据整合结果的验证是难度比较大的工作,主要通过抽样的方法从医疗机构的HIS系统中进行验证,其次就是采用循证医学的方法在相关的研究文献中提取验证规则。

2.3 有计划地进行数据清洗 数据清洗是指在对数据进行审核时,将脏数据清洗为干净数据的过程。而所谓的脏数据则是指在数据审计的过程中发现的有问题的数据,即低质数据。目前,对于数据的清洗研究,主要集中体现在缺失数据的清洗、冗余数据的清洗、异常数据的清洗。在数据的清洗过程中,科学的分析脏数据的类型,根据不同类型的脏数据定义不同的清洗策略。数据清洗的粒度必须是从最小粒度“字段”开始,以“字段”为单位制定数据的转化规则。选择合适的清洗工具,将计算机决策和人工清洗有效结合,并对清洗的结果进行抽样验证。

2.4 科学选择数据清洗技术 随着信息化技术的不断发展,数据的清洗技术也随之发生了较多的进步。数据清洗技术是为了提高数据质量而剔除数据中错误记录的一种技术手段,在实际应用中通常与数据挖掘技术、数据仓库技术、数据整合技术结合应用[6,7]。由于历史的原因,目前采集到的数据,种类多样,结构复杂,所以有大量的数据需要进行清洗和处理以后,才可以进行利用。传统的人工处理的成本会非常大,而且效率和准确率有明显的差异,所以自动化应用软件的清洗工具也受到了各方的关注。本研究对数据的清洗采用以函数清洗为主结合人工清洗,函数清洗目前是大数据清洗过程中比较常用的一种手段,多于结构性较好的数据有明显的作用,可以同时纠正数据的异常、重复、错误和缺失等多个方面的问题[8,9]。数据的清洗工作主要是在数据的预处理环节进行,力求从数据源头减少噪声数据,有效提高了数据的清洗效率和分析结果的准确性。人工数据清洗主要是定义清洗规则和规则的优先级别,清洗过程中对数据采用了“分类分级”的清洗思路,不同优先级的数据制定不同的清洗规则。

3 数据治理结果

3.1 人口基础数据的质量明显提高 甘肃省全员人口数据库是我省健康医疗大数据平台中最基础的数据库之一,大数据时代背景下的人口数据治理,必须解决人口大数据的开发难度大、个人隐私等新问题。如何通过数据治理,提升人口大数据作用以及发挥人口大数据在健康服务的效率提升方面的效果,就成了人口大数据治理的目的所在。在进行全员人口信息库的清洗过程中,通过与公安户籍登记信息系统的比对以及全员人口信息系统自身的校验规则,对人口的基础数据进行了清洗。在治理过程中,明确权利与职责,严格保密,全员人口数据库的治理成效显著。治理后,甘肃省的全员人口数据库总记录条数4.8亿条,占用存储124.42G,分属于12个数据库表。甘肃省常住人口为2600多万人,录入基本实现全覆盖。治理后的全员人口数据库可以实现到乡镇级的数据查询,并支持个人查询。

3.2 电子病例数据的价值密度大幅提升 甘肃省健康医疗大数据平台对电子病历数据库的治理主要集中在两个方面:一是数据治理如何在保障数据质量过程中发挥的作用;二是在医疗机构层面,如何运用数据治理的手段来提升数据的质量。数据治理范围涵盖:门诊就诊登记2504.56万条,急诊留观病历124.83万条,门诊收费明细4199.11万条,门诊收费明细1.36亿条,门诊处方明细1.16亿条;门诊检验记录4233.78万条,检查记录1254.50万条,检验明细8.11亿条,细菌结果56.23万条,药敏结果173.69万条。病案首页住院就诊记录427.49万条,住院病案首页主体表110.14万条,中医住院病案首页12.36万条。一般护理记录324.91万条,手术护理记录9041条,入院评估单18.45万条,出院评估单12.23万条。经过治理后,甘肃省健康医疗大数据平台电子病历数据库目前实现了门诊、住院、手术、麻醉、孕产和护理等16项电子病历的查询、统计等功能。甘肃省电子病历数据库首页见图1。

3.3 盘活了我省居民的电子健康档案 健康档案是各级卫生计生、中医药行政管理部门和医疗卫生计生单位在工作中形成的,具有保存价值的各种形式和载体的历史记录[10,11]。近年来,甘肃省电子健康档案工作与卫生计生事业同步发展,真实地记录了我省人民群众的健康状况及我省大数据发展历程与成就。但随着我省卫生计生事业的不断发展,信息化建设工作的不断深入,我省健康档案数量急剧增长,利用需求变化频繁,利用目的更加多样化。健康档案工作不适应的现象越来越突出,如档案管理的机制体制不够健全、档案的基础业务不够扎实、未实现档案的集中统一管理等。

图1 甘肃省电子病历数据库首页见图

目前,各类卫生健康数据均与健康档案有关,健康档案大数据的治理以互联互通为主线,并且在医联体内实现健康档案、病历等互联互通,实行检查结果互认、处方流动、药品共享。建立医学影像、检查检验等中心,在医联体内提供一体化服务。通过治理后,我省健康档案数据库集15个,数据表52个,累计获取居民健康信息16506万条,占用存储约92G。累计获得个人基本信息2733.78万条,个人疾病史306.01万条,个人家族史280.23条,个人手术史110.81万条,个人输血史累计108.22万条,个人外伤史累计168.94万条。目前,我省的健康档案数据库涵盖了个人档案、家庭档案、健康体检、孕产妇健康、儿童健康等诸多领域,对高血压、糖尿病和严重精神障碍患者实现了全方位监测,甘肃省健康档案数据库首页见图2。

3.4 健康扶贫工作的监管更加精准 健康扶贫大数据的治理,立足于健康扶贫工作的实际应用,以工作需求为导向,挖掘数据应用中的问题,试图解决健康医疗大数据规模庞大的问题,建立了严格的数据清洗流程,数据清洗的目的就是利用先进的技术手段对医疗大数据中存在的各种问题进行处理,达到补全数据、剔除重复数据、校验数据、从非结构化文本中提取关键数据、数据标准化和格式统一等目的,最大限度利用医疗机构、医保机构已有数据,为健康扶贫提供坚实的基础。

经过数据治理后,我省的健康扶贫数据库实现了对贫困人口精准筛选,实现了对贫困人口就医环节的全程监管,对健康扶贫工作进行实时监管。目前主要分析的指标包含全省的建档立卡贫困户的总人数、参加社会保险人数、患病人数、患病人数中的已治愈人数和未治愈人数;健康状况分布情况(健康人群数、患病人群数、死亡人数);婚姻状况分布;兜底保障户的统计情况;患病的疾病分类情况、因病负债情况等。健康扶贫数据库包含贫困人口档案、入户调查记录和“一人一策记录”三大模块,实现了188.28条入户调查的记录,核实了163条贫困人口的健康状态,对3.18万人的治愈情况进行核实。

3.5 卫生资源大数据的治理 卫生资源大数据治理,主要是对重复数据剔除和对混乱数据整理,这是大数据治理中遇到的又一常见问题,如同一医疗机构有多个名称和多个医疗机构代码,这对后期的精细化管理提出了挑战。在实际的卫生业务过程中,必须将拥有多个医疗机构代码的同一医疗机构进行统一。数据混乱的问题主要集中在医生的诊断,针对数据混乱的问题,需要根据具体情况对同一单元格内的多个诊断利用分隔符进行拆分,或使用字典表进行匹配拆分。模糊匹配评分、搜索等方法将经常被用来对未使用标准字典诊断名称的诊断数据进行标准化处理。甘肃省卫生资源数据库,涵盖了2.89万家医疗机构,总数据1.99亿条,建立57个数据库表。实现了对200余家二级及二级以上医院的卫生资源查询;覆盖了全省的疾病预防控制中心,包含了1300多家卫生院以及1.70万家村卫生室。

图2 甘肃省健康档案数据库首页

4 结论

4.1 人员的精准定位和识别是大数据治理的基础 大数据时代,如何在众多的业务数据库中精准定位和识别同一研究对象是较大的技术挑战,如何在同一数据库中定义业务数据的产生是源自同一研究对象是进行大数据治理的基础。医疗卫生行业涉及老百姓就医、医保、公共卫生、健康体检等诸多业务,数据的多样性将长期存在;其次健康医疗相关数据在产生的初期开始,就面临较大的噪音风险,如:不规范的业务操作、数据的上传、数据的抽取等任何一个环节出现问题,都会对人员的精准定位和识别产生较大困难,尤其是经过区域性的大数据平台进行数据汇聚后。所以,针对全员人口数据库的治理是大数据治理的基础,也是首要的工作。

4.2 重复数据治理是电子病历数据库的重点 电子病历数据库治理的重点领域是:相似、重复数据,具体表现为:多种形式的记录描述目标却相同,或多条同样记录表达同样含义。其产生的原因多种多样,主要是因为数据录入拼写错误、存储类型不一致、缩写不同等方面的原因造成的,与业务活动紧密衔接[12]。电子病历数据库是承载患者就医业务流程最重要的数据库,本身就存放了较大规模的相似或者相同的数据,所以电子病历数据库清洗的重点领域应该是重复数据的识别和清洗。本次探索发现,对于重复数据的清理最佳阶段还是数据集成之前,在单个业务系统中,理论上讲是不会产生重复数据,产生相似或重复数据的原因多数是因为业务办理环节出现的问题,在这个阶段对数据进行纠正和清洗是最佳阶段。

4.3 数据的完整性是健康档案成为“活档案”的前提健康档案的真正作用在于成为辅助医生进行临床决策的“活档案”,成为患者了解自己健康状况的载体,该系统对于数据的延续性和完整性有自己独特的要求。最大限度的补全缺失数据成为该系统数据治理的主要任务。本次治理过程中,首先对缺失数据进行科学分类,即分为可获取数据缺失和不可获取数据缺失。可获取数据是指大数据平台中一些客观数据,可以从数据库其他表的字段中通过表关联、计算、推导等技术手段重新获取[13]。不可获取数据主要是指临床数据中一些主观输入的数据,无法通过表关联等技术手段从数据库其他表的字段中获取。针对不同类型的数据制定不同的回补策略,除了进行多个数据库间的关联,还应该应用计算或者逻辑关系的推导来获得。

4.4 数据清洗是大数据治理的重点和难点 数据清洗最首要的工作是分析数据源的特点,找到数据质量低的原因,确定数据清洗的目标。制定合理的数据清洗策略和清洗方案,重点清洗的算法和规则进行研判,并通过抽样数据进行验证。数据清洗技术是大数据时代提高数据质量的一种技术手段,主要是通过对错误数据的剔除、缺失数据的回补等方式实现,在实际应用中通常与数据挖掘技术、数据仓库技术、数据整合技术结合应用[14,15]。

数据清洗是进行数据挖掘和数据分析的前提,是数据质量把控的关键环节。为了提高数据质量和分析结果的准确性,必须在数据预处理阶段就进行数据的清洗,采用不完整数据清洗技术、不一致数据修复技术、相似重复数据清洗技术等修复缺失数据。针对不一致数据和异常数据,合并或删除相似重复数据,进而保证数据预处理质量,提高数据利用效率。

4.5 循证医学在大数据治理中的作用 循证医学是一门研究证据的科学,其在大数据治理中的作用有待进行深入的探索和总结[16]。本次治理过程中,基于循证的证据检索对治理方案的制定起到了积极的作用。基于函数的数据清洗方法可解决数据质量的多个方面的问题,在数据预处理环节对脏数据进行清洗,从数据源处减少噪声数据,提高数据清洗效率[17]。其次,循证医学更大的作用在于对数据治理的结果进行评价。可以系统性的筛选评价指标,建立评价体系,也可以对大数据治理的结果进行基于循证的验证。

综上所述,健康医疗大数据在其治理过程中面临较多的技术瓶颈,人员的精准定位和识别是治理的基础。大数据的治理是一项长期的系统性的工程,随着各种数据采集标准的健全和完善,健康医疗大数据的质量会有明显的提高。但是,站到大数据应用的角度来看,大数据治理会一直伴随大数据的开发和利用的全过程。数据清洗策略和数据清洗工具的选择,对于数据治理的效率和治理的效果有明显的影响。数据治理后的科学评价也是数据治理工作的重要一环,将循证医学和大数据治理工作有效结合,可以对大数据治理的结果进行科学的评价。

猜你喜欢
病历甘肃省卫生
致敬甘肃省腹腔镜开展30年
甘肃省机械工程学会
甘肃省发布第1号总林长令
强迫症病历簿
“大数的认识”的诊断病历
甘肃省天水市泰安县桥南初级中学
为何要公开全部病历?
卫生歌
村医未写病历,谁之过?
讲卫生