医院数据治理与数据质量提升研究

2022-01-08 06:34王韶锋赵善斌
现代医院 2021年11期
关键词:字典信息系统标准

王韶锋 赵善斌 杨 静

山西省肿瘤医院 山西太原 030013

在大数据的时代,数据已经成为一种重要的资产。资产是一种经济资源,能以货币衡量,并预期未来能提供效益[1]。医院在长期运营过程中,积累了海量数据资产,这些数据资产很难体现在账面上,无法清晰定义在资产负债表中,属于“隐形资产”,却可以帮助医院更精细化地运营,帮助医生更精准地治疗、科研。

但事实上许多医院在数据资产的利用上不尽如人意,甚至没有把数据当做资产。如临床医生做科研还是使用国外医疗机构公开的数据集,如MIMIC-Ⅲ数据库[2-4],而使用国内医院自己建立的数据仓库比较少[5]。造成这种现象的一个重要原因是忽视了数据仓库中的数据质量,在系统中存在许多不完整、不规范或重复的数据,即脏数据[6],必须经过数据清洗和整理才能加以利用。

对数据质量的轻视带来了两个后果,一方面是每年花在数据整理和清洗上的费用支出巨大,极大地增加了医院管理者的工作量,降低了工作效率[7-8],给数据资产的利用增加了困难。另一方面,数据质量限制了各类信息系统如集成平台的效能发挥,没有质量保证的基础数据,根据信息管理理论,只能是“垃圾进垃圾出”,各种统计分析和指标结果就无法反映真实情况,以数据驱动的管理模式当然也无从谈起。

在讲精细化管理[9-10]的今天,没有质量的数据就像包含着金子的垃圾堆,挖掘起来非常困难,甚至会带来决策偏差和损失。医院亟需推进全院范围内的数据资产管理思维模式转型,应该深刻认识到数据是医院资产的重要组成部分,而且可以带来丰厚的经济效益,值得上升到战略高度给予重视。为了推进数据治理,我们对数据质量的问题、成因及对策进行了分析研究。

1 数据质量存在的主要问题

2019年我院上线IT运维管理平台,通过对IT运维管理平台收集的数据质量问题进行统计分析,结合文献查询,我们总结了医院普遍存在的一些数据质量问题。

1.1 数据标准不统一或者不按标准行事导致的一致性问题

一致性问题指的是数据业务表与数据字典表无法一一对照,而产生一致性问题的主要原因是数据标准不统一,或者虽然有标准并形成了字典表,但是各业务系统没有按照标准执行。数据标准是数据一致性质量的依据和前提,要保证数据一致性,首先要有统一的数据标准。在医疗机构的多个信息系统中,存在同一主题比如主诊断的字典具有不同字段、内容、编码和参考标准,或者数据条目数不一致;主题相近的字典比如费用分类存在不同的统计口径、命名规则;部分数据存在不根据字典表生成而是人工自定义的情况,如自定义医嘱、检验项目等;业务表与字典表字段长度设置不合理,存在不一致导致的截断现象。

1.2 数据完整性差

数据完整性是指必要的数据均已被完备地填写。必须的数据如果都没有填写完整,那是否填写正确更无从谈起,所以数据完整性是数据准确性乃至整体数据质量的基础。数据完整性差主要指必填字段缺项,存在NULL值、空值或者其他形式的无意义字符[11]。

山西某医院收费信息系统中2019年3月—4月中必填字段(如地址、现住址、总费用)缺项统计,见表1。

通过查阅文献,发现某院病案信息系统存在出院患者病案首页部分缺少其他诊断、其他手术操作内容的填写[12]。

表1 某收费信息系统缺项发生次数统计 (次)

1.3 系统数据各自割裂,无法有效关联

数据割裂即形成了信息孤岛,主要体现在整合性和及时性不符合需求。整合性不足指逻辑上应该存在联系的数据无法关联起来,在数据库中没有保存关联信息。及时性不足指数据产生时间和可查看时间差距太大,使数据分析人员无法及时地拿到想要的信息。

数据割裂问题常见的有:因主外键缺失,数据割裂,无法关联到患者的就诊记录上;无法区分同一患者不同趟次的诊疗行为;手术记录和麻醉记录、病程记录和护理记录等系统之间的数据无法得到关联,出现业务断层,形成了信息孤岛,信息无法共享给有需要的信息系统[13];字典更新导致之前生成的业务数据缺乏关联,如检验项目明细的参考范围与字典表不对应;ODS库与生产库因为同步问题,导致数据不一致。

1.4 数据准确性差

数据填写超出值域范围,不符合逻辑,如身份证号、邮编、电话、性别、体温填写错误的;数据格式错误,如数字填写为全角数字,日期格式不统一。

2 导致数据质量问题的原因

根本原因分析法(root cause analysis, RCA)是一种质量管理技术[14],通过表面上显露出来的问题,不断根据因果逻辑关系迭代挖掘更深层次的原因,其中包括近期和远期的原因,目的是找到表面问题出现的根本原因。

根据根本原因分析法的理念,我们在分析导致数据质量问题的原因时,要抓住深层次的原因,而不是被表象所迷惑。当一些问题频繁发生时,我们应当想办法找到这些问题的共性,寻找并抽象出背后的原因,才能防止问题的再次发生,真正避免“头痛医头,脚痛医脚”,通过几轮问题挖掘,我们总结了产生数据质量问题的根源。

2.1 重应用,轻数据质量

在政策上,国家卫健委把电子病历评级与医院等级评审挂钩,要求2020年所有三级医院要达到4级以上的评价。4级要求医院内实现全院信息共享,对数据质量提出了要求[15]。但是在电子病历评级评审过程中,各种应用功能点要求得比较细,数据质量只要求最近3个月的数据达标,所以在政策的倾向下,医疗机构对数据质量的重视程度不足。另一方面,数据质量毕竟是一个长期的工程,不少医疗机构在建设信息系统时更看重应用的多寡,功能的有无,而对数据的重视程度不够[16],无法形成常态化的数据治理。

2.2 信息化建设规划和管理问题

医院的信息化系统有很强的使用惯性,一旦医院已使用了某个厂家的系统,再更换系统是一项艰难而且工作量很大的工程,而根据数据治理的要求,信息系统要进行长远的、大量的改造,所以很考验厂商的技术能力和配合程度。在医院信息化建设过程中,各类信息系统大多由使用科室牵头引进,各系统相对独立,缺乏整体的数据规划设计的意识和能力,比如在人力系统中,人力部门认为员工的职位、职称信息填写好就够了,对发放工资、实施绩效考核已经足够,对职工住址的填写就不做强制要求了,但是若有根据家庭住址安排任务或者班车路线的需求,就会因为缺少住址信息而无法实现此需求。另一方面是因为缺少医院整体层面的管理机制,数据标准由多部门管理,缺乏协调机制,因关注角度、管理差异导致口径不一致,虽然是同一主题的数据,但是在执行中有多套标准。数据标准字典维护不及时,不能满足临床使用需求,导致临床自定义人工填写情况较多。数据质量责任不清晰,缺失数据质量的考核质控机制。

2.3 信息系统设计存在不完善的情况

数据一致性差的根本原因在于冗余。冗余是指相同的数据存储了多份,比如业务明细表和字典表存在对应关系,导致在业务明细表中冗余了字典表中的部分数据。导致当字典表更改后,明细表无法随之同步,就会造成数据不一致的情况,这一般是电子病历评级中一致性差的大部分原因。冗余的根本原因是数据库系统设计不合理,没有依据适合的范式进行设计。

数据完整性差的主要原因在于信息系统缺乏校验机制,在数据产生时没有进行合理的把控。由于各种信息系统是在近年不断建设起来的,在建设之初可能某些字段信息并没有那么重要,不属于必填项,而后来随着医疗管理业务需求的不断延伸,这些信息就变成必填项了,而医院的内部管理和信息系统的升级还没有跟上需求的步伐,导致信息系统设计滞后于实际需求。

3 医疗机构提升数据质量,加强数据治理的措施

针对上述的原因,我院启动了数据质量治理建设。

3.1 构建全流程数据治理体系

首先要完善组织架构,明确权利责任分工,实现医院整体层面重视。

要实现院级的重视,主要在于使各个信息产生部门、使用部门意识到数据资产的价值,尤其是长期价值。

确保资金、人力、技术的持续性投入。制度化、规范化数据质量管理,实现对数据的产生、共享、使用、统计全过程质量把控。做好日常数据质量监测,及时提出质控和改进意见,补充完善质控目标。

加强培训和交流,确保在数据的理解上不同科室达成共识,形成一个完备的数据标准。

3.2 建立全医疗机构级的数据标准、含义

梳理分散在各系统中的数据,参考国家、地方卫健委发布的标准数据集,确定统一的命名、定义、数据类型、值域规则、计算方法,确定解释、核对、负责科室,避免歧义。医疗机构在制定数据标准时,可能遇到现有国家、地方标准滞后的情况,需要有敢为人先的胆魄,积极扩展数据标准。当国家标准更新后,对标会比梳理杂乱数据容易的多,数据质量也更高,更容易利用。确定数据质量核查规则,包括完整性、及时性、关联性、准确性等核查规则,确保按标准行事,把数据标准应用到日常数据质量评估工作中,维持数据模型的一致、规范。

3.3 加大信息化投入,完善工具,技术辅助数据质量提升,减少人工核查工作,降低数据管理成本

以电子病历评级、互联互通评级等为抓手,以患者诊疗全过程和医院运营管理优化为导向,以建设区域医疗中心、科研平台为契机,构建数据中心、集成平台、主数据、主索引、质控、绩效考核、数据质量自动核查等信息系统,加大信息化投入,完善功能改造,规范数据的采集、抽取、 交互过程,一方面提升数据质量,另一方面使数据质量监控可视化、透明化,更方便,更易于暴露出问题来。

3.4 根据数据核查情况,持续改进信息系统,形成发现问题,确认问题,解决问题,反馈改进的PDCA循环[17]

完善数据填写界面的必填项、值域核查。根据范式优化数据库设计,减少冗余,同时保持服务器资源的充裕和先进性,实施数据库读写分离,保证数据检索速度,减少信息系统自定义录入的漏洞。在字典维护时减少修改和删除,改为停用和新设,避免数据不一致的发生。持续数据质量分析,不断发现问题,反馈改进建议,积极督促业务系统不断改进与完善,严把源头数据质量关。做好培训、考核,提升全体职工信息化水平。

4 讨论

数据的质量就像地基,埋在地下看不出来,但它是建筑的基础。基础不牢,地动山摇,没有一个好的数据质量,信息系统就发挥不出应有的作用,数据利用、开发也事倍而功半。所以医疗机构一定要真正认识到数据的价值,对数据资产加以管理,加强数据治理。

数据治理不是几个科室的事情,也不是单纯的技术问题,而是涉及到医院整体管理的诸多方面,包括工作制度、流程、标准、机制等,所以医院管理者在管理数据质量上要多措并举,识别出医院数据质量的现状,深入性地分析产生问题的原因,并针对性地提出解决措施。

关于数据标准的制定一定是越严越好,并非有些人说的没有必要、差不多就行了。原红塔集团董事长褚时健创办褚橙之后曾接受过这么一个采访:“记者问,为何果树间距要规定这么大,有什么依据?褚时健回答说,也没有什么依据,大一点小一点都行,但是要是没有这么一个规定,农民就会错的离谱。[18]”数据标准也是如此,只有坚持标准,勤抓不懈,才能把数据治理做好,为未来数据利用夯实好基础,真正发挥出数据资产的效益,提升医院的竞争力。

利益冲突:所有作者均声明不存在利益冲突

猜你喜欢
字典信息系统标准
2022 年3 月实施的工程建设标准
企业信息系统安全防护
字典的由来
忠诚的标准
美还是丑?
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
大头熊的字典
正版字典
基于SG-I6000的信息系统运检自动化诊断实践