数据挖掘技术在电子病历系统中的应用

2016-07-10 05:09王珩
电子技术与软件工程 2016年7期
关键词:电子病历应用与发展数据挖掘

王珩

电子病历挖掘旨在提取出电子病历数据库中有用的医疗信息,并挖掘隐含在其中的医学诊断规则和模式,从而为疾病诊断和治疗提供科学的、准确的辅助决策。电子病历数据挖掘涉及面广、技术难度大,需要从事信息处理、计算机技术、应用数学的科研人员以及具备相当经验的医务工作者通力合作。本文从电子病历数据挖掘的概念、电子病历的数据特性、电子病历数据挖掘的步骤以及应用前景等方面作了简单研究和介绍。

【关键词】电子病历 数据挖掘 预处理 应用与发展

随着数字化医院建设的不断推进和计算机应用技术的不断普及,现代医院正在逐步向无纸化运行迈进,电子病历系统作为数字化医院管理的一个重要组成部分,其囊括了医疗过程和医患活动的全部数据资源,并积累了相当庞大的数据量,通过对电子病历的数据挖掘,提取出病历数据库中的有用医疗信息,并挖掘出隐含于其中的医学诊断规则和模式,可盘活尘封的海量数据,为疾病诊断、治疗及预防提供科学准确的辅助决策。

1 电子病历数据挖掘的概念

数据挖掘DM(Data Mining)是基于数据库的知识发现KDD(Knowledge-Discovery in Databases)中的一个重要处理步骤,一般将KDD中进行知识学习的阶段称为数据挖掘,亦可译为资料探勘、数据采矿,而KDD则是指从大量的数据中提取出新颖有效的、可能有用的数据结构,形成可被理解的模式,最终实现低层数据向高层知识的转化。因此,数据挖掘可定义为是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

电子病历系统是利用现代信息技术对传统病历实现收集存储、传输共享以及分析研究等功能的一种计算机程序软件。电子病历包含的内容为医务人员在对患者进行的诊疗活动过程中,整理形成一整套的医疗活动记录,包括文字符号、图表图形、影像数据等数字化信息。

2011年卫生部制定了电子病历的基本规范,并在全国范围内110家医院开展电子病历的试点工作。经过几年的发展,电子病历系统已成为衡量医院信息化建设水平的一个重要标准,电子病历系统也积累了相当可观的数据量,并且这些数据都是患者的真实数据,对这样的数据集进行数据挖掘分析,以探求各种疾病的发展规律以及疾病之间的相互关系等、探讨对比不同治疗方案的诊疗效果,这对疾病的诊疗和医学研究等都具有巨大的价值和广阔的发展前景。

2 电子病历系统的数据特点

病历是患者在医院诊疗过程的全纪录,电子病历系统保存了这些记录的数字化信息,因此电子病历系统数据库的内容异常丰富,既包含临床诊疗参数,也涉及各类管理数据,这些数据反映了医学数据的独特性,具有如下几个特性:

2.1 电子病历数据的多样性

从信息的表现形式方面区分,电子病历数据元素可分为文字(如患者信息、病史信息、查房录、病程记录等)、数字(如体温、血压、脉搏、检验结果等)、图形图像(心电图、CT、DR图像等)、音频(如心音)等。电子病历数据的多样性是其区别于其他领域的最显著特征,同时也增加了对其进行数据挖掘的难度,尤其是在数据预处理阶段,需要对部分数据进行格式转换。

2.2 电子病历数据的动态性

有些电子病历数据具有一定的时序性,是随着时间的推移不断更新变化的,比如心电图像、24h血压测量数据等,甚至纵观患者整个诊疗过程,其病情的发展、诊疗的结果、病程记录等,都是随着时间的推移而变化的。

2.3 电子病历数据的不完整性

电子病历数据是对患者诊疗记录的如实记录,是以治愈患者为目的,而非以研究为目的,因此对电子病历数据的采集和处理可能会出现一定的偏差,采集的数据可能无法涵盖研究所需。另外,疾病本身具有的模糊性、患者的表达能力、医护人员的理解能力也不尽相同,也可能会造成数据记录的偏差和残缺。

2.4 电子病历数据的冗余性

电子病历系统是一个特殊的系统,其数据安全关乎患者的诊疗效果乃至生命安全,为进行数据校验,系统必然会存在大量重复甚至矛盾的数据。如何对这些数据进行有效性筛选、获取唯一可信的数据集,是电子病历数据清洗的一个重要步骤。

2.5 电子病历数据的隐私性

电子病历系统囊括了患者在院诊疗过程中的所有信息,其中不乏涉及患者的隐私,如身份信息、疾病信息等,一旦这些信息被暴露,很可能会对患者的生活造成侵扰,甚至会引发伦理、法律等方面的问题。因此,在对电子病历数据进行挖掘研究的同时,还应做好数据安全方面的相关工作。

3 电子病历数据挖掘的步骤

对电子病历的数据挖掘工作可分为预处理和挖掘分析两大阶段。由于电子病历数据具有多样性、时序性、不完整性等诸多特性,需要对待挖掘数据进行筛选、清洗、匿名化、标识转换等操作,通常在数据预处理阶段通常需要投入更多的人力物力和时间等。电子病历数据挖掘的具体步骤介绍如下:

3.1 问题的理解和定义

电子病历数据挖掘的工作需要从事信息处理、计算机技术、应用数学等方向的科研人员与医务工作者通力合作,明确数据挖掘的电子病历数据对象和所期望得到的相关结果。

3.2 数据采集与目标数据库生成

根据对问题的理解采集相关数据,并根据不同的目标组织生成对应的数据库。例如需要获取和优化某疾病的诊疗方案,在目标数据库组织的时候就需要包含一定比例的成功病例和失败病例作为数据挖掘的训练例和对比例,以便最终能获取令人信服的结果。

3.3 数据清洗和预处理

由于电子病历数据中包含相当数量的冗余数据和不完整数据等,需要对待挖掘的数据进行清洗和预处理,其目的是清理冗余数据、填充空缺数据、纠正错误数据。

3.4 数据工程

对清理后的数据进行约简与投影,主要包括选定具有代表性的属性子集,通过降低维度或变换格式的方法来减少有效数据变量。该步骤可重复多次,才能用最少的数据变量代表目标数据。

3.5 算法选择并实施

根据数据挖掘的目标选取合适的数据挖掘算法,并将该算法应用于经过处理的数据上,从目标数据中提取数据模式,获取疾病分类、相互作用关系等所期望的挖掘结果,并使用可视化或知识表的形式进行展示。

3.6 评估和使用挖掘结果

由相关领域专家对发现的模式进行有效性和新颖性评价,利用发现的有用模式优化医生的诊疗流程或提供辅助决策支持,提高诊疗效率。

4 电子病历数据挖掘的应用及发展前景

数据挖掘技术在数字化医院中有着广泛的应用,可为金保工程提供数据分析、为医院管理提供决策支持等。针对电子病历的数据挖掘也可为医疗诊断等方面提供帮助,如发现各种疾病之间内在联系、进行病情预测与疾病分类、自动分析影像数据、指导临床用药等。

尽管电子病历挖掘研究对医疗领域的分析具有较高的价值,但也面临一些问题,如提供疾病诊断辅助决策结果是根据部分病例及某些专家的诊断经验而获得的,在客观性和普遍性方面不能得到有效保证,在实际应用中还须甄别使用。

电子病历数据挖掘是一门涉及面广、技术难度大的新兴交叉学科,随着计算机医学应用的更广泛开展,将会开发出更有效的算法模型,数据挖掘技术将在疾病预防、诊断、治疗中得到进一步发展和普及,从来带来更大的社会和经济效益。

参考文献

[1]周怡,王世伟.医学数据挖掘——SQL Server2005案例分析[M].北京:中国铁道出版社,2008.

[2]吴汉华.大数据时代中如何进行医疗数据挖掘与利用[J].硅谷,2014(05).

[3]丁卫平,管致锦等.电子病历挖掘:概念、技术及应用[J].计算机工程与设计,2008(01).

[4]蒋俊.数据挖掘技术在医院信息系统中的应用[J].无线互联科技,2015(08).

[5]庄军,郭平等.电子病历数据预处理技术[J].计算机科学,2007(03).

作者单位

南京邮电大学 江苏省南京市 210046

猜你喜欢
电子病历应用与发展数据挖掘
基于并行计算的大数据挖掘在电网中的应用
积极推进BIM设计技术在市政工程中的应用
电子病历保全与认证研究
智能家居在未来居住室内空间设计中的应用与发展研究
浅谈自动化技术的应用与发展
机电一体化的发展趋势及智能控制技术分析
现阶段电子病历问题的探讨及改革
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究