区域医疗卫生信息平台建立病人主索引的优化方法设计与实现

2018-10-29 01:55刘方李健明王艺元陈汝林沈文婷

健康大视野 2018年10期

刘方李健明王艺元陈汝林沈文婷

【摘要】区域医疗信息平台是连接区域内多家医疗机构信息系统的信息共享和交换的平台，医疗信息共享能够最大限度地提高医疗服务的可及性、提升医疗诊断的质量和效率、降低病人就医的成本和风险。经过多年的努力，深圳市福田区建设的区域医疗卫生数据交换平台基本完成。为了整合区域范围内不同医疗机构的信息系统，实现区域医疗信息共享和交换，需要解决相同病人在不同医疗信息系统中的身份标识号如何进行关联的问题。本文中的病人主索引优化方法是在福田区卫计委在区域医疗卫生信息平台统建设的成果上，尝试在主索引建立过程中病人身份属性的优先级分类及逐级匹配实现主索引的建立，从而改善匹配效率低和准确性低等问题。本方法基于优先级进行逐级匹配，过程简单，匹配效率高，匹配准确性高。

【关键词】区域医疗卫生信息平台；互連互通；病人主索引；匹配算法

【中图分类号】R197 【文献标志码】A 【文章编号】1005-0019（2018）10-261-01

Abstract Regional health information platform is the connection of several medical institutions information system in the area of information sharing and exchange platform for the medical information sharing can maximize the accessibility of medical service， improve the quality and efficiency of medical diagnosis， reduce costs and risks of a patient.After years of efforts， the shenzhen futian district construction of regional health data exchange platform basically completed.To integrate regional scale information systems of different medical institutions， realize the regional medical information sharing and exchange， the same patients need to be solved in the information system of different medical identification number how to carry out the related problems.Main index optimization method in this paper， the patient is in futian district health development planning commission on achievements of the construction of the regional health information platform system， try to patients in the process of the main indexes to establish identity attribute of priority classification and match step by step to realize the establishment of the main index， so as to improve the matching

（一）概述

近年来，医疗卫生体制改革的不断深入，各级医院以及医疗卫生管理机构的信息化建设得到了很大的发展。经过多年的努力，深圳市福田区建设的区域医疗卫生数据交换平台基本完成。截止到目前，区域平台已接入了5家公立医院，77家社康中心及多个公卫机构的系统，涵盖门（急）诊、住院、成人健康体检、社康全科诊疗，妇幼保健（孕妇建档）、预防接种等方面健康档案数据。健康档案数据库已超过170多万笔业务数据，建立了11多万份健康档案，结构化数据容量超过1TB。

区域医疗信息平台是连接区域内多家医疗机构信息系统的信息共享和交换的平台，医疗信息共享能够最大限度地提高医疗服务的可及性、提升医疗诊断的质量和效率、降低病人就医的成本和风险。我国医疗信息系统具有垂直建设的特点，区域内的不同性质的医疗机构，如综合性医院、社区卫生服务中心、妇幼保健院、公共卫生专业机构、专科医院等，相对独立地开展业务，病人信息分散在多个相互封闭的信息系统中，不能有效地共享和交换。为了整合区域范围内不同医疗机构的信息系统，实现区域医疗信息共享和交换，需要解决相同病人在不同医疗信息系统中的身份标识号如何进行关联的问题。

美国放射学会（Radiological Society of North America，RSNA）及美国医疗信息和管理系统学会（Healthcare Information and Management Systems Society，HIMSS）等多家机构共同发起并提供了一种集成医疗企业医疗（integration healthcare enterprise，IHE）健康信息集成规范，其中的病人身份交叉索引（patient identifier cross-referencing，PIX）技术框架为关联不同医疗机构的病人身份标识号提供了指导标准。IHE PIX技术框架定了三种角色，分别为病人身份源（patient identity source）、PIX管理器（PIX manager）以及PIX使用者（PIX consumer）。PIX管理器可接收多个病人身份源提供的病人注册信息，并通过唯一的主索引将多个病人身份源关联在一起，并为PIX使用者提供查询服务。其中，主索引是指在特定区域范围内，用来标识每个病人并保持其唯一性的编码。

建立共享域范围的病人主索引（master patient index，MPI）是PIX管理器的核心功能，一般通过病人信息匹配来实现。目前，最常采用的方法是对病人身份属性进行逐项匹配并根据各项属性的权重计算匹配程度。这类方法的弊端是：各属性的权重之和必须为1，当任意属性缺失时，必须重新调整其余所有属性的权重。在实际应用中，由于不同医疗机构登记个人信息时可能存在填写不规范、不完全甚至出现偏差等情况，病人身份属性的错误率和缺失率较高，区域医疗信息平台覆盖的病人众多，医疗机构数据庞大，权重的调整流程十分复杂，严重影响病人主索引建立方法的效率性和准确性，导致病人主索引在区域医疗中的使用价值显著降低。

本文中的病人主索引优化方法是在福田区卫计委在区域医疗卫生信息平台统建设的成果上，尝试在主索引建立过程中病人身份属性的优先级分类及逐级匹配实现主索引的建立，从而改善匹配效率低和准确性低等问题。本方法基于优先级进行逐级匹配，过程简单，匹配效率高，匹配准确性高。

（二）MPI的建立优化方法实施步骤

区域医疗信息平台的互联互通与应用，依赖于病人主索引的建立和准确引导。目前建立病人主索引（MPI）最常采用的方法是对病人身份属性进行逐项匹配并根据各项属性的权重计算匹配程度。其弊端是：当任意属性缺失时，必须重新调整其余所有属性的权重，由于实际当中病人身份属性的错误率和缺失率较高，会严重影响病人主索引建立方法的效率性和准确性，导致病人主索引在区域医疗中的使用价值显著降低，进一步影响区域医疗信息平台的互联互通和相关应用的有效开展。

本文提出一种面向区域医疗的病人主索引建立方法，解决主索引建立过程中病人身份属性的优先级分类及逐级匹配实现主索引的建立，从而改善匹配效率低和准确性低等问题。病人主索引建立方法，包括如下步骤：

步骤（1）：将注册病人的N种病人身份属性根据事先按优先级划分的n个等级进行分类，其中每个所述等级含有Mi种身份属性，其中Mi为小于等于N的整数，i表示等级，为小于等于n的正整数；

步骤（2）：将Mi种身份属性与当前数据集合中的身份属性进行匹配，记匹配结果为数据集合Pi；

步骤（3）：当所述集合Pi含有零个元素，即所述Mi种身份属性与所述当前数据集合中病人的身份属性不匹配，则为注册病人建立主索引；

当集合Pi只含有一个元素，即Mi种身份属性与所述当前数据集合中的一个病人的身份属性匹配，则为注册病人匹配数据建立交叉索引；

当集合Pi至少含有两个元素，即Mi种身份属性与所述当前数据集合中多个病人的身份属性匹配，则进入下一个级别，即i加1，并转到所述步骤（2）重新匹配。

当n为5，按优先级高低依次为精确匹配属性、关键匹配属性、模糊匹配属性、辅助匹配属性和不匹配属性。

在执行步骤（2）之前判断M1的值，M1的值不为0，则步骤（2）中的Mi为M1，并记匹配结果为数据集合P1； M1的值为0，则步骤（2）中的Mi中的i为大于1且小于等于n的正整数，并记匹配结果为数据集合Pi。

相似度值的计算公式为：

向量B中包括的各项第i等级身份属性不相关，则相似度值的计算公式为：

similarity（BBBj）=1N1∑N1n1=1θ（Bn1，BBn1j）

其中，向量B=（B1，B2…，BN1），N1为向量B包括的第i等级身份属性的数量，也为向量BBj包括的第i等级身份属性的数量；向量BBj={BB1j，BB2j，…，BBN1j}； j表示数据集合Pi-1中的第j个病人；θ为字符串匹配函数；

向量B中包含的各项第i等级身份属性相关，则所述相似度值的计算公式为：similarity（BBBj）=1N1∑N1n1=1θ（Bn1，BBn1j）

其中，向量B=（B1，B2…，BN1），N1为向量B包括的第i等级身份属性的数量；向量BBj={BB1j，BB2j，…，BBN1j}，N2为向量BBj包括的第i等级身份属性的数量； j表示数据集合Pi-1的第j个病人；θ为字符串匹配函数。

优先级划分单元：用于将注册病人的N种病人身份属性根据事先按优先级划分的n个等级进行分类，其中每个所述等级含有Mi种身份属性，其中Mi为小于等于N的整数，i表示等级，为小于等于n的正整数；

匹配单元：用于将所述优先级划分单元划分后的Mi种身份属性与当前数据集合中的身份属性进行匹配，记匹配结果为数据集合Pi；

主索引建立单元：用于如权利要求1所述的方法中为所述注册病人建立主索引。

与现有技术相比，上述技术方案引入了对病人身份属性的等级分类，使用的病人身份属性更为全面，保证了身份匹配的准确性和可靠性，而且无需为各项属性分配权重，当任意属性缺失时，也无需采取繁琐的方法重新调整各项属性的权重，操作流程简单，具有更好的实用性。

通过逐级匹配的方法对病人身份属性进行匹配，在保证匹配准确率的同时，可以大幅度减少匹配次数，使得病人主索引建立的同时具备效率性和准确性，而且在分级匹配过程中可以根据实际需要快速、便捷地调整匹配算法和匹配阈值，提高匹配结果的准确性；引入人工处理的方式来处理可能出现多条匹配记录的情况，保证病人主索引的唯一性和可靠性，提高病人主索引的实用价值。

（三）方法实例

以HL7（Health Level 7，卫生信息交换标准）标准中定义的30种病人身份属性为例，根据精确性和重要性将HL7标准中定义的30种病人身份属性按优先级高低划分为精确匹配属性、关键匹配属性、模糊匹配属性、辅助匹配属性和不匹配属性五个等级（如图1所示），即n=5。其中，各等级内所包含的身份属性可以根据实际情况改变。

首先，执行步骤S1，将注册病人的N种病人身份屬性根据事先按优先级划分的5个等级进行分类，其中每个所述等级含有Mi种身份属性，其中Mi为小于等于N的整数，i表示等级，为小于等于n的正整数。

假设注册病人含有11种病人身份属性（如图2所示），即N=11，将这11种病人身份属性和HL7标准中定义的30种病人身份属性进行比较，可知，其中每个等级含有的身份属性分别为1，5，2，2和1，即M1=1，M2=5，M3=2，M4=2，M5=1。Mi的值根据实际注册病人提供的信息进行确定。

接着，执行步骤S2，将Mi种身份属性与当前数据集合中的身份属性进行匹配，记匹配结果为数据集合Pi。在执行上述步骤（2）之前判断M1的值，所述M1的值不为0，则上述步骤（2）中的Mi为M1，并记匹配结果为数据集合P1；所述M1的值为0，则上述步骤（2）中的Mi的中的i为大于1且小于等于n的正整数，并记匹配结果为数据集合Pi。

根据步骤S1可知，注册病人含有一个精确匹配属性，即M1=1，则将1种病人身份属性（身份标识号）与存放病人主索引数据库（MPI数据库）中的精确匹配属性（身份标识号）进行匹配，记匹配结果为数据集合P1。具体的匹配过程为：根据所述1种病人身份属性（身份标识号）创建向量A={A1，A2，…，AL1}，向量A中的元素为注册病人的非空精确匹配属性（身份标识号）；接着根据MPI数据库中第j个病人的精确匹配属性（身份标识号）创建向量AAf={AA1j，AA2j…，AAL2j}，向量AAj中的元素为MPI数据库中第j个病人的非空精确匹配属性（身份标识号）；交叉比较向量A和向量AAj中的元素，遍历整个MPI数据库，即将注册病人的身份标识号和MPI数据库中每一个病人的身份标识号都进行了比较，将两个向量中完全相同的元素放入P1中，所述P1中的元素为和注册病人身份标识号这个身份属性匹配的病人（匹配数据），即如果向量A和向量AA5（j=5）中的元素完全相同，则表示注册病人和MPI数据库中第5个病人的身份属性匹配，则将第5个病人放入P1中。其中，如果注册病人的精确匹配属性为身份标识号列表，并且身份标识号列表非空，则将其中的每个元素拆分出来，分别放入向量A中，则相应地，將MPI数据库中第j个病人的身份标识号列表中的每个元素拆分出来放入向量AAj中。

如果注册病人的N种身份属性中不含有精确匹配属性，即M1为0，则将注册病人的N种身份属性中的M2种身份属性，即关键匹配属性，与MPI数据库中的关键匹配属性进行匹配，记匹配结果为数据集合P2。具体的匹配过程（如图3所示），先执行S201，根据所述M2种身份属性创建向量B；接着执行S202，根据数据库中第j个病人的关键身份属性创建向量BBj；再接着执行S203，计算向量B和向量BBj的相似度值；最后执行S204，比较所述相似度值和预先设定阈值的大小，则确定数据集合P2，所述集合P2中的元素为和注册病人M2种身份属性匹配的病人（匹配数据）。

向量B中包括的各项关键身份属性不相关，则所述相似度值的计算公式为：

similarity（BBBj）=1N1∑N1n1=1θ（Bn1，BBn1j）（公式1）。其中，向量B=（B1，B2…，BN1），N1为向量B包括的关键身份属性的数量，也为向量BBj包括的关键身份属性的数量；向量BBj={BB1j，BB2j，…，BBN1j}； j表示MPI数据库中的第j个病人；θ为字符串匹配函数。

当所述向量B中包括的各项第i等级身份属性相关，则所述相似度值的计算公式为：

similarity（BjBBj）=1N1∑N1n1=1max1sn2·sN2θ（Bn1，BBn2j）（公式2）。其中，向量B={B1，B2…，BN1}，N1为向量B包括的关键身份属性的数量；向量BBj={BB1j，B2j，…，BN2j}，N2为向量BBj包括的关键身份属性的数量； j表示MPI数据库中的第j个病人；θ为字符串匹配函数。

再接着执行步骤S3，当所述集合Pi为含有零个元素，即所述Mi种身份属性与所述当前数据集合中病人的身份属性不匹配，则执行步骤S4，为注册病人建立主索引；当所述集合Pi只含有一个元素，即所述Mi种身份属性与所述数据库中的一个病人的身份属性匹配，则执行步骤S5，为注册病人和匹配数据建立交叉索引；当所述集合Pi至少含有两个元素，即所述Mi种身份属性与数据库中多个病人的身份属性匹配，则进入下一个级别，即i加1，并转到所述步骤S2重新匹配。在本实例中，具体地，在步骤S2中确定了数据集合P1，当P1为含有零个元素，即向量A和向量AAj不完全相同，则为注册病人建立新的主索引，当P1非空，即向量A和向量AAj完全相同，则为注册病人和P1中的匹配病人建立交叉索引，由步骤S2中可知，P1中含有MPI数据库中的第5个病人，则为注册病人和MPI数据中的第5个病人建立交叉索引。

在注册病人不含有精确匹配属性的情况下，上述步骤S2中确定了数据集合P2，当P2为含有零个元素，则执行步骤S4，为注册病人建立新的主索引；当P2非空且只含有一个元素，则执行步骤S5，为注册病人和P2中的匹配病人建立交叉索引；当P2非空且至少含有两个元素，即注册病人的5种关键身份属性至少和MPI数据中的两个病人的关键身份属性匹配，则进入下一级别，即模糊匹配，并转到步骤S2重新匹配，此时，将注册病人的M3（M3=2）种模糊匹配属性（出生日期和性别）与数据集合P2中病人的模糊属性（出生日期和性别）进行匹配，并确定数据集合P3。其中，匹配的过程和关键属性匹配的过程相同，在计算相似度的公式（1）和公式（2）中j表示的是数据集合P2中的第j个病人。再根据数据集合P3中含有的元素个数来建立主索引，该过程如集合P2。当集合P3至少含有两个元素，则进入下一个级别，即辅助匹配，并转到步骤（2）重新匹配，此时，将注册病人的M4（M4=2）种辅助匹配属性（联系地址和家庭电话号码）与数据集合P3中的病人辅助属性（联系地址和家庭电话号码）进行匹配，并确定数据集合P4，之后的过程如上述，在计算相似度的公式（1）和公式（2）中j表示的是数据集合P3中的第j个病人。当集合P4至少含有两个元素，由于不匹配等级并不参与匹配，则通过人工处理的方式来处理数据，以保证病人主索引的唯一性和可靠性。

通过专门的功能实现模块，配合经以上方法处理的病人分类，建立病人主索引（如图4所示）。功能实现模块包括：优先级划分单元1、匹配单元2和主索引建立单元3。

优先级划分单元1适于将注册病人的N种身份属性根据事先按优先级划分的n个等级进行分类，其中每个所述等级含有Mi种身份属性，其中Mi为小于等于N的整数，i表示等级，为小于等于n的正整数。在本实例中，注册病人11种病人属性和HL7标准中定义的30种病人身份属性进行比较，则自动将注册病人的N种病人属性进行了划分（如图2所示）。

匹配单元2适于将所述优先级划分单元划分后的Mi种身份属性与当前数据集合中的身份属性进行匹配，记匹配结果为数据集合Pi。匹配单元中的确定集合单元包括创建向量单元、计算单元和比较单元。创建向量单元适于根据所述Mi种身份属性创建向量B，并根据数据库中第j个病人的第i等级的身份属性创建向量BBj；计算单元适于计算向量B和向量BBj的相似度值；比较单元适于比较所述相似度值和预先设定阈值的大小，则确定数据集合Pi。

主索引建立单元3适于在以上方法中为所述注册病人建立主索引。在本实例中，当匹配单元中的P1为含有零个元素，则为注册病人建立新的主索引；当匹配单元中的P1非空，将为注册病人和P1中的匹配病人建立交叉索引。当匹配单元中的P2为含有零个元素，则为注册病人建立新的主索引；当匹配单元中的P2只含有一个元素，则为注册病人和P2中的匹配数据建立交叉索引；当匹配单元中P2至少含有两个元素，则进入下一级别，即模糊匹配，并转到匹配单元重新匹配，此时，匹配单元适于将注册病人的M3种模糊匹配属性与数据集合P2中的病人模糊属性进行匹配，并确定数据集合P3。再根据集合P3的情况来进行后面的匹配，具体的过程如上述所述，当进行最后一级匹配所确定的集合中还含有至少两个以上元素，则转入人工处理单元。

（四）MPI建立优化算法流程图

（五）结论

深圳市福田区区域医疗卫生数据交换平台已接入了5家公立医院，77家社康中心及多个公卫机构的系统，健康档案数据库已超过170多万笔业务数据，平均每天产生20万以上的诊疗数据量。

选取福田区区域医疗卫生数据交换平台截至2017年底的门诊住院的病人信息量和病人信息登记表，优化前后的病人主索引信息数据数量对比：

因此，本病人主索引建立的优化方法具有以下优点：

（1）可自定义更改身份屬性匹配登记，根据当地门诊住院对病人身份的登记偏好和实际情况调整病人主索引的匹配优化效率和准确率；

（2）通过本优化方法，能显著提高区域医疗卫生系统门诊住院信息的病人主索引率，提高平台整体的信息互联互通效率和应用效果。

在各家医疗机构登记病人的个人信息时普遍存在填写不规范、不完全甚至出现偏差等情况，导致病人身份属性的错误率和缺失率较高的数据质量现状条件下，从实验数据结果中可看出，在采用传统的病人主索引建立技术和方法时，建立索引的比例明显小于采用优化后的比例。

而通过区域医疗卫生数据交换平台进行互联互通时，病人主索引是数据互联互通、应用的基础，对数据利用效率、准确性和应用的有效性有明显的影响，因此提高病人主索引的建立比例和质量，有利于数据互联互通、平台应用和大数据的挖掘。

参考文献

[1] 基于SOA解决异构医疗信息系统的互联互通何安勇上海交通大学，2010

[2] 区域医疗信息共享平台构建理论与实践的研究何琳《天津医科大学》，2010

健康大视野2018年10期

健康大视野的其它文章: 不同致孔剂在乙基纤维素水分散体膜控包衣中的应用研究; 健康教育在功能性消化不良患者护理中的临床观察; 6分钟步行运动对慢性心力衰竭患者近期预后影响的临床研究; 儿童大叶性肺炎的临床特点与治疗方式研究; 离子色谱法测定工作场所空气中氯化氢含量的不确定度评定; 丝裂霉素C在青光眼治疗中的应用