医疗卫生信息化综合大数据平台关键技术探究

2014-04-17 07:53
金陵科技学院学报 2014年4期
关键词:海量搜索引擎结构化

李 娟

(金陵科技学院计算机工程学院,江苏 南京 211169)

2009年4月,国务院下发了《关于深化改革医药卫生体制改革的意见》,就卫生信息化提出了明确的建设目标,进一步强调了卫生信息的整合和共享,进一步提高卫生服务协同能力,创造医疗服务纵向整合的现实基础,使卫生服务质量和效率得到进一步提升,费用得到有效控制。

区域卫生信息平台辖区内社区卫生服务中心、乡村医疗工作站、疾病监控中心、急救中心等卫生医疗机构在信息化推进过程中,所需的IT技术门类众多,数据类型复杂多变,医疗标准纷繁杂乱,给数据采集、数据质量、数据分析和挖掘带来巨大的障碍和挑战。

医学技术的发展和卫生信息化的深度推进必然会带来医疗数据的急速膨胀,到2020年,医疗数据将会急剧增长到35 ZB,相当于2009年数据量的44倍[1]。而且目前绝大多数医疗数据处于归档状态,数据提取、医学术语映射及标准化、海量数据的存储、数据结构扩展以及信息检索都将十分复杂。传统关系型数据库技术在海量数据环境下,数据的价值和利用率受到了严重制约。大数据技术的引入将能解决海量数据存储、分析和检索带来的极大挑战,并带来医疗卫生从业者所期望的数据服务。

1 研究背景

本世纪初,上海市闸北区卫生系统在全国率先开启了市民电子健康档案的信息化进程,并在2006年构建了“闸北区卫生信息平台”。至2011年4月,上海市正式启动“基于市民电子健康档案的卫生信息化共享工程”。近年来,上海大力推进卫生信息化建设,并取得了许多积极成果。据报载:上海已初步建成了市、区两级卫生信息数据交换共享平台,完成与医联平台(涵盖34家三级医院)、6个试点区平台的数据交换和共享。市数据中心网络覆盖全市近600家公立医疗卫生机构,实现6个试点区、34家三级医院、近100家一二级医疗机构、1万余个医生工作站实现互联互通,已建立并维护了本市就医人群中3 000多万份居民电子健康档案。其中,形成的健康档案数据库是目前国内最大的区域个人健康信息数据库,在试点区域及三级医院范围内全面实现“两个任何”(即任何居民和医务人员,在任何地点,在满足业务规范和安全隐私的情况下可以调阅相关健康档案)[2]。由此,上海“健康信息网”基本覆盖了该市的全部区域,全市范围内的卫生数据可以互联互通、信息共享。

本课题研究基于上海市医疗卫生信息化的整体规划和建设目标,依托上海健康信息网相关资源,充分利用健康信息网提供的知识库及规则,探索在大数据模式下,完成结构化、半结构化和非结构化数据的医学信息数据爬虫、可扩展的海量存储、基于健康搜索引擎的高性能检索应用服务,满足高效率、高并发的健康信息检索服务新模式,完善现有信息体系,实现跨部门、跨专业的信息协同。

1.1 存在的问题

在区域卫生信息平台建设过程中,基于健康档案公用数据元标准、卫生信息共享文档规范、IHE 集成规范、HL7 CDA文档规范的卫生信息模型,主要依靠传统的信息技术,利用关系型数据库、共享交换平台、医疗资源目录、患者主索引服务、消息中间件以及ESB总线技术为核心的SOA系统架构实现区域信息整合和共享,该架构在应对区域卫生信息化发展上将面临巨大挑战,主要表现在以下几方面。

1.1.1 海量数据处理和索引的压力 国际IDC评估报告中认定卫生服务数据未来将占人类数据的40%,而且卫生服务数据存在大量非结构化数据,涉及的数据源众多、层次复杂、结构类型多样。如何提取这些临床数据并进行索引、如何通过自然语言处理程序在伪编码的文本中标记临床概念并获取语境。数据分析和语义标注要付出昂贵的计算资源,特别是当建立的索引增长到数十亿条时。Hadoop能够满足这个计算需求,基于Hadoop建立的查询索引在逻辑上是一组输入数据的函数,而MapReduce允许我们将这些函数并行在任意大的数据集上运行,传统关系型数据库架构会面临巨大的挑战。

1.1.2 高并发计算的压力 在上海健康信息网工程中,面向全市的应用服务将逐步开展、上线[3]。建立的电子病历和健康档案逐年累积,需要在医疗服务中实时被调阅;面向诊疗辅助的智能提醒服务也要基于海量数据的过滤清洗处理,加上高并发的访问,数据中心面临的巨大的信息处理与访问压力,传统的技术架构难以有效支撑。

1.1.3 系统扩展性的压力 上海健康信息网工程的覆盖范围需要扩展到600余家医疗机构,数据日益增长,系统架构需保证可开放、可扩展,满足日益增长的卫生服务存储扩展需要,Hadoop自身水平扩展机制很好满足存储容量弹性扩展的需求[3]。而按照传统系统架构方式搭建的数据中心,主机、存储等架构缺乏弹性扩展的能力,扩容困难,难以满足业务发展的需求。

1.1.4 系统应对变化的压力 随着日益增长的卫生服务应用需要,医学知识不断更新,生产环境中的数据格式因版本更新而发生的升级扩展。搭建在传统架构上的应用系统难以实现自由订制,平滑输出,难以满足更广泛服务的需求[4]。应对数据结构变化的适应性不足,在医疗卫生服务中,其管理的数据内容将不断扩充,要求区域数据中心整体数据建模上能适应数据结构和内容的变化,传统技术在海量数据下存在极大的困难。

2 项目成果

2.1 基于大数据的医疗数据处理平台

Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架,为应用程序透明提供了一组稳定可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了MapReduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处理失败节点。

基于大数据的医疗数据处理平台为了实现对结构化数据、半结构化、以及非结构化数据多种数据结构的采集、存储、分类、处理的机制整合,利用Hadoop实现了高效的统一化存储结构,以及访问控制和管理。基于搜索引擎技术对数据进行半结构化存储和高速索引,并采用分布式文件系统进行冗余容错存储,结合健康信息的特征进行存储配置优化,充分实现健康数据的新型整合及利用模式。

MapReduce作为一种分布式运算技术,最先由Google提出的分布式计算软件构架,是云计算的核心技术,也是简化的分布式编程模式。它用于大规模数据集(大于1 TB)的并行运算,用来处理大量数据的分布式运算。Storm作为一个开源的分布式实时计算系统,可以简单、可靠地处理大量的数据流。Storm有很多实用场景,如实时分析、在线机器学习、持续计算、分布式RPC、ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快。Storm的部署和运行维护都很便捷,更为重要的是可以使用任意编程语言来开发应用。

基于大数据的医疗数据处理平台利用MapReduce以及Storm技术,从核心业务数据中实时增量和批量处理数据,基于医学术语连接数据、执行聚合和排序、抽取数据并重构成对应业务所需的概要信息,同时采用基于HBase存储Solr索引技术,有效解决竞争访问数据资源的查询性能问题,具体流程见图 1[5]。

2.2 基于大数据的健康信息搜索引擎

医疗卫生信息化综合数据平台将采集的用户健康信息,通过搜索引擎技术,进行分词、检索以及存储,形成具有分布式、高容错的数据模型。1) 利用分词技术,根据用户健康信息的类别和表示模式进行分类归档。当用户搜索信息时,可依据信息所处索引库的位置,而实现数据的快速、准确搜索。2) 健康信息搜索引擎具备 用户语义发现、分析和判断功能,可通过对用户输入词的分析而明确用户真实意图,并在索引库中查询与用户搜索目标最接近的文档和数据。3) 健康信息搜索引擎可根据大数据信息库数据、第三方网站资源、用户社会关系表示,构建一个以用户为中心的巨大信息关系图谱。

被采集的健康信息,通过搜索引擎反向应用,可实现对高频率、高并发的访问查询请求的在线高速响应。通过搜索引擎的分类、聚类算法,对采集的信息进行评级和整合,从而提高信息检索的准确度与相关程度。

医疗卫生信息化综合数据平台还提供了IHE V3的注册接口,通过Hl7 CDA适配器获取档案信息并进行术语标注,转入搜索引擎建立索引。

2.3 基于智能搜索引擎的智能提示服务

医疗卫生信息化综合数据平台的智能提示服务是基于居民健康信息为医生提供的提示、警示性服务。医生在诊疗过程中,可通过智能提示功能,获得药物过敏、重点人群、慢病患者等各类警示信息以及重复检验、检查提示等,以提高诊断质量,减少医患纠纷,同时也可降低患者重复检验检查费用,提高患者满意度。

目前健康信息按照个人为核心进行组织的,即以人为核心的映射匹配,通过Storm和MapReduce对原始数据进行抽取转换后,利用区域健康管理信息智能搜索引擎的动态索引技术,借助Hadoop分布式计算模型,并行处理大规模数据,进一步对数据根据业务需要进行索引和建模,形成支撑业务应用的各类主题数据模型、患者健康档案记录和医疗协同特征库(规则库),从而协同实现面向主题的智能提示服务。

3 结 语

全球知名的管理咨询公司麦肯锡提出:“大数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。[6]”随着经济的发展和科技的进步,海量的医疗信息数据为医疗信息化带来了新的挑战。

本文探讨了基于区域卫生信息平台建设过程中存在的主要问题,探究在大数据模式下,完成结构化、半结构化和非结构化数据的医学信息数据爬虫、可扩展的海量存储、基于健康搜索引擎的高性能检索应用服务,满足高效率、高并发的健康信息检索服务新模式。用Hadoop的可扩展特性和灵活的索引技术,逐步建立可基于海量数据分析的临床智能分析的数据集,以方便医疗从业人员从各个数据截面视角来利用健康信息和临床数据,为临床数据挖掘提供新的技术手段。在临床应用、智能提醒、临床决策支持、远程监护医疗、药品开发、防止医疗诈骗等应用场景,大数据的分析和应用都将发挥巨大的作用,提高医疗效率和医疗质量,提升临床数据的业务利用价值。

[1] 高汉松,肖凌,许德玮,等.基于云计算的医疗大数据挖掘平台[J].医学信息学杂志,2013(5):7-12

[2] 贺天宝,龚纾碧.市民可在家中寻医问药、预约挂号[N].新闻晚报,2014-01-04(A1)

[3] 胡德宁,殷道根,杜玉开.韶关市区域卫生信息化建设的研究与实践[J].中国社会医学杂志,2014(3):155-157

[4] 刘博,夏新,陈彦东.基于云计算的区域健康服务平台的研究与设计[J].医疗卫生装备,2013(9):41-43

[5] 游静.区域医疗信息系统集成实施案例与实施模式研究[J].科技管理研究,2013(20):199-207

[6] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6):1125-1138

猜你喜欢
海量搜索引擎结构化
一种傅里叶域海量数据高速谱聚类方法
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
海量快递垃圾正在“围城”——“绿色快递”势在必行
一个图形所蕴含的“海量”巧题
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
基于软信息的结构化转换