健康医疗大数据云平台研究综述

2020-05-20 01:55
中国医疗设备 2020年5期
关键词:医疗

1.华南理工大学 材料科学与工程学院 生物医学工程系,广东 广州 510006;2.广东省精神疾病转化医学工程技术研究中心,广东 广州 510370;3.广州市惠爱医院 广州医科大学附属脑科医院,广东 广州 510370;4.广东省老年痴呆诊断与康复工程技术研究中心,广东 广州 510500;5.国家医疗保健器具工程技术研究中心,广东 广州 510500;6.日本东北大学加龄医学研究所 机能画像医学研究室,仙台 980-8575

引言

随着互联网时代的到来以及信息技术领域的快速发展,为了满足人们日益增长的需求,新技术不断兴起,从互联网、物联网、云计算再到现在的大数据。尤其是大数据的规模远超传统数据集合,然而由于它数据规模庞大、数据流转迅速、数据类型多样以及价值密度低的特点,在大数据的获取、存储、管理和分析上都更为困难。随着我国科学技术和生产水平的提高,传统医疗服务方式逐步完成了到数字医疗再到智慧医疗的转变。通过健康医疗大数据云平台技术,能实现更加高效、便捷的医疗服务,更大地满足人们个性化的医疗需求,也能进一步促进医学知识与技术的进步。

1 健康医疗大数据

1.1 大数据简介

根据何非等[1]研究者的分类,大数据可以分为两种类型:第一种大数据是指企业自身的产品和服务产生了大量的密集型“超大规模”或“海量数据”,通过对这些数据进行深入的挖掘分析,改进自身业务;改进后的业务吸引更多用户或客户,产生更大量的数据,形成正向的循环。第二种大数据是网络大数据,通常是指在互联网上发生的、蕴含有丰富的、可被发掘的具有社会价值、商业价值或科研价值的大数据。

从复杂的专业性科学/商业计算到基于互联网的消费型计算的数据,数据已经渗透到当今行业和业务职能的各个领域,这些时刻都在爆炸性增长的庞大数据记录着各种目标结果和可能性,成为重要的生产因素,形成了难以估价的数据资源及信息资产[2-3]。为对数据集合进行信息处理和优化,提取出其潜在的数据价值,必须使用大数据技术对所有数据进行收集并实现对数据的分析处理。

1.2 健康医疗大数据的来源

信息技术的进步也带动了医疗行业的发展,使得医疗行业的信息化程度提高的同时,产生了庞大的健康医疗数据,近年来其数据量更是呈几何倍数增长[4]。

结合实际分析,将医疗行业中产生的数据来源主要分为生物医药、临床医疗及实验数据、电子病历和互联网数据四类[5-6](图1)。

图1 健康医疗大数据的数据来源、特点以及应用

(1)生物医药:药物研发是密集型的过程,即使是非大型企业所产生的数据容量,达到TB以上也是轻而易举。在生命科学领域,随着计算机技术的发展,其计算能力和基因预测能力逐渐增强,有越来越多的基因组序列文件,而一个基因组序列文件就接近1 GB。

(2)临床医疗以及实验数据:临床医疗与相应的实验所产生的数据整合在一起,使得医疗机构的数据增长非常迅速。在日常工作中,一张CT图像所占的存储空间已经达到了 150 MB,而一个标准的病理图则已经达到了5 GB。根据区域的人口以及寿命来计算,一个地区的医院所产生的结构化数据和非结构化数据就能轻松达到TB甚至PB以上。

(3)电子病历:包含了大量的结构化与非结构化数据,如患者的个人健康信息,就诊、复诊的过程中对病情的描述、医生的诊断以及用药信息等。

(4)互联网数据:包括用户对健康网站的浏览与网络寻医、购药等操作所产生的数据,以及在用户知情情况下使用移动医疗产品与健康监控设备等便携化的生理设备所产生的数据。

1.3 健康医疗大数据的数据特点

从传统医疗开始,医疗行业一直以来就面临着海量的数据和非结构化数据的挑战,而近年来很多国家都在推动医疗信息化的发展,投入资金进行大数据分析[7]。

健康医疗大数据不仅拥有大数据的“4V”基本特点,即容量(Volume)、种类(Variety)、价值(Value)、速度(Velocity)[8],还包含了:① 更大的容量,医疗行业的数据增长快,保留时间长,不同于其他行业,医疗行业中患者的相关数据至少要保留50年;② 更快的生成速度,医疗信息服务的提供,需要进行大量在线或实时数据的分析处理,如临床诊断和医生建议等;③ 更丰富的种类,医疗数据的存储形式多样,包含各种结构化数据表、非结构化和半结构化文本文档、医疗影像等;④ 更高的价值,医疗数据的价值高,小至个人的正常健康生活,大至整个国家以及全世界的疾病治疗、药物研发和持续性发展,医疗数据的价值都能得以体现(图1)。

除此之外,医学数据还具有明显的多态性、不完整性、时间性、冗余性、隐私性的功能特点[9]。

1.4 健康医疗大数据的应用

健康医疗大数据的应用广泛,通过对医疗数据的再分析利用,能获取到数据的潜在价值,能促进医疗服务、新药研发、医学研究、医院管理等各个领域的发展(图1)。主要包括以下四个领域:① 在医疗服务方面,通过大数据平台建立统一的个人电子档案,将患者的所有基本数据、就诊记录等保存下来,构建便捷高效的医疗服务,有利于患者的预防、治疗、康复和自我管理;② 在药物研发方面,通过大数据分析,可以获取更多早期的研发数据,以便改善开发流程、合理分配资源,能有效提高研发效率且降低失败风险;③ 在医学研究方面,通过对医学影像、心电、脑电等数据的分析,获取特征数据,挖掘出临床应用的相关知识;④ 在医院管理方面,通过大数据平台的建立,能更好地对医院进行精细化管理,并且通过医院数据的挖掘,能有效提升医院的医疗质量、药品、设备等的管理水平,进一步提升医护人员服务质量和患者满意度。

2 健康医疗大数据与云平台

基于健康医疗的海量数据以及多态性,数据挖掘有很大的难度,为了使得医疗中的数据得到有效应用,现有的医疗应用需要与时俱进,结合云计算等信息技术[10],依托于云平台,健康医疗大数据的存储、计算以及分析处理更为灵活、方便和快捷。

根据美国国家标准与技术研究院的定义,云计算是一种通过网络对共享可配置的计算资源池进行无处不在的、便捷的、按需访问的模式,它可以通过最简化的工作和交互进行快速的配置和发布,用户不再需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制[11]。第三方云可以是组织专注其核心业务,而不是在计算机基础架构和维护上花费资源。相较于传统服务模式,云服务提供了更大的灵活性,使用户能够以最低的成本享受最优化的信息化服务[12]。

云计算服务的三个标准模型分别是基础架构即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)。三者之间有一定的联系,但没有必须的依赖关系,例如可以在裸机上实现SaaS而无需使用底层PaaS或IaaS,也可以在IaaS上运行程序并访问而无需包装成SaaS。IaaS的定义是消费者能够部署和运行任意软件,包括操作系统和应用程序,消费者不管理或控制底层的云基础架构,但是具有操作系统、存储和已部署的应用程序的控制以及选定网络组件(例如,主机防火墙)的控制权限。一般面向运营管理人员。PaaS提供给消费者的功能是消费者可以将由提供者支持的编程语言、库、服务和工具创建或获取的应用程序部署到云基础设施上。主要提供平台开发和测试环境,主要面向开发者。SaaS提供给消费者的功能是使用在云基础架构上运行的提供商的应用程序。用户通过一些接口从各种客户端设备访问应用程序,而不需要关心底层云基础设施及软件本身的维护。IaaS、PaaS 和SaaS 的区别如图2所示。

图2 IaaS、PaaS和SaaS的区别

2.1 云平台的发展现状

云计算在大数据背景下应运而生,在国外,IBM推出的“蓝云”计划为用户提供云计算平台。谷歌公司自2008年推出App Engine云计算服务以来,一直致力于谷歌云平台的开发,提供一系列模块化云服务包括计算、存储、分析和机器学习等。与之相似的还有亚马逊的Amazon Web Services(AWS)、微软的 Microsoft Azure、Oracle的 Oracle Cloud。根据Synergy Group的数据,截至2017年底,AWS占所有云计算的34%,接下来的三个是微软、谷歌和IBM分别占11%、8%和6%。在医学领域很多研究组织和研究人员也开始使用Hadoop进行医疗服务和临床项目的研究[13]。

国内的医疗云和健康医疗大数据研究及应用起步相对发达国家要落后,但是通过外国的云计算和大数据先进技术的引用,分析国外医疗云服务的成功和失败案例,再结合我国自身的医疗信息化特点和趋势,国内诸多医院联合国内外云计算技术提供商都在进行医疗云和健康医疗大数据相关的研究和应用[14]。2018年,由中国卫生信息与健康健康医疗大数据学会家庭健康专委会、腾讯云和微医云三方共同发布了“全国健康医疗行业云平台”。同时,国家卫健委公开《国家健康医疗大数据标准、安全和服务管理办法(试行)》,旨在加强健康医疗大数据服务管理,促进健康医疗大数据的相关业务发展,发挥健康医疗大数据的潜在价值。由此可见,国内的健康医疗大数据云平台建设受到政府的大力支持,也吸引了众多的公司和企业,发展的越来越迅速。

2.2 云平台计算框架

为了对数据进行分析处理,实现分布式计算,众多云平台得以开发与使用,其中以2005年开发的开源计算平台Hadoop最为典型。

Hadoop是Apache基金会的核心项目,历经多个版本的完善,已经成为国际上分布式计算系统的一大标准,得益于其开源特性,其技术生态圈也得以发展与丰富,涵盖大数据处理的方方面面[15]。最基础的Hadoop平台根据Google三篇技术论文而来,且包括三个部分:其一采用MapReduce分布式计算框架;其二根据Google File System开发了分布式文件系统(Hadoop Distributed File System,HDFS);其三根据BigTable开发了HBase数据存储系统。

Spark是一个开源的分布式通用集群计算框架[16]。Spark提供了一个使用隐式数据并行和容错来编程整个集群的接口,在Hadoop的基础上改良了架构设计。Spark理论上的运算速度远超Hadoop,最根本的原因在于Hadoop采用硬盘存储包括源数据以及数据的处理过程与结果等所有数据信息,而Spark直接使用内存来存储这些数据。Spark的缺点在于,内存数据会随断电问题而缺失,因此不利于处理需要长期存储的数据。

Apache Storm是一种主要以Clojure编程语言编写的分布式流处理计算框架,也是一个开源项目。它使用自定义创建的“spouts”和“bolt”来定义信息源和操作,以允许批量分布式处理流数据。其在Hadoop的基础上提供了对于实时运算的支持,用于实时大数据流处理。与前两个大数据处理平台不同的是,Strom并不收集和存储数据,而是直接利用网络实时接收流式数据并处理,最后通过网络再讲分析结果进行回传。

云计算技术发展至今,Hadoop、Spark和Storm三者是当下大数据领域最热门最重要的三大分布式计算系统。三者都有自己的特点,Hadoop适合处理离线的、复杂的数据类型,结合Spark可以更快速的处理数据,而Strom的特点就在于实时、在线处理。根据三个平台的特点,以及医疗行业数据的复杂性,针对不同的应用场景和用途,可以构建出不同类型的健康医疗大数据云平台或者开发部署特定用途的大数据应用。

2.3 云平台的优点及其应用研究

目前大部分的健康医疗大数据平台以及研究需要,Hadoop平台在大数据的分布式计算上具有快速、高效、兼容、灵活等优势。

(1)能够高速存储和处理各种大量的数据。由于数据的数量和多样性,特别是来自社交媒体和互联网的数据来源不断增加,这种能力非常重要。

(2)计算性能强大。Hadoop的分布式计算模型可以快速处理大数据,同时通过增加计算用的节点,还可以进一步增强其处理能力。

(3)具备容错功能。保护数据和应用程序的处理,使其免受硬件故障的损害。当节点发生故障时,作业会自动重定向到另一个节点,因此分布式计算永远不会停止。此外,还会自动保存所有数据的多个副本。

(4)有较好的灵活性。与传统的数据库不同,不需要在保存之前预处理数据,可以根据需要存储尽可能多的数据,后续再决定如何使用,并且还可以保存非结构化数据,如文本、图像、音频、视频等。

(5)低成本。这个开源框架是免费的,可以使用廉价的通用硬件存储大量数据。

(6)可伸缩性。只需添加节点即可扩展系统大小,并且可以处理更多数据。

基于Hadoop对医疗健康大数据进行分布式并行处理,Ni等[17]基于Hadoop的分布式计算方法进行医疗临床数据的处理,将大数据技术应用于医疗保健领域;Yao等[18]提出了一个基于五节点Hadoop集群执行分布式MapReduce的算法,实现了医疗健康大数据的高效处理;IstePhan等[19]研究和实现了能够挖掘非结构化医疗数据的可扩展框架,此框架能够以可扩展方式准确、高效地分析非结构化医疗数据。

可以看出,健康医疗大数据的应用发展,离不开云平台的帮助,借助于云平台的特点,能更进一步挖掘和利用健康医疗大数据,充分发挥健康医疗大数据的价值。

3 健康医疗大数据云平台的开发研究

围绕着健康医疗大数据云平台,有许多的开发研究,国内外有众多研究都在健康医疗大数据云平台上有所贡献。吴宇皓等[20]设计了一个医疗大数据分析管理系统,进行面向对象的需求分析,引入了分布式存储及分布式计算技术,提高数据处理效率并且应用于临床科研。廖亮等[21]设计了一个基于Hadoop的健康医疗大数据分析系统,提供辅助诊断和医疗数据统计两大功能,同时融合了多节点分布式计算技术,可以根据患者的医检数据快速生成初诊结果,并能够有效地改善传统医疗数据信息系统分析效率较低的现状。范炜玮等[22]提出了一套基于Spark的并行计算解决方案,完成了医疗服务大数据交互式分析平台的系统架构设计。阮润学[23]实现了基于心电动力学图和Storm实时流计算框架的心肌缺血早期诊断平台,为用户提供实时可靠的计算服务。

发达国家在健康医疗大数据平台上的研究更成熟,并且在管理和技术上的改进不断。Khazaei等[24]提出了Artemis医疗健康大数据处理平台,可用于在线分析快速生成的大量临床数据,并且可以根据需要丰富其他临床数据,实现多患者、多流和多诊断的实时决策支持和临床研究。Kaur等[25]提出了一种医疗保健领域的大数据架构,使用机器学习算法实时分析来自医院的电子健康记录,为早期预测个体健康状况提供帮助。另外,Rahman等[26]提出了一种基于开源技术的新型大数据架构,详细描述了系统所需的不同模块的设计以及所使用的技术,通过修改和定制模块以处理医疗保健数据,可以快速构建实用有效的大数据解决方案,以解决不同的医疗挑战。

4 健康医疗大数据云平台面临的问题与对应策略

目前健康医疗大数据云平台的建设有所成效,但不可避免地面临着一些挑战与问题。

4.1 安全与隐私问题

身处于大数据时代,数据的安全及隐私更是重中之重,数据的保密和安全性受到重大考验。根据相关统计显示,仅在2018年,全球便发生了十余起10万以上数据泄漏事件[27]。目前全国共有大约657家智慧医疗云平台,主分布如图3所示,然而大部分的平台都没有做好平台的安全管理和防范。根据网信办对其中79家的抽查结果显示,57家平台有高危漏洞,13家平台有中危漏洞,近90%的医疗机构都存在较为严重的安全风险。以云平台为基础,会有海量的医疗数据的录入,而这些数据涉及到个人安全与隐私,在高效利用医疗数据实现健康管理的过程同时,也要保证平台的安全性,避免数据的损失或泄露。

图3 智慧医疗云平台主分布

针对云平台的隐私安全问题,一方面要加强信息安全技术的应用,比如数据加密、数据扰乱、数据隐匿等技术,隐藏保护关键敏感信息,对数据进行分级保护,设置访问权限。另一方面要加强管理制度,建立健康医疗大数据安全管理的规则、模式与流程,提高云平台的监测预警和应对能力。Mohammed等[28]提出了一个安全和私密的医疗数据管理框架,解决了外包医疗数据库管理中的安全和隐私问题;Wimmer等[29]研究的隐私保护技术能够同时满足多个医疗数据共享方的隐私保护需求。

4.2 信息利用率问题

大数据时代是一个信息膨胀期,近几年所产生的信息量甚至超过过去几千年,如今数据规模庞大,数据流转非常迅速,数据类型也丰富多样,然而如何在这海量的数据之中挖掘出有价值的信息是一个难点。健康医疗大数据云平台不仅要对医疗数据进行收集、管理,更关键的是如何进行计算和分析,实现信息的有效使用,能产生实际应用的价值。若仅仅将云平台当成一个存储医疗数据的方式,而不对数据进行有目的的分析处理,发掘相关知识并实际应用,就丧失了意义。对于健康医疗领域来说,不仅需要揭示现有事物的联系,最好能从大数据的分析结果提取相关医学知识,更进一步将从数据挖掘结果中提取的医学知识转化为具体应用。为了提高信息利用率,一方面可以加强数据挖掘技术的应用,如Mccormick等[30]对如何从挖掘成果中提取相关知识进行了初步探索。另一方面可以拓展更多的研究主题,目前以临床领域的研究居多,其他领域研究相对较少,充分发挥信息的价值。

4.3 数据质量与标准问题

医疗数据的采集和发布渠道众多,数据的真实性和质量难以保证,医疗信息档案不完善,医疗信息化缺乏一个统一标准,都会影响到对数据的分析,无法保证分析结果的准确性和有效性。

要提升数据质量,就需要建立健全的信息管理机制,制定信息收集的标准和规范。而对于已收集的数据,可以使用交叉验证等技术手段进行验证,建立双重保险,保证数据的真实性、准确性和有效性,有效提高数据质量。

除此之外,作为一项跨学科的研究,研究过程存在一定难度,专业人才较为稀缺,传统的医疗系统数据管制体系也导致了医疗健康大数据难以获取、医疗信息孤岛等问题,需要我们加强相关人才培养和引进,紧跟相关政策,促进健康医疗大数据的发展。

5 总结与展望

本文首先介绍了医疗行业中大数据的来源和特点,针对健康医疗大数据,对能充分发挥健康医疗大数据价值的云平台进行了介绍,讨论了Hadoop、Spark、Storm三种数据处理平台的区别和应用,并且分析了各自的优势,Hadoop适合处理大量离线、复杂的数据,Spark可以加快数据的处理,Strom适合实时、在线处理数据,举例分析了国内外健康医疗大数据平台的研究进展,最后总结了健康医疗大数据云平台存在的一些问题以及相应的对策研究。健康医疗大数据的发展与云平台息息相关,健康医疗大数据云平台不仅能提供医疗数据的海量存储,平台的可扩展性与灵活性也能提供更高效便捷的医疗服务,优秀的计算能力更能使健康医疗大数据得到进一步的分析处理和应用,只要能结合国内相关政策的支持,保障健康医疗大数据云平台的规范与安全,基于云平台建立完善一个完善的健康医疗大数据管理体制,一定能有效促进临床决策、远程医疗、电子档案分析与公共健康等各个方面的医疗行业的发展。

猜你喜欢
医疗
《现代仪器与医疗》约稿函
《现代仪器与医疗》2022年征订回执
《现代仪器与医疗》2022年征订回执
一种具有附加内窥镜功能的医疗管
《现代仪器与医疗》杂志
新型医疗废弃物焚化舱
医疗垃圾包括哪些?医疗垃圾运到哪里,如何处置?
肩负起医疗废物集中处理的重任
智慧医疗是一种什么样的体验——陕西推进“互联网+医疗健康”
互联网医疗的热与冷