基于云计算的医疗大数据系统架构研究

2016-05-19 13:37魏建兵
电脑知识与技术 2016年7期
关键词:云计算数据挖掘大数据

魏建兵

摘要: 综合介绍了大数据时代医疗行业数据挖掘面临的挑战,结合云计算提出一种基于Hadoop生态环境搭建的医疗云数据挖掘平台架构,详细阐述其各层功能,包括基础层、平台层、功能层以及业务层,以期为医疗行业的大数据分析及挖掘提供新思路。

关键词: 云计算;大数据;数据挖掘;医疗

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)07-0021-03

Research on the Architecture of Medical Big Data System Based on Cloud Computing

WEI Jian-bing

(Gansu Foresty Technological College,Tianshui 741020, China)

Abstract: Introduce Big Data era medical industry data mining challenges, combined with cloud computing is proposed based on the ecological environment to build medical Hadoop cloud data mining platform architecture, detail its layers, including a base layer, the platform layer, the functional layer and the service layer in order for the medical industry, big data analysis and mining to provide new ideas.

Key words: Cloud computing; large data; mining; medical

随着技术的进步,信息产业的发展以及信息供给量的增长,一个遍及全世界的医疗行业大数据的革命即将到来。在已经过去的十年中,医药商开始将他们多年来的研发数据都存储于医疗数据库中,与此同时,医疗机构也在对他们的患者记录进行数字化。美国政府及相关部门已经开放了庞大的医疗信息数据库,这些信息不但涉及临床跟踪数据,还包括病人的医保记录。最新的技术可以汇聚医疗机构、医学实验室、医务办公室以及患者的信息等数据,组成一个庞大的数据集。

医疗信息化的快速发展会令医疗数据的规模不断变大,云计算现已被大量的组织和机构所使用,云计算平台已经形成了多种服务模式,包括为个人、组织、企业或是学术机构等提供云服务的商业模式。云计算所提供的应用和数据服务可以被很多不同的用户广泛应用,同时用户还可以跨平台、跨企业地使用云资源。凭借自身优势,云计算可以令医疗事业的信息化改革和部署更加方便及廉与此同时,云计算还可以大大提高对医疗大数据的挖掘能力,增强医疗信息化系统的可扩展性。近年来,国内企业也开始逐渐以数据作为理论基础,现在已经发展到没有数据基础就无法做出决策,并无法提出完善的建议。不仅如此,事实上,医疗数据是可以“说话”的,但它所表达的语言意义需要使用人类的分析和挖掘。

1 医疗大数据

1.1医疗大数据的产生

随着互联网的迅速发展和不断普及,云计算和物联网等技术也快速兴起,数据正在以一个前所未有的速度累积和扩张,一个属于大数据的时代已经到来,各种研究部门以及机构都已经将目光放在大数据的问题上。大数据通常是指一些庞大的数据集,这些数据集在进行采集、管理或者处理时所消耗的时间超过可容忍时间。大数据的概念在强调数据规模和多样性的同时,也考虑到了产生和变化的速度以及确定性。大数据不单单是一项单纯的新技术,而是将引领信息技术产业的又一项颠覆性的革新技术。据相关预测,中国的大数据市场将在2012-2016年增长5倍,其中,医疗卫生行业将是其中占据份额最多的行业之一。

目前我国的医疗信息化建设进程不断加快,各类医疗卫生机构的信息系统以及数字医疗设备和仪器的广泛应用使医疗数据呈爆炸性增长,这些数据资源是非常有价值的医疗卫生信息,他们对疾病的诊断,治疗,研究有很大的价值,医疗费用控制。医学数据量的快速增长,使医疗卫生行业迎来了属于自己的大数据时代,对这些医疗大数据的创新性管理和应用,将给生命科学和医疗领域带来一场革命。

医疗大数据主要来自于包括临床医学、疾病监控、医学研究、制药企业、费用管理、生物信息、健康管理、社交网络等方面,如何利用这些海量医疗信息来更好地为医疗行业服务已被更多的研究人员和机构所关注。大数据时代的来临无疑会对我国医疗信息化建设起到巨大的推动作用,医疗大数据的相关技术将解决以往无法解决的一些难点和问题,如何利用好大数据技术并且让其充分发挥作用是今后相关科研工作者研究的重点。

1.2医疗大数据的特点

医疗大数据有以下几个主要特征:

1)数据巨量化

每家医疗机构每天的患者都有可能拥有上万人,而每个地区可能包含上百家医疗机构以及上百万人口,这些患者的病历数据都需要至少记录60年。而随着医学的发展,各种先进的医疗仪器不断被发明,这些仪器产生的数据也十分巨大。

2)服务实时性

医疗大数据不同于其他大数据,一般需要进行大量的在线分析和实时处理。

3)存储形式多样化

医疗大数据存储的格式是多种多样的,如一些数据表、化验结构等是结构化的数据,而医生的手写病历、文本、影像等为非结构化数据。

4)高价值性

医疗数据所蕴含的价值巨大,对各国的疾病防控、药物研发以及健康保健都有着十分巨大的作用。

根据相关数据统计显示,目前的医疗行业里,一张CT普通扫描的图像文件大小就超过150MB;—个基因组序列文件包含约750MB的数据;标准病理图包含的数据量就更大,甚至接近5GB。如果将这些数据大小乘以人口基数以及人的平均寿命的话,仅仅是一个社区医院所要累积的数据量,就高达TB甚至PB数量级,而且其中还包含了各种图像、视频等非结构化的数据,而其他大型医疗机构的数据量就更加庞大。

因此,如何能快速地在海量的医疗大数据中提取到有用信息正成为各企业以及研究机构的战略性发展方向,通过大数据挖掘分析,得到有价值的信息,将对未来的疾病管理、控制、治疗以及研究等方面都有着非常重要的意义。

2 云计算

2.1云计算的定义

云计算有很多的定义。下面给出一个由美国国家标准与技术研究所提出的改进定义。云计算是一种模型,它可以实现随时随地、便捷、随需应变地从可配置的计算资源共享池中获取所需的资源,资源能够快速提供并释放,使管理资源的工作量或与服务提供商的交互减小到最低限度。云计算模式有五大主要特征:

1)用户可以利用任何服务提供者的现有计算资源,包括处理能力、储存空间、或是应用程序等等,而不需要人工交互。

2)任何标准的联网设备可以随时随地访问这些计算资源。

3)服务提供者的计算资源可以被合并起来提供服务,而这些合并的资源可能分布在各地的多个数据中心。同时,供应商的计算资源可以被多个用户分享使用。这些计算声揮可以按需、动态地分配给用户,通常,用户也无须考虑地理位置,世界上任何地方的用户都可以使用这些计算资源。

4)用户可以弹性利用这些计算资源,一个用户可以在需要时申请更多资源,而不再需要后可以释放它们。从用户角度来看,这些资源是无限的,而用户只需要为他们使用过的资源付费。

5)云计算系统是一个自适应系统,它可以自动平衡负载并且优化资源的利用。用户可以监控资源的使用从而令账单透明化。

2.2云计算的独特特征

2.2.1云计算有五个主要特征:

1)提供者不但要投资建设基础设施,还要进行维护。

2)基础设施供应商提供的服务会被很多用户分享。

3)用户按需获得服务。

4)提供的服务是弹性且可扩展的,换句话说,用户可以按需获得一个无限的服务。

5)用户只为他使用过的资源买单。

6)供应商提供特定的服务质量保证。

2.2.2由于计算的特殊性质,云计算还有五个主要需求:

1)基础设施应该是动态的、虚拟的。即基础设施应该根据使用者不同的应用和特殊的要求采用不同的“化身”。

2)当应用程序作为一项提供的服务时,应用程序的咨询也同时作为服务供应商的一部分工作。这往往不是传统供应商的鲜明特征。

3)一旦应用程序被使用,供应商和用户之间需要建立起一个双向的连接,以便于处理程序中的错误以及提供咨询服务。

4)供应商有义务保证用户数据和程序的安全。

5)由于供应商的计算机以及数据储存位置的国际性,目前没有相关法律适用于处理云计算供应商及用户相关的纠纷。

2.3按服务类型的分类

云计算按照服务类型分类主要有以下三种。

2.3.1基础设施即服务(IasS)

在这类服务中,供应商主要提供数据中心服务,包括计算机服务举、储存服务器、通信基础设施,用户可以在其上层部署和运行任何软件。数据中心包括安全建筑的硬件配置、不间断电力供应、空调以及不间断通信设备,用户也可以部署他们自己的应用软件和操作系统,供应商只负责提供硬件组件。由于不同的用户需要在云端安装不同的操作系统及软件,所以需要供应商根据用户需求分层部署软件,仿照硬件的运行模式,这就是我们所说的虚拟化。又由于多个用户可能同时使用服务器且所使用的操作系统可能不同,这就需要服务器可以提供多个虚拟机以供用户使用,这些都由被称作超级管理程序的软件控制。IasS可以给多个独立的用户提供基础设施的共享使用。普通的IasS公司通过提供应用程序接口给用户,以便于其使用,同时IasS也可以同它的用户签订服务器级协议。最早的IasS供应商是亚马逊的EC2,其他的供应商包括Backspace和IBM等,都向用户提供满足他们需求的虚拟系统。

2.3.2平台即服务(PaaS)

这一项服务是建立在IasS之上,去除掉软硬件的基础设施,这项服务提供了包括操作系统、编程语言、开发环境以及开发工具等。换句话说,这项服务迎合了用户所有关于系统程序开发环境的需求,包括微软的.NET或者UNIX开发环境等等。这类服务供应商包括微软Windows Azure,亚马逊的Web Services,IBM的SmartCloud,以及Google的App Engine。

2.3.3软件即服务(SaaS)

SaaS是一种通过Internet提供软件的模式,供应商将用户需求的应用软件部署在自己的基础设施上,客户可以通过连接互联网设备进行访问,电子邮件就是SaaS服务的早期典范。同时还有一些第三方软件可以在云端运行以管理用户关系、纳税申报、销售管理等等,同时还有其他各种各样的常见软件,包括文字处理、电子表格以及数据库管理等等部署在云端。

2.4 按服务方式分类

按照部署与访问的方式,云平台也被分为如下几类:

2.4.1 公有云

公有云是指供应商的计算资源可以提供给任何用户使用,这类云平台通常位于供应商的所在地并且由供应商控制,所以基础设施会被很多用户所共享。公有云一般有免费以及付费两种,例如Google就通过公有云提供免费的储存空间、办公软件以及电子邮件,而亚马逊的EC2则是付费的公有云。

2.4.2 私有云

私有云是指计算资源被单独分配给一个独立的组织机构,这类云平台可能部署在机构所在地并且可以让机构成员随时随地进行访问,例如从机构庞大的分支进行访问。私有云一般由住址机构拥有并进行维护、外包给第三方或者两者结合。例如,一个大型银行的很多分支机构都需要通过一个私有云进行连接,而这个私有云一般由基础设施供应商设计并维护。

2.4.3 社区云

社区云是指将基础设施分配給一个特定的社区,这个社区通常由一些有共同爱好的用户组成。例如,一些大学希望合并他们的计算机硬件设施并通过社区云进行内部连接,从而他们的成员就可以访问这个社区云。私有云的基础设施可能被各个用户分别拥有或者外包,它的先驱就是网格计算。

2.4.4 混合云

混合云是指一个云平台有两个以上的模式进行运行,可能包括公有云、私有云或者社区云,每种模式独立运行,同时通过标准化协议进行捆绑以给予数据和程序的便携性。例如,一个机构可以把它认为比较敏感的程序运行在私有云上,而相对不敏感的程序运行在公有云上。另一种情况是一个机构可能原本将它的程

序运行在私有云上,而当程序负载突然增加,在此时可以使用公有云来承载这些额外增加的负载,这被称作云爆发。

3 基于云计算的医疗大数据系统架构

云计算平台依赖于高端的服务器、交换机,构成的一种公用设施化的、可共享的IT架构,使得大量的软件应用集聚于此公用设施上,可通过网络连接的形式获取、使用云计算技术可以肯好的应用在医疗行业中,在医疗大数据不断增长的今天,医疗行业可以将其医疗病历系统、医疗管理系统、医疗储存系统等等都通过云架构实现,这样可以令医务人员以及患者都可以随时随地浏览自己需要的信息,做到真正的数字化远程医疗。

云计算的出现有效迎合了医疗大数据的各种特点,运用云计算平台作为服务的实现基础,医疗大数据可以在云端进行存储和处理,从而达到令医疗大数据可以被随时随地访问,并为人们提供远程医疗服务。将大数据存储在云端一方面可以缓解本地存储的压力,另一方面还可以将多用户数据融合存储并进行随时随地访问,而医疗云平台中最重要的一项技术就是如何对存储在云端的医疗大数据进行挖掘,从而发现用户有兴趣的内容。

医疗云平台按照功能划分为5部分:数据采集层、数据云储存层、数据挖掘层、企业级数据库和应用层(见图1)。

医疗云平台的各部分具体如下所述:

1)数据采集层

医疗大数据的存储格式多种多样,包括了结构化以及非结构化或半结构化的数据,所以釆集层需要采集各种格式的数据。同时医疗云平台还要实现与各种医疗系统进行对接,通过相应的API读取数据。而由于现今社会社交软件以及网络如快速发展,将医疗与社交网络相结合也是未来的趋势如微信远程挂号、上传个人健康信息等等,所以也要将这部分非结构化的数据进行釆集。最后将釆集的不同格式数据进行处理,以便于集中储存。

2)数据云存储层

数据存储层储存整个医疗云平台的数据资源。云存储层的数据将釆用Hadoop平台模式进行架构,将数据采集层采集到的数据进行融合,并分块进行存储。

3)数据挖掘层

数据挖掘层是医疗云平台中最重要的组成部分,通过计算机集群进行架构,完成对数据的挖掘及分析工作。通过相应的挖掘算法将数据云存储层以及企业级数据库的数据进行挖掘,并将挖掘结果存储到数据云存储层中,并将挖掘到的规则及知识等通过可视化手段在应用层进行表现。

4)企业数据库

企业级数据库属于医疗数据的本地存储。医疗机构不但需要方便、容量大的云存储,还需要将一些实时性要求高以及保密性要求高的数据进行本地存储,这就需要企业级数据库。企业级数据库需要与数据云存储层以及数据挖掘层进行数据的交互,并将数据给予应用层进行展示。

5)应用层

应用层主要面向用户,将挖掘到的数据或者原始数据通过表格以及可视化图像等进行表现。应用层分为两种客户端,面向医务人员的以及面向患者的。面向医务人员的应用层可用于辅助医疗诊断、远程医疗等功能,医务人员可使用网页以及应用程序进行可视化浏览。面向患者的应用层可增加移动端的开发,令患者可以随时随地查看自己的病历资料,例如将自己的病例数据同苹果公司的健康APP进行数据对接。

参考文献:

[1] 邹北骥. 大数据分析及其在医疗领域中的应用[J].计算机教育,2014(7):24-29.

[2] 刘颖. 医疗行业大数据分析的应用初探[J].装饰,2014(6):40-43.

[3] 张振,周毅,杜守洪,等.医疗大数据及其面临的机遇与挑战[J].医学信息学杂志,2014(6):2-8.

[4] 高汉松,肖凌,许德玮,等. 基于云计算的医疗大数据挖掘平台[J].医学信息学杂志,2013(5):7-12.

[5] 陈惠芳,徐卫国.大数据视角下医疗行业发展的新思维[J].现代管理科学,2015(4):70-72.

[6] 芮益芳. 大数据医疗:下一个产业“风口”[J].商学院,2015(4):100-103.

[7] 董诚,林立,金海,等. 医疗健康大数据:应用实例与系统分析[J].大数据,2015(2):78-89.

猜你喜欢
云计算数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
实验云:理论教学与实验教学深度融合的助推器
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究