基于多源异构大数据支撑疫情监测体系的技术架构研究*

2020-09-29 07:54唐蓉叶小莺
科学与信息化 2020年25期
关键词:大数据

唐蓉 叶小莺

摘 要 本文以国家治理体系和治理能力现代化建设为指引,根据我国疫情监测的信息化建设存在的“纵强横弱”、“数据单一”、“时效性差”、“不成体系”等问题,以“顶层设计、资源整合、安全可控”为核心,紧抓多源异构的数据资源开发利用这条主线,为有效弥补当前监测措施时效性差、未覆盖新发传染病等弊病,设计出一种以“数据汇聚为核心、分布式框架为支撑、业务协同为目标”的疫情监测总体框架,统筹规划出“12345”疫情监测技术架构体系建设,为统筹推进大数据支撑疫情防控工作提供建设思路和研究方向。

关键词 多源异构;大数据;疫情监测;技术架构

前言

世界卫生组织提出“高质量的国家监测体系是传染病预防控制的基础”[1]。加强公共卫生防疫和重大传染病防控,作为坚持和完善中国特色社会主义制度,推进国家治理体系和治理能力现代化的重要组成部分[2]。国家治理体系和治理能力现代化,要求治理体系在“常态”和“非常态”的情况下均能有效运行[3]。现代化的疫情监测技术应当以的信息技术为基础,借助数字化、数据化、智能化等现代处理方式和实施办法,以“业务数据化、数据业务化”为着力点,通过数据驱动重塑疫情监测的管理架构、业务架构和组织架构,形成用“数据决策、数据服务、数据创新”的现代化治理模式。本文以改革完善重大疫情防控救治体系为背景,以集约化、一体化为原则,分析总结现阶段疫情监测相关业务应用的实现路径,提出以分布式服务、大数据技术构建疫情监测服务平台,以信息资源汇聚整合为资产,以机制改革和业务融合为主体的疫情监测基本框架,结合疫情防控工作实际应用,说明大数据时代下疫情监测信息化的建设模式。

1我国疫情监测的现状分析

我国疫情监测大致经历四个阶段:第一个阶段是20世纪50年代,建立了国家法定传染病报告制度,以电话和邮寄报告卡报告。第二个阶段是1990年,建立了国家传染病报告信息系统(PHIS),由各省市防疫站录入,通过系统打包上报。第三个阶段是2002年,启用国家疾病报告管理信息系统,实现传染病病例个案录入与报告,逐步覆盖全国所有疾控机构、医疗机构和乡镇卫生院。第四个阶段是2008年,启用国家传染病自动预警系统(CIDARS),以传染病报告数据为基础,根据响应规则,产生预警监测信号。经过近70年的发展,在法定传染病的疫情监测信息化建设方面取得了显著成绩,但仍存在着“纵强横弱”、“数据单一”、“时效性差”、“不成体系”等问题,严重阻碍了治理体系和治理能力现代化的推进。

1.1 系统建设“纵强横弱”,各地的信息孤岛林立

我国的疫情监测信息化建设,在纵向上存在着法定职责和业务协同等制约关系,互联互通相对较好;而横向上的制约关系较弱和重视程度不够,信息共享和资源开发利用困难重重,仍存在“信息孤岛”现象。

1.2 疫情监测“数据单一”,難以应对新发传染病

近30年来,全球约出现新发传染病40多种,成为全球公共卫生的重点和难点领域。然而,全国应用最广的CIDARS系统,疫情监测数据来源于医疗机构确诊的法定传染病,未覆盖传播范围广、传播速度快、社会危害大的新发传染病。

1.3 监测数据“时效性差”,错失最佳防控窗口期

现有的疫情监测所用数据,先后经历接触传染源被感染到出现症状,症状加重到医院就诊,经过检测确诊为某种法定传染病后按照规定时限进行系统上报,少则2~3天,多则10天甚至更久,致使难以高效应对复杂多变的疫情流行局面。

1.4 各自为政“不成体系”,呈现碎片化建设特征

近年来,各地对传染病的认识不一、重视程度不够,加之横纵交错的管理体制,建设各自为政不成体系,导致数据标准不统一,业务协同性差,重复投资、重复建设问题较为突出,信息资源利用效率低,数据资源严重浪费。

2现代化的疫情监测信息化建设模式

随着大数据、人工智能、云计算、物联网、区块链等数字技术的日渐成熟,数据深度挖掘和整合分析能力得到了全面应用,由此带来了广泛的管理模式和建设模式的转变。在疫情监测领域应在思维方式、业务诉求、资源管理、基础支撑等方面,与传统的“单打独斗”建设模式存在着本质的区别。

2.1 以数据汇聚为核心转变

大数据时代更加强调数据的采集,理想的疫情监测应该包含相关性高的各类来源不同数据,如:互联网症状搜索、电子商务销售、电信运营商、医疗系统诊疗、传染病报告、非处方药销售、学校企事业因病缺勤等多源的非结构化、半结构化、结构化数据的融合贯通,综合地理信息、气候环境、时间空间等因素,创造出新的疫情监测“智慧”,精准预测法定传染病暴发趋势,尽早探测新发传染病流行特征。

鉴于数据来源、数据结构和监测类别各异,坚持“一数一源”的基本原则,将借助不同数字技术和采集工具,实现不同来源数据和不同结构数据的汇集。对于结构化数据处理主要是ETL(抽取、转换、清洗、装载)过程;对于非结构化和半结构化数据的处理,除ETL过程外,前期还涉及关键字段提取、文本挖掘、语义理解、结构转化等处理过程。对于媒体、搜索引擎等互联网数据,动态挖掘关键词,使用网络爬虫技术实时爬取相关信息;对于电子商务销售数据主要包含特定的防护物资、OTC药品销售等信息,可通过电商平台信息系统的定期推送获取;对于电信运营商数据主要包含人流迁移数据、定位信息等,由电信运营商定期推送;对于学校企事业因病缺勤借鉴法定传染病报告模式,可将现有预警监测系统进行延伸,将其纳入报告范畴,通过信息系统上报相关报表获取;医疗机构门诊、急诊患者主诉信息,通过区域卫生健康平台数据交换而来。如图1所示:

2.2 以分布式框架为支撑转变

依托云计算、大数据、人工智能、物联网、移动互联网、区块链等技术,构建新一代的云端基础设施。以“智慧城市”建设、打造“城市大脑”为契机,打破“纵强横弱”、消除“信息孤岛”,破除“条线”和“点块”建设模式的思维定式,彻底改变机房、网络、业务应用、服务器等基础设施各单位独立自建的模式。

构建高效协同共享的疫情监测体系,需要一套服务型技术架构支撑整个业务运转,区块链技术的“去中心化”和云计算的分布式服务框架成为满足业务深化、持续扩展的第一选择。在传统的服务架构中,服务调用者都是通过企业服务总线调用各项服务,企业服务总线扮演“中心”角色,这个“中心”出现故障,所有服务将受影响,对于服务较多、调用频繁的信息系统来讲,这种架构存在较多弊病。区块链技术的“去中心化”特点,以及云计算的“分布式”服务框架,相比“中心化”服务架构最重要的不同是服务交互避免因“中心”带来的潜在问题。“去中心化”分布式技术框架具有服务提供、路由选择、服务容错、服务扩展、服务限流等服务能力。

2.3 以业务协同为目标转变

在以往的疫情监测信息化建设,主要是为了满足疾控系统的业务需求,数据仅在医疗机构与各级疾控中心开发应用。在大数据时代,疫情监测数据需要在跨层级、跨部门、跨地域之间共享应用、协同合作、精准监测,根据国家制定的信息采集交换数据集、交换文档规范、接口技术规范等,实现纵向、横向数据同步和互联互通,深化整合“条”“线”信息系统,推进“一体化、协同化”的现代疫情监测体系建设。

现代化的疫情监测体系建设,应当以数据的融合共享和业务的高度协同为目标,在疫情监测、形势分析、防控救治、资源调配、应急处置、宣传教育、舆论引导等方面形成业务闭环,更好地发挥疫情防控的支撑性作用。基于大数据的疫情监测体系的构建,整体上看既离不开线上的技术支撑,也离不开线下各类社会资源的支持和整合。线上技术支撑主要包括基础设施建设、数据资源共享交换、业务协同发展。线下资源的支持和整合主要包括配套制度支持、完善标准体系、多元协同发力、资金支持和资源整合等。

3基于多源异构大数据的疫情监测总体框架

图2 多源异构大数据的疫情监测总体框架图

明晰了大数据支撑的疫情监测体系的“痛点”和建设模式,还需要解决业务流程重组,实现业务应用与技术分离,减少实际使用过程中各部门业务应用系统之间的耦合度,将不同来源、不同结构的大数据进行“逻辑集中物理分散”与“物理集中逻辑分离”相结合的管理方式形成大数据中心,打破部门、层级之间的各业务系统间信息的条状分布制约。采用分布式服务管理框架将政务大数据平台功能共享服务化,便于卫生健康、应急、公安、宣传、海关、教育、疾控、医疗机构、学校等单位快捷高效地搭建业务应用系统,由于业务应用系统基础平台、业务组件的统一性,有利于数据资源统一和业务的整合。框架设计的逻辑模型整体可概括为“四横四纵”的层次结构,如图2所示。

基于上述总体框架,基于多源异构大数据的疫情监测体系建设内容可以具体归纳为“12345”技术架构体系,即“一个中心、两类门户、三套体系、四大支撑、五项应用”。通过不断整合基础设施和信息资源,打造一个“核心数据中心”,完善“业务专网、公众服务”两类门户,建立“标准规范、安全管理、运维保障”三套体系,构建“基础网络、共享交换、应用服务、信息安全”四项支撑平台,实现“疫情监测、疫情预警、调查分析、数据展示、辅助决策”等五大支撑应用,助推多源异构大数据支撑“智慧、智能”的疫情监测体系建设。

3.1 一个集约共享的核心数据中心

汇聚来自不同业务部门、不同企事业单位和不同行为人的过程、行为和位置等数据,这些监测数据组成了大数据中心庞杂的数据源,与各类数据挖掘与分析系统组成了大数据中心的数据分析引擎。基于“统一部署、弹性扩展、按需获取、集中共享”的云计算设计理念,遵循“共享是方向、归属是重点、规范是关键”的基本原则,建设“集聚集约、绿色低碳”的核心数据中心。依据国家及地方数据资源目录编制规范,将采集或拟采集的全部数据编制形成疫情数据资源目录清单,通过自主采集或共享交换整合、叠加基础数据库、数据资源池的数据资源,汇集形成若干个传染病监测的主题数据库,实现基础设施集约化建设与灵活调度,以及信息资源和知识管理的便捷化、高效化。

3.2 两类资源丰富的统一门户

一是为内部用户提供单点登录的业务访问入口,聚合后台分散的各类业务应用系统,实现“资源共享、内部协同、交流互动、统一管理”等目标。二是为公众提供互联网服务门户,聚合官方网站、微信公众号、手机APP等服务站点,提供“一站式”的对外服务窗口,为疾病宣传、知识普及、政策发布、舆论引导提供统一渠道。

3.3 三套严谨规范的系统体系

一是标准规范体系以国家全民健康平台及疾控信息化标准体系为框架,在各地电子政务网络体系下,健全涵盖数据、应用、管理、安全等领域的传染病监测控制信息标准体系。重点制定基础业务标准、应用支撑标准、信息安全标准、网络设施标准、项目管理标准、绩效考评标准、数据共享交换标准等。二是安全管理体系。遵循“先进可行、安全可控”的原则,构建符合信息系统等级保护相关要求的技术保障体系、运行管理体系、基础设施体系、应急处置体系等,构建数据动态安全态势感知与响应体系,实现全方位的信息網络安全管控。三是运维保障体系。遵循“集中监控、集中维护、集中管理”的原则,实现对信息资源的监控、管理及维护,涵盖管理对象、活动主体、管理流程、技术支撑和运维服务等要素。

3.4 四大基础坚实的支撑平台

一是基础网络支撑平台依据集约化、一体化、协同化要求,基于各地电子政务网、各类业务专网、互联网、物联网、移动互联网及5G等网络,统筹规划设计基础设施网络,打通业务应用的“安全高速公路”。二是共享交换支撑平台。构建信息资源目录体系与数据交换体系,建设统一的数据共享交换平台,为跨单位、跨系统、跨网络的信息共享与交换提供支撑。三是应用服务支撑平台。抽取组织、人员、权限、流程引擎等基础元素,构建数据资源、应用运行的基础支撑环境。四是信息安全支撑平台。依托信息安全管理体系,建设统一的信息安全支撑平台,聚合数据安全、系统安全、网络安全、物理安全“一体化”管理,为业务应用和信息资源提供安全、可靠的基础运行环境。

3.5 五项亮点纷呈的业务应用

紧紧围绕“早发现、早报告、早处置”目标,强化信息收集、分析、利用能力,健全多渠道疫情监测体系,实现重大疫情风险监测预警信息数据共享。基于国家全民健康信息平台,推进传染病直报与电子病历、健康档案、人口信息、地理信息等数据库的互联互通,并融合多渠道自主采集的各类数据,完善或建立传染病监测相关信息系统,实现传染病动态实时监测、预警、调查、分析、研判和管理。一是疫情监测业务应用。现有疫情监测系统大多基于确诊后的病例信息,而提高预警及时性就是不断拓宽监测数据来源。在保持传染病网络直报的基础上,拓宽数据采集的渠道和范围。二是疫情预警业务应用。结合传染病监测数据高维、稀疏的特点,以数据密度导向建模和算法设计为基本思路,运用机器学习、数据挖掘等技术,结合地理信息、时间空间、气象环境等因素,采用多維度的时序模型、传染病动力模型、判别模型、回归模型、贝叶斯网络、支持向量机、人工神经网等预警预测模型和算法,探测可能出现的异常情况,及时通知相关部门及受事件影响的目标人群据此及时做出反应。三是调查分析业务应用。主要包括预警信号的初步核实、现场调查和结果分析等模块。按照分层分级管理原则,在接收到预警信号信息后,相关疫情监测人员立即对信号进行初步核实,包括登录系统查看信息、与其他来源数据综合判别、与报告机构进行核实等内容。支持通过手机、PDA等移动终端完成现场调查个案数据的填报,也包括现场音频、视频及图片等信息的采集。四是大数据展示业务应用。结合地理信息、时间空间等因素,利用大数据可视化技术,通过交互可视界面进行疫情数据分析、推理和决策,从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对疫情复杂情景的更深层的理解,供人们检验已有预测,探索未知信息,提供更为清晰直观的数据表现形式,将错综复杂的数据和数据之间的关系,通过图表化、可视化、多维度、多角度、多层级展示疫情信息。五是辅助决策业务应用。“大数据”时代对党委、政府的决策管理带来了前所未有的历史机遇。在疫情防控政策制定中,数据分析决定质量高低的关键性因素。在疫情防控政策实施中,有效监测政策实施效果,并对后期政策调整提供决策依据。充分运用大数据、人工智能、云计算等数字技术,动态整合外部多维数据,开发决策支持交互式可视化辅助决策系统,提高数据资源开发利用能力,不断提高疫情决策能力、管理水平和服务能力,发挥多源异构大数据支撑党委、政府决策和服务民生的作用,助推国家治理体系和治理能力的现代化。

4结束语

本文讨论了在大数据时代背景下,如何利用云计算、大数据、人工智能等数字技术开展疫情监测工作,以满足各级党委、政府对疫情防控客观需求。首先,对我国疫情监测信息化建设存在的“纵强横弱”、“数据单一”、“时效性差”、“不成体系”等问题进行了分析,以大数据推动国家治理体系和治理能力的现代化为指引,梳理出现代化的疫情监测信息化建设模式创新,即以“数据汇聚为核心、分布式框架为支撑、业务协同为目标”方向转变。最后,紧抓多源异构的数据资源开发利用这条主线,以“顶层设计、资源整合、安全可控”为核心,设计出一种“12345”疫情监测技术架构体系。该架构的建设思路,基于分布式的共享业务服务实现了应用系统快速搭建、应用数据自动汇聚的效果,能够从一定程度上解决系统重复建设、信息孤立的问题,并将大数据融合到业务中推进政府决策科学化、治理精细化、服务协同化的创新发展。特别是融合多源异构的数据,各类数据取长补短,有效弥补当前监测措施时效性差、未覆盖新发传染病等弊病,为落实卫生健康“预防为主、关口前移”提供切实可行的大数据支撑疫情监测手段。

参考文献

[1] WHO.An integrated approach to communicable disease surveillance[J]. Epidemiological Bulletin,2000(21):1-10.

[2] 中共中央.关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定[N].人民日报,2019-11-06(01).

[3] 肖文涛,曹冬英.公共价值管理视阈下重大危机事件的应对之策——兼论新冠肺炎疫情防控[J].东南学术,2020(2):18-25.

作者简介

唐蓉(1982-),女,四川德阳人;学历:硕士研究生,职称:高级工程师,现就职单位:重庆市疾病预防控制中心,研究方向:智慧城市、电子政务和疾控信息化。

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索