基于全民健康信息平台的糖尿病信息化管理平台与传播体系的创建研究

2021-03-15 05:25陈海波李晓
科技风 2021年3期
关键词:脱敏租户加密

陈海波 李晓

摘 要:本文基于糖尿病防诊治大数据中心,构建糖尿病及其并发症协作研究平台,包括数据采集、存储、处理与分析、开放共享以及应用创建等方面,同时研究结合运营商用户互联网行为、位置等数据,构建糖尿病精准传播示范应用的技术手段和工具。利用大数据分布式存储与Hadoop技术,设计集成医疗数据和联通数据的协作研究平台,为医疗机构及科研院所的糖尿病及并发症专病诊疗研究、预防策略研究提供技术支撑。

关键词:糖尿病及其并发症协作研究平台;大数据;META分析

一、研究背景

当前我国围绕糖尿病及并发症专病的大数据中心尚未建立,如何建立糖尿病及并发症专病大数据中心,将糖尿病及并发症专病从机会性发现高危人群转变为全民高危人群发现已成为一个迫切要解决的课题;如何高效地创建糖尿病防诊治科普知识的生产、加工、传播全链条式的信息化传播体系、科普与广泛传播糖尿病防诊治知识、提高糖尿病的知识普及率与早期防控率是一个亟待要解决的问题[1]。

二、研究目标

本文通过研究规范化信息整合技术、糖尿病专病信息分析技术、信息脱敏与加密技术、多权限管理技术,结合运营商用户互联网行为、位置等数据,构建糖尿病及其并发症协作研究平台,包括数据采集、存储、处理与分析、开放共享以及应用创建等方面研究,为糖尿病及其并发症研究相关企事业单位、科研院所提供糖尿病科研样例数据与大数据分析挖掘能力,包括META分析、数据可视化、统计分析、大数据挖掘、糖尿病患者及家属精准传播与应用定制开发等功能旨在提升糖尿病早期防诊治策略推广与疗效提升的信息化传播体系网络,实现信息共享、深入科普与广泛传播。

三、研究内容

本研究利用大数据分布式存储与Hadoop技术,构建集成医疗数据和联通数据的协作研究平台,为多家科研院所诊疗研究提供平台支撑。糖尿病及其并发症协作研究平台在符合数据安全条件下,面向糖尿病及其并发症研究相关的企事业单位、科研院所等用户提供数据样本资源库管理、预测/决策模型、数据分析算法库、应用开发工具集、多类应用接口等众多服务,为开展糖尿病及其并发症协作研究提供工具支持。平台建设内容涵盖数据采集、存储、处理与分析、开放共享以及典型应用等方面。

(一)糖尿病及其并发症协作研究平台数据采集与存储

基于临床医生、科研人员科研需求驱动,集成采用FTP、Kafka等数据采集技术,根据不同研究场景以接口形式实现批量或实时从糖尿病防诊治大数据中心及联通大数据中心采集数据,通过ETL工具实现数据的清洗、转化,实现多种格式数据自动、标准化采集及预处理。糖尿病及其并发症协作研究平台支持关系型数据库(MySQL、Oracle等)、非关系型数据库(HBase、Redis等)及分布式文件系统(HDFS),可根据数据特点及研究场景选择合适数据库,实现糖尿病及其并发症相关结构化、非结构化数据资源的统一存储管理。

(二)糖尿病及其并发症协作研究平台数据处理与分析

糖尿病及其并发症协作研究平台采用Hive、MapReduce、Spark等技术实现分布式计算,支撑批量处理、计算与交互式分析,具备海量数据低延迟大规模并行处理能力;平台同时采用Storm、Spark Streaming等组件实现实时流数据处理,支持并行处理技术和缓存机制。

(三)糖尿病及其并发症协作研究平台数据开放与共享

糖尿病及其并发症协作研究平台采用多租户架构,通过隔离功能确保不同应用同时运行,实现数据共享,提高性能,降低开发成本。租户计算资源独享、存储空间独享、租户空间数据独享、数据加工过程私密,并可将页面逻辑、业务逻辑通过容器承载,在资源利用率最大化前提下,实现应用安全隔离、快速部署、彈性伸缩、版本查询及安全回滚。平台从数据资源、存储资源、计算资源等方面对多租户进行权限管理和资源控制,包括租户管理、权限管理、资源管理等功能,面向糖尿病及其并发症研究相关的企事业单位、科研院所等租户提供按照采样规则提取的脱敏模型训练样例数据。

(四)糖尿病及其并发症协作研究平台应用创建

糖尿病及其并发症协作研究平台在先进数据存储与软件计算架构基础上,实现分布式数据挖掘方法和工具的研发,包括META分析(文献荟萃)、数据可视化、统计分析、大数据挖掘、糖尿病患者及家属精准传播、应用定制开发等功能。

1.META分析

构建全文检索引擎,按关键词全面搜索需要分析论点相关的各类研究资料,确定纳入和排除标准,结合大数据挖掘和文本挖掘等算法,评价文献实验质量和结果的适应性,综合多个标准和角度比对分析,剔除不满足标准的文献,保证系统评价的有效性。

2.统计分析与数据可视化

平台提供主流统计分析指标算法,包括均数、中位数、众数、方差、标准差、极差等。平台提供仪表盘、自助查询分析、业务报表、多维分析等多种可视化方式,并提供主流可视化图形如饼图、折线图、柱图、环图等,为不同用户提供多样化可视化能力。

3.大数据挖掘

平台提供安全可控、可扩展、开放式的工具集成管理功能,预置多种大数据分析和挖掘算法及工具供用户使用。平台预置通用分析工具与专项分析工具,包括钻取分析、关联性分析、综合查询等多种类型的数据分析处理算法;此外,平台还预置大数据相关性分析、通用挖掘工具集与专项挖掘工具,包括聚类、神经网络法、关联性分析、遗传算法、决策树与模糊集方法等。平台支持高级统计分析语言(R语言等)的集成与开发,提供给资深数据科学家对糖尿病数据进行多维度的高级统计分析,深入探索与挖掘数据价值,发现新的数据规律,推动医疗技术的发展。

4.糖尿病患者及家属精准传播

平台通过运营商数据建立用户社交网络,将与指定用户有关系的所有用户建立关系图谱,识别出关系图谱中成员的日常行动轨迹,通过机器学习算法对图谱内用户实现综合数据分析挖掘,建立亲属关系预测的数据挖掘模型,精确识别出指定用户的亲属关系网络。通过短信、互联网、新媒体等传播渠道实现糖尿病医疗知识的精准传播。

(五)糖尿病及其并发症协作研究平台数据安全管理

1.脱敏技术

平台采用静态数据脱敏方式,构建大数据平台脱敏算法库,包括L多样性、数据抑制与差分隐私等算法。平台智能选择脱敏算法,并行、高效按照脱敏规则对隐私数据进行脱敏。

2.加密技术

平台采用国密SM4对称加密算法,确保敏感数据被越权访问时仍能得到有效保护。在数据加解密机制方面,为满足大数据平台中静态加密及传输加密需求,平台采用透明加密区加密机制,应用Hadoop KMS(Hadoop Key Management Server)使HDFS实现透明端到端加密[2],确保数据只能被客户端加密和解密,指定的HDFS读取和写入数据均会透明加密和解密,无须用户应用程序代码变更,通过高效加解密方案,实现高性能、低延迟的存储层加解密,实现加解密对上层业务透明,上层业务只需指定敏感数据,完全感知不到加解密过程。

3.日志追溯技术

平台提供完备的操作日志记录能力,包括所有对数据的采集、加工处理、查询、分析、挖掘、共享等操作,记录内容包含操作账户、登录地址、操作时间、操作内容等,对于敏感信息的操作例如数据的导出、数据的共享等,还将记录原始数据内容,并且对数据追加数字水印。当数据出现泄露时,可以根据泄露的数据水印结合数据的操作日志进行审计与追责。

本研究基于糖尿病防诊治大数据中心的糖尿病专病数据,结合运营商用户互联网行为、位置等数据,构建糖尿病及其并发症协作研究平台,包括数据采集、存储、处理与分析、开放共享以及应用创建等方面研究。集成应用FTP、Kafka等数据采集技术以接口形式实现批量或实时从糖尿病防诊治大数据中心及联通大数据中心采集数据,通过ETL工具实现数据的清洗、转化;应用MySQL、HBase、Redis、HDFS等存储糖尿病专病及运营商数据;应用Hive、MapReduce、Spark等技术实现分布式计算与交互式分析,应用Storm、Spark Streaming等组件实现并行实时流数据处理;应用多租户架构实现数据共享;应用搜索引擎与文本挖掘等实现META分析;基于亲属关系预测模型实现糖尿病宣传知识精准传播;基于角色访问控制实现统一认证多权限管理;应用国密SM4对称加密、数据抑制、差分隐私等实现数据加密与脱敏;应用日志实现数据追溯。其中,涉及Kafka实时流采集、多租户数据共享、亲属关系预测模型与加密脱敏四个重点技术模型。

平台应用将充分结合云计算、大数据、物联网、人工智能、LBS(基于位置的服务)等技术,进一步加强对糖尿病的病患诊疗信息的感知、采集和整合;对涉及居民个人的健康医疗数据进行脱敏、脱密,构建一体化健康大数据智能分析平台,实现对包括糖尿病患者、家属的健康数据、医卫机构的糖尿病专病数据、医学研究数据等相关综合信息的集成与共享;通过对糖尿病专病大数据服务能力的分级、分权限开放,为医疗科研单位提供定向研发的糖尿病专病数据加工、处理、分析、统计、展示等一揽子平台技术工具。

四、结论

本研究通过加快建糖尿病及并发症专病防控技术突破,促进技术合理规范应用,为遏制糖尿病及并发症发病率居高不下的局面提供积极有效的科技支撑。将糖尿病及并发症专病预防策略从机会性发现高危人群转变为全民高危人群发现,改进我国糖尿病一级预防策略,填补我国糖尿病预防研究领域的空白;同时构建个体糖尿病及并发症风险预测模型,实现防诊治策略创新。通过糖尿病信息化科研管理平台与传播体系的创建实施,将提高我国对建糖尿病及并发症专病防控及预防的技术水平;糖尿病及并发症专病大数据平台的建立,将为医疗健康管理部门提供有力的科学决策的依据,助力健康中国的建设,提高我国居民的幸福感和获得感。同时通过该研究,将可以规范糖尿病患者治疗与管理,强化医疗大数据的服务能力,创新医疗大数据的服务模式,提升糖尿病及并发症专病的防诊治水平。

参考文献:

[1]俞俊亚,张卫林,张倩,夏学经.西山区结核与糖尿病患者防治知识知晓率分析[J].糖尿病新世界,2017(17).

[2]朱建波,李萍,于炯,廖彬.改進的Kerberos协议在HDFS环境下的研究[J].计算机工程与设计,2014(10).

猜你喜欢
脱敏租户加密
激光联合脱敏剂治疗牙本质过敏症
变应性鼻炎行标准化舌下脱敏治疗的护理体会
日本租房歧视跟种族有关
多租户管理技术在运营管理系统的应用研究
保护数据按需创建多种加密磁盘
谷歌禁止加密货币应用程序
加密与解密
一种基于安全标记的多租户访问控制方法
我国公租房保障的退出机制研究
慎用脱敏牙膏