基于Citespace 知识图谱的医疗大数据可视化分析

2019-09-20 01:51陈建昌
创新创业理论研究与实践 2019年16期
关键词:数据挖掘聚类领域

陈建昌

(重庆市医药卫生学校,重庆 408000)

大数据特征为:一是数据量大,起始计量单位至少是P (1 000 个T) ;二是数据类型繁多, 包括表格、图片、文本信息等;三是数据价值密度相对较低, 需要强大的机器算法迅速完成数据价值的“提纯”;四是处理速度快, 时效性要求高[1]。

医疗大数据指的是在医疗行业中产生的大量数据[2]。如何利用这些海量的信息资源为医疗卫生行业的管理、医院的诊疗、科研和教学服务,逐渐成为人们关注的热点[3]。 为此,该研究以中国知网为检索源,借助Citespace 可视化分析软件,以共现、聚类、突现的新视角对近十年来国内医疗大数据相关文献进行关键词分析,旨为国内相关学者提供参考。

1 数据与方法

1.1 数据来源

以中国知网为数据来源。在中国知网中,限定主题为“医疗大数据”,时间为“2009—2019”,共得到747 条记录,去掉新闻报道及信息不全的74 条记录,共分析了673 条记录。 下载全部文献题录并以refworks 格式保存作为数据集。 检索时间为2019年4月16日。

1.2 研究方法

采用文献计量学方法并运用Citespace 5.3.R4 信息可视化软件,对国内医疗大数据研究进行分析。文献计量学就是借助文献的各种特征数量,采用数学与统计学方法来进行描述、评价和预测科学技术的现状与发展趋势的科学[4]。 Citespace 是由美国德雷塞尔大学信息科学与技术学院陈超美博士开发, 运用共现、聚类、突现的方法对文献进行可视化分析的Java 应用程序。 该研究设置阈值:Slice Length =1,Selection Criteria选择TOP100,选择“Keyword”节点分析了医疗大数据领域近十年来的研究热点及前沿。

2 结果与分析

文献中的关键词是文献内容中重要信息的体现,是该文献内容中出现频次相对较高的核心词汇的代表,是反映文献内容的重要标签之一[5]。 研究文献关键词的共线、聚类网络,可总结出近年来的研究热点。

研究文献的突变词可预测该领域的研究前沿。 某主题一段时间内的突变词是该领域热点突然增长的标志,是该主题未来发展趋势的重要量度。 CiteSpace 软件将词频变化率高的术语从大量的术语中检测出来,依靠频次的变动趋势来确定某领域的研究前沿, 其内嵌突变词算法思想主要源于2003年KLEINBERG 提出的“突变侦测算法”。突变的大小用突变值表示,突变值越大,表明与该突变词相关的主题发展趋势越明显。

2.1 关键词共现

从关键词共现图谱(见图1)可看到,除去检索词“医疗大数据”,健康医疗、数据挖掘、医疗数据、健康医疗大数据、人工智能、大数据应用、医疗健康、云计算、智慧医疗等词字体较大, 反映出医疗大数据的主要研究热点为数据挖掘、人工智能、大数据应用、云计算及智慧医疗等方面的内容。

2.2 关键词聚类

医疗大数据研究领域关键词被聚类成7 类(见图2),聚类标签为:大数据、全民健康、数据采集、大数据应用、电子病历、大数据平台、信息平台。提示国内医疗大数据的研究热点为医疗大数据的采集、平台搭建及应用。

2.3 关键词突现

近十年来该领域的突显词共有3 个(见图3)。 分别为:大数据、医疗、云计算。 突变年份都为2013年至2015年。 提示随着医疗大数据的深入研究,数据存储及运算(云计算)开始成为该领域的研究前沿。

图1 医疗大数据研究领域关键词共现图谱

图2 医疗大数据研究领域关键词聚类图谱

图3 医疗大数据研究领域关键词突现

3 讨论

通过以上可视化分析, 得出医疗大数据的研究热点为数据采集及大数据平台搭建、数据挖掘、人工智能、大数据应用、云计算及智慧医疗;研究趋势是云计算。

分析医疗大数据研究热点及趋势的形成原因,可以看出我国医疗大数据的发展任重而道远, 需要结合大数据的特征不断进行探索。

3.1 数据采集及大数据平台搭建

大数据有数据量大、数据类型繁多的特征,且医疗领域的大数据覆盖范围很广, 相应的数据资源分散在不同的数据池中,信息孤岛普遍存在。 因此,迫切需要搭建医疗大数据平台,从而有针对性地采集、存储海量医疗数据,并且进行标准化处理,让医疗数据在聚合、分析后,能够驱动临床医学、精准医学等实践应用。 此外, 医疗大数据信息的采集不可避免会和患者隐私产生冲突,因此,在大数据采集的工作中,如何平衡信息安全与数据共享之间的关系, 也是广大研究者的讨论重点。

3.2 数据挖掘及大数据应用

由于大数据价值密度较低, 医疗信息存在大量非结构化数据。如何进行有效的挖掘,需要强大的机器算法迅速完成数据价值的“提纯”工作。 在医疗大数据中使用数据挖掘技术, 不仅能够提升整个医疗事业的服务质量与水平, 还能提高治疗效率与质量。由此数据挖掘成为该领域的研究热点。此外,如何将医疗大数据用起来,目前面临着诸多挑战,包括:数据标准开发和应用、合理的数据技术、严格的数据安全、完善的数据治理、适宜的应用场景等。

3.3 云计算

由于大数据处理速度快、时效性要求高的特征,云计算可确保数据信息与后台同步,方便医护人员更加快捷地得到相关消息,提升医院信息使用率。 此外,云计算数据处理是当前运用最为广泛地数据处理平台,对于医疗大数据这种有巨大信息量的数据而言, 云计算数据处理拥有高效性、综合性、灵敏性等特点。 随着我国医疗事业的不断发展, 信息化建设的步伐不断加快, 大数据以及大数据处理技术的运用势在必行。

3.4 人工智能及智慧医疗

人工智能是应用数字计算机或数字计算机控制的机器模拟、延伸和扩展人的智能, 感知环境、学习知识,并进而应用知识获得最佳结果的理论、方法、技术以及应用系统。

智慧医疗是指顶层设计下的区域性医疗信息平台, 以互联网为载体, 以移动通信、云计算和大数据等新技术为手段, 在物联网框架下,实现医生与患者、患者与医疗机构、患者与医疗设备间的信息联通, 构建起人—人、物—物、人与物理社会间的实时和时时的诊疗信息互联互通。 而医疗领域的人工智能及智慧医疗的基础是医疗大数据。

4 结语

医疗大数据对于提升医疗质量,有效控制费用,保障医疗安全具有潜在的价值。 也可广泛应用于疾病流行预测,临床治疗服务,改善居民健康方式,对于提升人民健康福祉,满足人民日益增长的健康需求,可发挥出重要作用。 该研究对医疗大数据领域的关键词进行分析后得出:数据采集及大数据平台搭建、数据挖掘、人工智能、大数据应用、云计算及智慧医疗是医疗大数据领域研究的重点与热点, 需要各部门及相关研究者不断进行探索,以发挥医疗大数据的最大作用。

猜你喜欢
数据挖掘聚类领域
探讨人工智能与数据挖掘发展趋势
2020 IT领域大事记
基于K-means聚类的车-地无线通信场强研究
领域·对峙
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
一种基于Hadoop的大数据挖掘云服务及应用
新常态下推动多层次多领域依法治理初探