面向呼吸内科智能诊断模型研究

2019-12-05 08:35胡金鹏关毅
智能计算机与应用 2019年5期
关键词:电子病历深度学习

胡金鹏 关毅

随着科技的发展,智能医疗已经成为当下学界的热点研究内容。本文主要研究的是呼吸内科疾病的智能诊断,使用电子病历中的症状实体和异常检查结果实体来诊断患者可能患有的疾病。本文比较了不同的模型在该任务上表现,包括传统机器学习和深度学习。并且在深度模型中加入了不同的图表示学习方法以及提出了注意力机制来加强疾病和症状之间的联系。在实验中,本文提出的结合注意力机制和卷积神经网络以及外部向量获得了最优秀的表现。

关键词: 深度学习; 电子病历; 实体识别; 医疗信息; 智能诊断

【Abstract】 With the development of science and technology, intelligemt medical treatment has become a hot research topic in the current academic circles. This paper focuses on the intelligent diagnosis of respiratory diseases, using symptomatic entities and abnormal test results entities in electronic medical records to diagnose diseases that patients may have. The paper compares the performance of different models on this task, including traditional machine learning and deep learning. In addition, graph representation learning methods are added to the deep learning and attention, which is used to strengthen the relationship between disease and symptoms. In the experiment, the model which combines attention, Convolutional Neural Network(CNN) and external vector achieve the best performance.

【Key words】  deep learning; electronic medical record; entity recognition; medical information; intelligent diagnosis

0 引 言

針对每年国内到各类医疗机构就医人群的绝对数量十分庞大的现状,医疗人员通常都会面临巨大的工作压力。而且绝大多数的就诊患者都分布在基层医疗机构。然而国内医疗资源的分配却存在着不均衡性[1]。近年来,随着科学技术的迅猛发展,政府对于智能诊疗技术也给予了高度重视与支持。国务院发布的《新一代人工智能发展规划》中,明确指出了智能诊疗技术的方向和前景,其中包括了未来在该方面的各种新模式和新手段,能够通过人工智能技术在医疗领域的广泛应用来建立先进的智慧医疗系统。例如,在手术方面可以通过智能机器人来代替医生,也可以通过一些智能的穿戴设备来随时监测病人的体征以及其它方面的信息,还可以用计算机实现影像识别,协助医生进行决策。时下,智慧医疗正逐渐成为热词,一方面是因为人工智能技术在近年间取得了可观的进步,另一方面来自日趋迫切的医疗需求,所以需要寻求合理医疗方案,以及建设有效智能诊断系统,来协助医生做出诊断,进而降低管理成本和提高医疗水平。这对于完善医疗保健系统和降低人口老龄化的压力都有着至关重要的现实意义。

在医疗诊断中,决策支持系统可以帮助医疗从业人员评估疾病风险。迄至目前,在诊断方面,各类研究成果也已相继涌现。Curiac等人[2]使用贝叶斯模型去诊断精神类疾病。Lakho等人[3]使用贝叶斯网络构建肝炎诊断决策支持系统,从知识模型中推断出结论,计算乙型肝炎、丙型和丁型肝炎疾病发生的概率。Kukreja[4]比较了神经网络、基于C4.5算法的贝叶斯网络以及反向传播等方法在哮喘诊断上的效果。Lin[5]使用分类回归树(CART)和案例推理技术(CBR)来构建诊断模型。 Liang等人[6]提出使用深度学习抽取电子病历中的特征来辅助医疗决策。 Ogunleye等人[7]将随机森林和局部回归相结合来增强节点输出的分辨率,在自闭症诊断中有着较为出色的表现。

本文提出的诊断模型是基于电子病历。研究中,抽取电子病历中的实体,包括症状、异常检查结果、疾病等,再通过症状和检查结果来推断出病者可能患有的疾病。为此,本文的主要研究工作可简述如下。

(1)实体识别。需要从自由文本的电子病历中抽取相应的实体。文中使用了LSTM-CRF模型,并且提出了将词向量和字符相结合的方法。

(2)电子病历中实体向量的生成。电子病历中的实体之间是存在关系,为此文中采用了图表示学习方法,同时采用了deepwalk[8]学习实体的向量表示。

(3)诊断模型的研究。本文对比了不同的模型在诊断上的表现,包括深度学习和传统的机器学习,而且提出了将attention引入到深度学习模型中的方法。

1 实体识别

实体识别是自然语言处理的信息抽取研究中的一个基础性的项目课题。总地来说,就是指在文本中抽取具有特定含义的信息,在CoNLL-2002、CoNLL-2003两届会议上将命名实体定义为包含特殊含义的短语,具体就是诸如人名、地名、机构名、时间等短语。本文中,实体识别研究主要是抽取电子病历中的相关实体。为此就会用到疾病、症状和异常检查结果等特征表述[9]。不同实体在电子病历中出现的实例详见表1。

实体识别是典型的序列标注任务。这里,采用的是基于双向LSTM-CRF的模型构建。LSTM是改进的RNN单元,主要通过输入门、输出门和遗忘门来控制信息的传递。研究中采用模型的主题设计结构如图1所示。

同时,还在Embedding层做出了改进,将基于字符的向量加入到每个词的表示中。基于字符的向量生成如图2所示。

由图2分析得知,该向量由2部分组成。一部分由LSTM产生,另一部分由CNN产生。每个词都是由字组成的序列,故而可使用LSTM来抽取词的序列特征。考虑到CNN在抽取局部特征有着较强的能力[10],本次研发中使用了CNN来抽取每个字的n-gram 特征。

2 基于深度学习的诊断模型

基于深度学习诊断模型结构如图3所示。在图3中,P = [w1, w2,…, wn]为一个患者的所有症状的索引。研究中,需要通过Embedding层将这些症状转化为向量。在将这些向量送入卷积层之前,需要对这些向量进行Attention处理。在此,使用的向量是疾病向量和症状之间加入了注意力机制。通过将不同疾病生成一个疾病向量表,在训练过程中可将每个训练数据的标签从疾病的向量矩阵中根据索引值获得相关的向量,接着将症状向量和疾病向量加以Attention处理。对该过程可阐释详述如下。

3 实验结果及分析

研究中,对于不同实体识别方法的效果对比见表2。由表2可以看到,当加入字符级的词向量时,模型的表现为最佳,达到了0.959 7。而基于LSTM的实体识别模型的表现最差,则是因为LSTM没有考虑到输出标签之间的联系,因而会出现一些不可能的错误。例如,“B-diseasae”后面的词的标签不可能是“I-test”。“B-diseasae”后面的标签只能是“I-disease”、“B-XX”或者“O”。但通过仿真结果讨论后可知,如果将LSTM后面加上CRF层就会避免该类错误,还可以发现字符级特征在实体识别上也是有效特征,能够更好地表征各个单词的含义,从而提高了实体识别的效果。

不同诊断模型的实验结果对比见表3。由表3可以看到,在top1的表格中,CNN-attention- deepwalk获得了最好的效果,这说明CNN能够有效抽取症状特征,当加入外部词向量时也大大提高了模型的准确度。但就总体来说,所有算法的运行效果都较差,这是因为大多数疾病的数据都很稀疏。本次研究得到的疾病频率统计结果如图5所示。由图5可知,高达79%的疾病在本文选取的数据中出现的次数都不超过5,频数超过30的疾病仅占据所有疾病的8%。

研究过程中发现,当从top1指标转换为top2和top3时,模型的准确率有了显著提升,这就说明本文研发的模型能够有效地提取特征并做出准确诊断。

4 结束语

随着智慧医疗热潮的到来,越来越多的人开始重视人工智能在医疗领域的应用。每年的就诊人次也在快速地增长,当前的医疗资源建设、尤其是基层医院,已难以满足人民群众的就医诊治需求。智能

诊断发挥着越来越重要的作用。本文提出了使用

人工智能技术对呼吸内科疾病进行诊断,并对比了不同模型在该任务的表现。同时,也提出了使用CNN以及Attention机制来诊断呼吸内科疾病,在所有模型中获得了最优的表现。但是整体的准确度还未能达到实际应用的水平。此后,还需要采集更多的数据来训练模型,也要解决数据倾斜的问题。

参考文献

[1]梁玮佳,唐元懋. 我国卫生资源配置的空间非均衡研究[J]. 卫生经济研究,2018(9): 66-71.

[2]CURIAC D I, VASILE G, BANIAS O, et al. Bayesian network model for diagnosis of psychiatric diseases[C]// Proceedings of the ITI 2009 31st International Conference on Information Technology Interfaces. Croatia:IEEE, 2009: 61-66.

[3]LAKHO S, JALBANI A H, VIGHIO M S, et al. Decision support system for hepatitis disease diagnosis using bayesian network[J].Sukkur IBA Journal of Computing and Mathematical Sciences,2017, 1(2): 11-19.

[4]KUKREJA S. A comprehensive study on the applications of machine learning for the medical diagnosis and prognosis of Asthma[J]. arXiv preprint arXiv:1804.04612v1,2018.

[5]LIN R H. An intelligent model for liver disease diagnosis[J]. Artificial Intelligence in Medicine,2009, 47(1): 53-62.

[6]LIANG Z, ZHANG Gang, HUANG Xiangji, et al. Deep learning for healthcare decision making with EMRs[C]//2014 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Belfast, UK:IEEE, 2014: 556-559.

[7]OGUNLEYE A, WANG Qingguo, MARWALA T. Integrated learning via randomized forests and localized regression with application to medical diagnosis[J]. IEEE Access, 2019, 7: 18727-18733.

[8]PEROZZI B, Al-RFOU R, SKIENA S. Deepwalk: Online learning of social representations[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2014: 701-710.

[9]楊锦锋, 关毅, 何彬, 等. 中文电子病历命名实体和实体关系语料库构建[J].软件学报, 2016, 27(11): 2725-2746.

[10]KIM Y. Convolutional neural networks for sentence classification[J].arXiv preprint arXiv:1408.5882, 2014.

猜你喜欢
电子病历深度学习
电子病历保全与认证研究
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
现阶段电子病历问题的探讨及改革
住院电子病历在我院的应用和推广
电子病历临床信息系统的解决方案