中医药人工智能领域知识系统构建研究进展报告

2021-03-05 10:16任秋静温川飙
世界最新医学信息文摘 2021年8期
关键词:医案术语本体

任秋静,温川飙

(成都中医药大学,四川 成都 610075)

0 引言

人工智能是一门交叉学科,通常视为计算机科学的分支,研究表现出与人类智能(如推理和学习)相关的各种功能的模型和系统[1]。其研究领域包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能技术目前应用于各个领域,产生了各类与其相关的交叉学科。而作为新兴交叉学科之一的中医药信息化发展至今,已经形成了诸多喜人的成果,人工智能与中医药结合的应用研究在不断成长和突破。

中医药在人工智能的研究和应用上尽管有所发展,但仍远落后于西方现代医学。我们在知网检索中以人工智能为主题共检索到158587 条结果;以“人工智能医学”为主题检索到2152 条;而以“人工智能中医”为主题则检索到598 条,在医学领域占比约27%。通过中国知网发文趋势统计图(图1)可以看出“人工智能中医”文献数在2016 年以后显著增涨。因此我们选取了2016 年至2020 年间关于知识系统构建方向的论文按照基础本体和分科知识系统两部分进行归类总结和梳理。

图1 中国知网“人工智能中医”发文趋势统计

1 基础本体构建

2016 年孙静等[2]构建了症状本体表达模型。研究依据中医诊法划分症状本体类,症状本体类属性共23 个。同时构建了症状本体实例库,采用“ICD”的多轴分类思想,将本体类及其属性等24 个方面作为症状分类轴心,症状内涵可由24个轴心及其值组合表达,并采用分类与编码技术对症状实例进行了编码。对部位、色、病症等参照症状本体类划分方法,构建了相应属性值的层次结构。用C/S 模式研制了症状数据采集系统,探索了一条症状本体应用路径,在人机交互的模式下采集症状信息,以结构化、规范化的形式保存、导出症状数据。该数据可用于多角度挖掘利用。但是症状本体表达模型并未考虑到舌诊、脉诊症状表达,且还存在属性分类不够完善、阴性症状、复合症状无法表达等不足。症状本体表达模型的建立同样是对本体研究方法进行了探索。

2017 年袁玉虎等[3]结合中医临床病历(以现病史为主)和PubMed 题录文献文本开展症状表型命名实体的抽取方法研究,通过构建的较大规模语料集和未标注数据,进行了基于Bootstrapping,分类学习(条件随机场和结构化支持向量机)和特征学习(词嵌入与网络嵌入)等多种方法,在人工审核和数据预处理的基础上,构建了包含1200 个以现病史为主的中医临床病历标注语料。研究表明基于深度表示的症状表型实体命名抽取方法在未标注语料的整合与性能方面都存在较大优势,已经具备一定的中英文命名实体抽取实用价值。该研究是对本体构建方法的又一探索。

2018 年贾李蓉等[4]对原中医临床术语系统进行优化,发布中医临床术语系统 v2.0(TCMCTS v2.0)。该研究基于系统整体框架的构建原则,参照中医病证相关国家标准、教材及医院实际分科情况,对中医临床术语系统 v2.0(TCMCTS v2.0)病证分类体系进行探讨研究,形成中医疾病一级分类9 个,证候一级分类 10 个;并根据临床实用性和证候概念的自身特点,形成了证候类概念多维度归类的原则,使之更加贴近临床使用需求。朱彦等[5]从应用角度分析了临床术语集支持语义表达、多来源术语集融合、多维度查询统计、语义查询推理及轻知识库的等5 种不同表达层次和需求,对中医临床术语系统进行内容上的扩展和技术上的更新,特别是对切合临床做出了调整,使之能支持临床电子病历规范化录入;支持临床文献进行语义标引;含有药物编码分类;与其他术语映射,实现跨领域的语义查询检索。这是对中医临床术语在内容上和技术上的完善和发展。

王琼等[6]构建了中医症状本体知识表示模型。研究参考已有中医语料库的构建方法和标注规范,构建了适用于症状术语获取的语料,并通过分析中医临床病历文本中症状术语的构成模式,提出了利用术语构词模式来中医症状术语进行自动获取的方法,一种基于泛化模式与统计特征相结合的方法,从中医临床病历中进行症状术语的自动获取。在获取了大量临床症状术语后,结合《中医临床常见症状术语规范》和《中医症状学研究》两部中医著作中收录的症状术语,利用本体构建方法,以中医四诊为顶层分类概念,构建了中医症状本体知识表示模型。该研究是针对本体本身内容的构建和扩展的研究。

陈璟等[7]对基于聚类的中医临床术语语义关系进行了研究。运用本体技术,从关系模式、句法模式、聚类模式等层面,提出一种基于多百科结合互补的方法,用以构建适合语义关系研究的中医临床语料库。并结合同义词词林的特性,对句法模式的泛化方法展开研究。采取聚类和句法模式相结合的方法,对中医临床术语实体之间的语义关系进行归类,并根据聚类结果重新构建语义框架。该研究是对本体本身内容的研究,通过归类对语义框架做出了优化。

2019 赵立鹏等[8]进行了面向中医文本的关系抽取技术研究。研究内容总体上围绕“实体”和“关系”两个概念展开。首先研究中医文本实体识别的方法,采用了双向长短记忆神经网络和条件随机场相结合的模型来实现对于中医文本实体对的识别。其次研究中医文本实体关系抽取的方法,使用基于深度学习原理的关系抽取算法实现文本实体关系特征的自动抽取,针对中医文本的概念模糊化、语言抽象化、通假字、实体名偏长、一词多义和多词一义等特点和难点。采用了门控制循环单元与卷积神经网络,并引入注意力机制,其中门控制循环单元是长短记忆神经网络的一种改进,减少了训练参数,提高了模型训练的速率。该研究对实体与关系从研究方法上进行了改良与扩展。

肖猛等[9]面向中医证候的健康领域知识图谱构建进行了研究。该研究对知识图谱内的核心实体进行了定义,然后根据实体的特点对实体间的语义关系进行了定义,并构建领域本体完成对知识图谱数据模式的定义。针对命名实体识别过程,提出了一个基于词向量拼接的实体识别。此外,基于构建的知识图谱提出了一个语义检索模型,并提出了面向中医健康管理的语义检索模型,该模型比传统的基于关键词的信息检索方式的模型可以更好的理解用户的检索意图。基于此,团队成功构建了一个以中医健康领域知识图谱为基础的健康管理平台,该平台主要分为两个部分:面向领域专家提供了概念管理、实体管理等功能;面向用户提供了知识检索以及自动问答等服务。该研究扩展了本体内容,使得本体内容从疾病诊疗延伸到健康管理。

2020 年邓宇等[10]构建关联型知识数据库和“多维度”中医药知识共享服务。该研究基于Docker 的分布式服务模式部署平台整体架构,利用轻量级虚拟化技术实现资源隔离,并将各种环境依赖和应用统一打包,多个业务系统独立部署在Docker 容器中,将复杂的应用系统拆分成多个功能单一、业务逻辑简单的服务进行独立部署。依据中医药术语词库为基础创建搜索引擎,采用知识图谱的形式将文献信息中蕴含的病、症、证、治、方、药等各知识节点进行关联呈现。利用关键词库建立索引技术,实现跨库、跨字段精准检索,使用知识图谱技术,构建融合国医大师专科专病用方经验、名老中医医案、中医常用方剂、常见病诊疗指南、中成药等中医药特色的关联型知识数据库。该研究是中医药知识数据库构建和共享方法的又一拓展。

2 分科知识系统构建

2016 年袁锋等[11]对中医医案文本挖掘进行研究。该研究把人工蜂群算法应用于中医医案本体库的构建。设计基于人工蜂群算法的本体学习技术,通过中文分词技术、互信息及规则过滤等策略,以医案中的中医四诊、中医诊断、西医诊断、证型、治法为信息语料进行分析、验证,设计概念提取方法,同时利用小生境技术的融合、演化算法丰富种群的多样性构建本体。应用条件随机场、基于本体的修正及特征模板的修正方法对中医医案命名实体进行识别,构建基于本体的中医医案命名实体识别算法。并设计了一种基于词共现组合的中医医案向量空间模型。利用关联规则算法抽取出中医医案的二阶词共现组合,定义词共现的度量方法,构建基于词共现组合的向量空间模型。还提出一种基于萤火虫算法的中医医案文本聚类算法。引入粒计算思想,通过适应度变化情况动态确定萤火虫算法的迭代和模拟退火算法的抽样,扩大模拟退火的扰动增加种群的选择范围。该研究是对本体构建从研究方法上的一大探索。

2017 年王斯琪等[12]对中医舌象、脉象本体构建进行了研究。研究按照七步法构建中医舌象、脉象本体,从已发布的标准、《中医药学名词》、《中医症状学研究》、《中医症状鉴别诊断学第二版》中收集舌象、脉象术语,进行去重和同义词整合处理。然后采用自上而下的方法初步确定分类框架,再从术语中提取属性值自下而上聚类,确定本体类、属性及约束,利用Protégé 进行舌象、脉象本体的编辑。利用信息分类与编码技术,以属性组合的代码形式对舌象、脉象本体实例进行表示,并构建实例库。根据分类框架和聚类结果划分了舌象、脉象本体类。促进了舌象、脉象信息的数据化、结构化。该研究从舌、脉本体内容和关系角度出发,成功构建舌、脉本体。

于琦等[13]对基于本体的中医医案知识服务于共享系统构建进行了研究。该研究从中医医案入手,以本体论为基础,采用语义网及自然语言处理方法,实现中医医案信息的获取与组织管理。在中医医案本体框架下构建中医医案术语体系,通过实体识别和本体映射的方式,从医案中获取诊疗信息,存储成为结构化数据库,并可实现医案的统一管理、检索和挖掘利用。研究探索了基于本体的中医医案信息获取方法,构建了中医医案知识服务与共享系统,实现了中医医案的信息抽取、数据库自动构建、管理和挖掘利用。该研究对医案服务共享系统进行了方法上的探索。

3 结语

综上所述,中医知识系统构建已初具模型,并且在基础本体建设以及各个分科领域建设都取得了成效及进步,其发展也越来深入和全面。

得出的结论是:(1)在中医药人工智能发展方面,知识系统的构建成果比较显著;其中基础术语构建已相当完备,并且在本体建设的基础上开展了诸多更进一步的研究,其中包括古籍整理、医案挖掘以及舌像本体构建,接下来的研究可以从各个分科对中医药本体进行更加完备和全面的研究与构建。(2)对于本体发展的研究,研究人员主要从基于本体本身和本体研究方法两个方向开展研究。在本体发展过程中,本体内容在逐步丰富,本体研究方法以及方向都在不断改良和扩展。同时可以在更加便捷和实用的本体研究方法上做出进一步的探索。

从目前的成果来看,机器学习、自然语言处理等当下火热的人工智能技术应用于知识系统的构建对中医药人工智能的发展进行了积极地促进作用。中医药知识系统的构建与完善还需要更多的研究人员进行探索与研究,以期成功实现中医药的传承和现代化发展。

猜你喜欢
医案术语本体
基于Python语言构建名中医医案数据挖掘平台
基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究
中医医案方剂多维相似度算法设计与探索
眼睛是“本体”
一种基于社会选择的本体聚类与合并机制
专题
Care about the virtue moral education
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
奇症医案两则