中医症状规范化、标准化研究进程及问题探讨

2024-01-10 02:11文志华刘青萍苏祥飞陈佑邦晏峻峰彭清华
湖南中医药大学学报 2023年12期
关键词:词表同义诊断学

文志华,肖 莉,刘青萍,苏祥飞,陈佑邦,晏峻峰,*,彭清华*

1.湖南中医药大学信息科学与工程学院,湖南 长沙 410208;2.湖南工业大学计算机学院,湖南 株洲 412000;3.湖南中医药大学中医诊断研究所,湖南 长沙 410208;4.中华中医药学会,北京 100029

中医症状(体征)是临床诊疗信息的重要载体,是中医辨证论治的主要依据。 在中医历代发展过程中,由于环境、流派、语言等多方面影响,临床上存在医者针对患者同一临床表现表述不一等情况, 致使中医没有统一的、规范的症状表述。中医症状的规划化、标准化是一项高难度、繁任务的工作,虽然有一些学者多次呼吁对此展开深入研究[1],但中医各方暂未达成统一认识,也暂无颁布中医症状相关的国家标准。 中医症状标准化、规范化的缺失,阻碍了中医诊断学症状规范化的深入研究,也制约了中医诊断智能化的进程。 国家《“十四五”中医药发展规划》[2]《中医药振兴发展重大工程实施方案》[3]中强调要加快中医药信息化、智能化诊疗技术研究,因此,规范、标准的中医症状信息是中医信息化、智能化研究的必要基础,亟待展开深入研究。

本文以“中医症状规范化”“中医症状标准化”为主题在中国知网全文数据库中检索自2000 年1 月1 日至今的文献,从搜索结果中筛选中医学、计算机软件及计算机应用、图书情报与数字图书馆科目类,去除实验、临床研究文献,对获取的82 篇文献进行研究,发现中医数字化、智能化,中医药国际化传播,中医信息化系统等对中医症状规范化、标准化研究有积极推动作用。 同时,本文对中医标准症状命名、症状客观性、症状粒度选择等问题展开探讨,并从信息化视角对中医症状规范化、标准化研究进行了思考。

1 影响中医症状规范化、标准化研究的因素

中医症状规范化、标准化旨在为中医诊断提供统一的标准,以确保医生对同一症状的理解和处理方式保持一致,同时为中医信息处理提供统一规范。通过对相关文献研究发现,推动中医症状规范化、标准化研究的主要因素是中医现代化、数字化、智能化研究的不断前进,其中包括中医信息化系统的普遍使用、中医数字辨证、中医智能诊疗等相关研究的兴起。同时,中医症状标准化工作还受到中医诊断学自身发展以及中医药国际化传播的影响。

1.1 中医现代化、数字化、智能化研究对中医症状规范化、标准化的影响

早期进行中医诊疗系统研发时,需要对症状进行数字化处理,专家虽认识到规范症状的重要性,囿于当时信息化水平的限制,症状标准化、规范化工作推进较为缓慢。 随着中医数字辨证、计量诊断、智能诊疗的不断推进,研究者们进一步认识到症状规范化、标准化工作的迫切性,提出了症状规范方案并呼吁建立中医症状标准[4-7]。 同时,中医医院信息化系统、电子病历的发展与普遍使用,对症状规范化有了进一步的需求[8]。 中医四诊信息化、客观化研究需要有规范的四诊信息作为基础,也进一步推动了中医症状标准化工作的发展[9]。

1.2 中医诊断学科的进一步研究促使中医症状的规范化、标准化发展

症状是中医诊断学中最基本的内容,是中医诊断体系中最具体的要素,规范的中医症状是中医辨证论治的基础和必要条件[10]。同时,症状规范是制订诊断标准、观察疗效等的首要条件,通过症状的规范化有助于提高诊病、辨证的准确性[11],这种内在需求促进了症状规范化的研究。与中医诊断相关的历代著作中,症状多存在概念模糊、内涵外延不准确、表述不精确、症状术语含义不一等[12]问题,中医诊断学的研究者们在解决这些问题的同时,客观地推进了中医症状规范化、标准化工作的发展。

1.3 中医症状规范化、标准化工作受中医国际化传播的影响

在中医药国际化传播过程中,首先需要中医类的外文教材与典籍对其中大量中医术语提供准确的翻译,然而中医学自身存在的概念模糊、一词多义、一义多词、词义演变等问题是中医术语翻译的难题,此类问题的解决都有赖于包括中医症状规范在内的中医诸多标准的支持,这种需求一定程度上加快了中医症状规范化、标准化工作的制定进程[13-14]。

2 中医症状规范化、标准化研究进程

朱文锋教授在研制中医数字辨证机、WF 文锋-Ⅲ-中医诊疗系统[15]过程中,发现中医症状、体征规范化的重要性与必要性,并在主持制定国家《中医临床诊疗术语》标准(GB/T 16751.1—1997)时力推纳入中医症状标准[16],其后出版的《证素辨证学》中包含症状、体征等信息637 项[17],涵盖了内、外、妇、儿科的常见病理信息,基本能满足中医全病域疾病的辨证,事实上已成为了早期中医症状的参考标准。此后,有学者再次提出建立“症状体征”国家诊疗标准,认为《中医临床诊疗术语·症状体征部分》国家标准的颁布有助于解决中医症状体征不规范的问题,能为相关数据库的建设、标准化电子病历的推广奠定基础[7]。

随着中医数据挖掘、中医智能化等研究的发展,学者们在中医症状规范化、标准化领域展开了深入研究。 在中医症状标准数据库构建上,以《中医临床常见症状术语规范》、《常见症状中医鉴别诊断学》、国家标准《中医临床诊疗术语·证候部分、疾病部分》中症状术语为数据源,经数据变换、数据集成操作后建立了包含3061 条症状术语记录的中医症状术语体系数据库[18];或从“六异识候”症状标准化理论体系出发,提出症状标准化路径,采用LFText 与TextCNN 模型进行症状自动分类,并构建了标准化症状数据库以及各类标准化症状描述公式数据库[19-20];为了梳理中医症状本体知识分类体系,另有学者在《中医诊断学》教材基础上建立了包含24 个属性的症状表示模型,将该模型在电子病历中进行关联分析且取得了良好效果[21]。 除了相关的书籍外,病案、方剂主治条文也是构建中医症状词库常选取的资源,或在症状学相关书籍基础上,同时利用12 万首历代方剂的主治原文,通过构建中医症状词库、中文分词、人工标记、解析复合中医症状、整理同义词等方法,构建了中医症状术语标准及其分类体系[22]。

症状同义词在症状规范处理中具有重要意义。 比如不同医家的医案里描述同一个症状时的词汇不一,在进行医案知识提取过程中,需要将同义词症状映射到统一的标准症状上,以方便后期知识加工与应用。 为了扩充中医症状词表,有研究者利用Word2vec和FastText 技术,在超90 万的中医药分词词典基础上,对700 本网上开源中医古籍进行分词,较大地扩充了中医症状词词表,为中医临床决策支持系统提升性能[23]。 症状同义关系预测是症状标准化处理过程中的关键一环,研究者们运用多种不同的技术与方法对此展开了研究。 如在利用《中医症状鉴别诊断学》《中医症状学研究》《中医药学名词》3 部中医专著构建症状概念名称、来源信息表以及症状同义关系标准数据集后,提出了基于症状特征相似度的症状同义关系预测方法[24];基于BERT 模型提出了一种症状词的向量表示及其欧氏距离相似度计算方法,并进行同义词合并处理,为中医疾病辅助诊断以及处方推荐研究奠定基础[25]。 为了解决症状标准化过程的异名同义问题,有学者提出了一种基于预训练语言模型的2 阶段症状标准化框架,利用多标签分类对原始症状词进行语义划分后得到相应语义标签下的候选标准症状词,并对候选标准症状词采用策略进行二次召回以提升性能,较好地解决了中医症状标准化过程中的描述词异名同义、一对多的问题[26-27]。

3 存在的问题及讨论

中医研究者们认识到中医症状规范化、标准化的重要性与迫切性,对症状标准的制定发表了许多有见地的看法,中医症状规范化、标准化是一项具有挑战性的复杂工程,其面临的主要挑战包括命名标准症状、症状客观性、症状粒度如何选取、症状量化方式等。

3.1 标准中医症状名的确立

标准症状名的确立是中医症状规范化、标准化的基础。受医者所处朝代、地域、流派等因素影响,同一个内涵的症状往往有多个症状名称。 如“小便不利”在历代中医医案中有642 种不同的描述,“腹泻”有1864 种不同的表述方式[28-29]。 因此,解决中医症状一义多词是症状标准化工作的一项主要内容。 如何确定某症状名为其标准症状名称,不同学者持不同看法,目前,主要分为2 种:第一种观念是以刘保延等[29]为代表提出的,认为标准选择症状应该遵循内涵最小独立症状原则,将中医症状划分为概念词组、描述词组和派生词组3 种类型;另一种观念则是以刘旺华、黎敬波等[30-31]为代表提出的,认为中医标准症状应该满足中医症状鉴别诊断以及辨证、诊断疾病的需要,应从实际含义相同的症状名中选定最恰当、最符合语言习惯的作为其标准症状名。通过内涵最小独立症状组合方式命名症状的优势在于通过派生词可以涵盖几乎人体所有症状和体征,且症状逻辑关系清晰,能有效避免冗余信息,但此种分类方式容易造成症状分类深度较深,标准症状数量过多,进而使得智能诊疗模型训练中症状特征数过大。 第二种中医标准症状命名方式利用了已有临床症状名称优势,比较符合医者习惯用语,但其逻辑关系方面不如第一种方式。本研究认为,可以在第二种方式上对症状名称梳理出一级分类,在小分类中结合内涵最小独立症状进行组合,比如在舌象上,可以按照最小独立症状,即舌的颜色、质地等信息进行划分。

3.2 中医症状客观性定义表达

中医症状的客观性是指症状仅表达患者客观存在的症状及体征,不应该包含诊断、证型、疾病等信息在内。 由于历史的原因,许多中医症状命名既有人体的症状信息,还包含了病机、诊断的信息。 比如阴虚盗汗,阴虚是病机,是由盗汗反推的一种结果,不应该出现在症状名称中。 对于盗汗的定义,应该只给予客观症状的描述,如“盗汗是睡眠中不自主的异常出汗现象,通常在深夜及黎明前明显,而睡醒后就会停止出汗”。 所以,尽量保证症状的客观性,让症状如实地、准确地反映出患者的身体状态信息,是症状标准化的一个基本原则。

3.3 症状粒度选择

症状粒度是指症状的不同层级或症状的不同派生级别,比如疼痛、手痛、手指痛、小手指痛、手指关节痛就属于症状的不同粒度,其中“疼痛”症状粒度最粗,“手指痛”的症状粒度较细,“小手指痛”的症状粒度最细。 张启明等[32]认为对于区分不同疾病状态具有借鉴作用的生命现象称为症状,提出内涵最小独立症状概念,其内涵最小是指症状部位或症状性质的内涵最小,但不一定是粒度最小,其提出462 个独立最小症状单元,如腹痛是其中一个最小症状单元,但是脐腹、小腹、少腹的刺痛、绞痛、攻冲痛、剧痛、隐痛都是发生于腹内的疼痛,习惯上统称为腹痛。 对于中医智能诊疗模型构建来说,若只采用“腹痛”作为症状,那么将失去如少腹痛、小腹痛等症状的内涵。 因此,标准症状粒度的选择不能太粗,太粗则会丢失诊断内涵;标准症状粒度选择也不能太细,太细则导致症状词表太大,不利于后续智能诊疗模型训练。

3.4 中医症状量化的程度

症状量化是指同一个概念下的症状可以表现出不同的程度,比如疼痛可以有不一样的程度,不同程度量化的症状,往往对鉴别诊断具有重要意义。 中医症状本身有一些名称具有量化区分度,如口渴有微渴、大渴之别,发热有微热、壮热之别,但是这种描述方式比较模糊,不符合计算机对精确性的要求。朱文锋教授在《证素辨证学》中曾进行过轻、中、重的简单量化,也有研究者将症状分为轻度、中度、重度和严重4 级[17,28]。 此外,症状还有时间维度的量化,如对疼痛缓急的描述,有长期疼痛、急性疼痛之别,时间维度的量化对鉴别诊断有重要意义。 当然,并不是所有症状都适合此种方法进行量化,一些心理、精神类症状主观性较强而往往无法进行精确量化,此类主观性较强的症状多采用量表法进行量化[33]。 中医症状的量化有助于中医辨证论治的精确化, 对临床实际也有积极意义。中医症状的量化工作,应该在大量中医症状样本的基础上进行分析,充分利用信息技术手段和中医专家的智慧,建立统一的符合临床的症状量化标准。

4 中医症状规范化、标准化研究方法

4.1 症状规范处理中的常用技术

中医症状规范化、标准化研究常基于中医医案而开展,从医案中筛选出海量症状词汇,根据中医诊断学知识及专家经验,确定标准症状词汇,归纳症状同义词词库,后期可以继续深入挖掘症状与证候、病机等之间的关联关系。 在上述从医案中提取症状和同义词归纳2 个步骤中,有人工和自动处理2 种方式,目前,大多数同时采用自动辅助与人工审核相结合的方式来开展研究工作。

从海量的医案数据中提取中医症状,主要采用的是自然语言处理领域的命名实体识别技术。 中医症状命名实体识别是指从包含中医症状的医案、方剂条文等文本数据中识别出症状实体,并进行类别判断,常用的技术主要有条件随机场、隐马尔可夫模型、 支持向量机以及深度学习类技术如双向循环神经网络、基于Transformer 的Bertology 系列模型[34-36]。提取到海量症状词汇后,需要对症状词汇进行规范化处理,将其以同义词的方式纳入到标准症状词中,由于提取症状词汇数量巨大,难以采用人工处理方式完成,需要借助计算机算法进行同义词归纳的自动化处理。在同义词归纳自动化处理中,主要有基于相似度计算和预测模型2 类方法。其中,利用欧氏距离计算症状词向量之间的相似度是最常用的方法,亦有在症状关系网络基础上再进行相似度预测的方法[24-25]。 基于预测模型的方法首先需要进行部分症状数据标注,在预训练模型的基础上进一步训练,得到症状同义关系预测模型进而进行症状同义关系判别[26-27]。

4.2 构建标准症状词库

中医症状规范化、标准化的核心在于构建标准症状词库。本研究认为,标准症状词库应该包含如下几个部分:标准症状、标准派生症状、同义症状、标准症状描述。 其中标准症状指的是多个同义症状中最符合临床语言习惯而被选为标准的症状名称,比如失眠、不寐、不眠等同义症状中选取“失眠”作为其标准症状,如腰痛、腰疼、腰疼痛、腰脊痛、腰痛楚等同义症状选取“腰痛”作为其标准症状。 标准派生症状指的是当前标准症状的下一级或被包含的标准症状,比如腹痛包含有少腹痛、小腹痛等症状,那么少腹痛、小腹痛是腹痛的派生症状。 如汗出包含有自汗、盗汗、冷汗等症状,那么自汗、盗汗、冷汗是汗出的派生症状。 同义症状是指与标准症状含义相同的症状,通常指别名症状,如不寐、不眠是失眠的同义症状;脉来数、脉息数、脉象数是脉数的同义症状。肋痛、两胁疼、膺肋痛、胁痛楚是胁痛的同义症状。标准症状描述是指对当前症状的文本定义或描述,如盗汗的描述为“盗汗是睡眠中不自主的异常出汗现象,通常在深夜及黎明前明显,而睡醒后就会停止出汗”;如头晕的描述为“头晕是指视物昏花旋转,如坐舟车之状,严重者张目即觉天旋地转,不能站立,胸中上泛呕恶,甚或仆倒”。 因症状描述的书籍来源不一样,标准症状的定义可能也会存在文字描述差异,可以考虑在库中保存多个定义文本。

4.3 症状规范化实现思路

标准化症状词库的构建需要确定标准症状及标准派生症状词表,然后采集标准描述,同时扩充同义症状词表,对中医智能化研究来说,其中同义症状的扩充最为关键。 以下是本文提出的面向中医智能化研究的症状规范实现化思路。

第一,根据最小内涵独立症状等标准症状命名原则,邀请多名中医诊断学专家确定标准症状及标准派生症状词表,既保证标准症状词表中的症状能满足基本临床诊断需求,又需保证标准症状词表不能过大而影响智能诊疗模型构建。体征的概念表述,比如舌象、脉象的内涵界定情况,舌苔的厚度通过大量的临床数据进行统计分析,规定正常舌苔的厚度是在什么范围内,薄苔是多少,厚苔又是多少。

第二,依据已经确立的标准症状词表及标准派生症状词表,采集并录入其对应的症状定义等描述信息,对不同来源的定义描述给予标识,并请中医诊断学学者进行审核,审核通过后入库保存,比如腹痛、小腹痛、少腹痛的不同来源定义描述如表1 所示。

表1 腹痛及少腹痛、小腹痛症状定义描述示例

第三,标准症状词表及标准派生症状词表基础上,参考《中医诊断学》教材以及《中医临床常见症状术语规范(修订版)》《中医症状学研究》《中医症状鉴别诊断学》《常见症状中医鉴别诊疗学》等中医症状学专著,采集标准症状对应的同义症状,并请中医诊断学学者进行审核,审核通过后入库保存。比如标准症状“汗出偏沮”的同义症状有上半身汗出偏沮、半边汗出、半身汗出、汗出半体、汗出偏左、身半汗出、身半以上汗出、身左半出汗、身左半汗出、右半身有汗、左半身出汗、左侧半身汗出等。

第四,进行同义症状词表扩充。采集多来源病案信息并抽取出症状实体,对症状文本进行相似度计算,选取相似度高的症状作为其对应的同义症状参考词,再经过中医诊断学学者进行审核,审核通过后将其正式纳入同义症状词表中。

第五,收集足够同义症状词样本后,建立症状标准化预测模型,对开放环境下症状进行同义词标准症状预测,并优化预测模型。

以此建立的标准化症状词库可以为中医诊断提供一套标准的症状词典,为中医诊断的进一步研究奠定基础,也可以为中医临床电子病案数据挖掘提供基础标准,在中医智能诊疗系统构建的前期提供数据预处理标准,构建的症状标准化预测模型,为中医数字化、智能化诊疗研究提供了数据预处理工具。

5 结语

《中医临床诊疗术语》国家标准的1997 版以及2021 修订版未将症状纳入其中,导致目前中医研究领域缺乏统一的症状标准。中医症状规范化、标准化是中医现代化、智能化的关键基础问题,研究者们为了解决行业内难题进而对症状标准化问题进行了深入研究,提出了许多富有成效的方法。 但研究者们多限于自身领域视角来研究中医症状规范化、标准化的问题,还存在诸多不足。 本文亦仅从信息化应用的角度来探讨相关工作,在症状规范化实现思路中,亦有未考虑的问题,如未纳入症状量化标准、未构建症状关联库等。 因此,呼吁中医行业研究者们会同信息、语言等其他行业学者一道,研究中医症状标准化问题,制定中医症状的国家标准,切实解决目前无标准的实际问题,为中医诊断学的深入研究、中医电子病历数据挖掘、中医现代化、智能化奠定基础。

猜你喜欢
词表同义诊断学
Dale Carnegie
《全身 CT 血管成像诊断学》出版
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
西夏文《同义》重复字研究
西夏文《同义》考释三则
叙词表与其他词表的互操作标准
基于现代网络通讯工具的中医诊断学教学实践与探索
诊断学教学中融入医患沟通技能的培养
《内经》诊法教学内容简析及与中医诊断学的衔接
国外叙词表的应用与发展趋势探讨*