基于机器学习的中医体质分类研究

2024-01-24 11:06潘康宁王洪杰于霞孙万晨

中国医疗设备 2024年1期

潘康宁，王洪杰，于霞，孙万晨

1.威海市妇幼保健院 a.医疗设备科；b.超声二科，山东威海 264200；2.威海市胸科医院医务科，山东威海 264200

引言

近年来，随着中医学领域持续发展，中医体质学说备受关注。中医体质学说建立了体质辨识的标准化工具，可为与中医体质相关的疾病预防与健康管理提供依据，因此可通过体质类型预测发病倾向，进而采取有效的干预手段[1]。目前，比较公认的体质分类和辨识标准是王琦九分法。王琦九分法采用填写自测量表的形式，将中医体质分为平和质、气虚质、阳虚质、阴虚质、痰湿质、湿热质、血瘀质、气郁质、特禀质9 种基本类型[2]。其中除平和体质外，其余8 种体质又被称为偏颇体质。基于此，可将中医体质分为平和体质与偏颇体质。在体质调查过程中，填写自测量表的形式不仅受自测者主观认知的影响，还需要花费大量的人力和时间，因此，如何方便可靠地判断体质类型是一个值得关注的问题。

中医经络学说是中医理论的重要研究内容之一。中医经络学说认为经络具有运行全身气血，联系脏腑肢节，沟通上下内外，使人体各部协调，从而共同完成各种生理功能[3]。当脏腑发生疾病时，在原穴上会有相应反应，因此通过观察十二条经脉上原穴的变化，就能诊断脏腑病情[4]。近代生物物理学的研究也表明，相对于非经络部位，经络部位有较为明显的高电流及低电阻的特征，且在体表和深层次经络循行线上有持续的电位变化[5]，因此可通过经络穴位的生物电学特性测量人体脏腑的健康状态，并对失衡情况作出判断，为临床疾病的诊断、治疗及疗效的评估提供指导依据[6]。

目前，机器学习在许多领域包括中医领域得到了广泛应用，但有关经络与体质方面的研究和应用非常少，利用机器学习并基于经络穴位信号对人体体质进行分类是非常值得研究的课题。基于此，本研究以中医“藏象相关”为理论指导，以经络穴位信号数据为基础，将机器学习引入中医体质研究中，将中医体质分为平和体质和偏颇体质两类，并对模型效果进行分析与评价，为从经络穴位角度探究中医体质类型提供参考。

1 资料与方法

1.1 一般资料

选取2022 年9 月至2023 年8 月招募的2756 例志愿者为研究对象，主要为我院门诊部患者陪诊者、校园内学生群体、威海市区居民和敬老院成员等。纳入标准：① 年龄18 周岁及以上，常规活动正常者；② 受试者检测区无皮炎等受损状态；③ 对体质调查知情同意者。本研究已经本院医学伦理委员会审批通过（批准文号：WHFY-YXLLWYH-L2023012）。

排除标准：① 佩戴心脏起搏器者，有器官移植或金属移植者及使用植入式装置者；② 传染病、结核病活动期及甲亢患者；③ 出血患者（吐血、脑出血、外伤等）；④ 心脏病及Ⅲ期高血压患者；⑤ 严重肝脏、肾脏、心脏、肺脏衰竭者和高年龄患者；⑥ 各类肿瘤及化疗放疗患者、精神障碍者、无自理能力者；⑦ 趾端溃疡患者；⑧ 各种疾病术后恢复期患者，特殊疑难病症及有多种疾病患者；⑨ 过敏或对声、光、电、磁刺激有过敏史或不良反应者。

1.2 测试方法与方案设计

根据王琦的“中医体质与分类自测表”[2]，2756 例受试者结合自身情况，对调查表中的问题逐一勾选。各个问题均按5 级评分，计算原始分数与转化分数。原始分数为各个条目的分值和，转化分数=（原始分数-条目数）/（条目数×4）×100%，以该评分结果作为判断体质类型的标准[7]，见表1。

本研究使用的中医经络检测仪JK-02C 型（吉械注准20162270329）由感应采集器、中医数据库、云运算系统3 部分组成。感应采集器用于采集人体十二经脉24 个原穴的经络信息；中医数据库用于记录经络穴位信号数据；云运算系统利用电脑和互联网，读取经络穴位信号，获取受试者的中医经络穴位信号。

在温度适宜的环境下，受试者须符合下列条件方可接受采集：① 受试者在接受检测前2 h 内不饮用酒类、咖啡及服用保健品、药品[8]；② 无剧烈运动；③ 检测前，受试者须摘除身上金属物品及通讯器材和其他可能影响检测结果的设备。测试方法如下：① 受试者平躺或仰卧或坐立在检测床上，双手自然平放在身体两侧，双手手心朝上；② 操作员戴上薄膜手套，将受试者手部、脚部相应的采集位置用棉签蘸取超导耦合剂擦拭一遍后等待检测；③ 按右手、右脚、左手、左脚的顺序分别采集24 个经脉电穴位信号，24 个穴位信号的采集次序依次是右肺经太渊穴-右心包经大陵穴-右心经神门穴-右小肠经腕骨穴-右三焦经阳池穴-右大肠经阳溪穴-右脾经太白穴-右肝经太冲穴-右肾经太溪穴-右膀胱经束骨穴-右胆经丘墟穴-右胃经冲阳穴-左肺经太渊穴-左心包经大陵穴-左心经神门穴-左小肠经腕骨穴-左三焦经阳池穴-左大肠经阳溪穴-左脾经太白穴-左肝经太冲穴-左肾经太溪穴-左膀胱经束骨穴-左胆经丘墟穴-左胃经冲阳穴；④ 采集结束，保存受试者的经络穴位信号。

本研究将数据集中的28个原始特征包括身高、体重、年龄、性别和24 个经络穴位信号，采用随机森林的过滤式特征选择方法，筛选出最优特征子集。将特征选择后的数据集纳入梯度提升决策树（Gradient Boosting Decision Tree，GBDT）算法后建立二分类模型，即根据量表结果对所有受试者的体质进行标注，采用有标签的训练集对模型进行训练和优化，利用测试集对模型的各项评价指标进行分析，筛选出性能最好的模型[9]，实现对平和体质与偏颇体质的分类。本研究采用十折交叉验证法测试算法效能，研究流程如图1 所示。

图1 研究流程图

1.3 数据处理与算法验证

本文数据预处理工作主要包括处理错误数据、缺失数据和筛除重复数据。由于数据录入不仅需要录入经络穴位信号数据，还需要人工录入受检者的身高、体重等，而人工录入的数据难免会存在错误、重复或缺失的情况，因此需要通过数据清洗对汇总至数据库的数据进行校验，进一步提高数据的真实性与准确性。

数据预处理后，将2756 例受试者的24 项经络穴位信号、性别、身高、体重、年龄作为模型的输入特征。为了避免特征量纲差异对预测结果造成影响，提升模型收敛速度，本文选用最大最小化方法将输入特征归一化到[0，1]，计算方式如公式（1）所示。

式中，min、max 分别为属性取值的最小值与最大值。模型输出为平和体质和偏颇体质，平和体质赋值为1，偏颇体质赋值为0，以此构建中医体质分类体系。

本研究的特征选择一方面要筛选出中医体质分类模型的最优特征子集以降低数据维度，提升中医体质分类模型的计算效率；另一方面要筛选出各个经络对中医体质的影响力大小，为中医体质学提供借鉴。本研究采用基于随机森林的过滤式特征选择方法，随机森林是集成策略中最实用的机器学习算法之一，常用来处理复杂的高维度数据。随机森林中训练每棵树的数据都由自助抽样法从定义为集合B 的袋中抽出，剩余不出现在训练样本集中的数据为袋外数据（Out of Bag，OOB）。本文通过计算模型分类正确率随OOB 变化的幅度对变量重要性分数进行排序[10]。

GBDT 算法是机器学习中应用较广泛的算法之一[11-12]。GBDT 算法的内核是将多个弱分类器组合成为一个强分类器[13-14]。本研究中的数据集有以下特点：① 数据来源于医学采集数据，噪声小；② 数据集有28 维的原始特征，维度高；③ 经特征筛选后的最优特征子集中的特征多为连续变量。由于GBDT 模型是串行生成的非线性模型，结果为多棵决策树加权累加，有对异常值敏感、适合处理连续变量、可处理高维度数据的特点，更适合本研究的数据，因此本文选择GBDT 模型作为分类模型。具体参数设置如表2 所示。

表2 GBDT参数设置

本研究对中医体质分类模型采用混淆矩阵计算其准确度、精准度、召回率和F1得分，并以此评价模型效果[15]。其中，准确度为正确预测分类的样本数占总样本数的比例，计算方式如公式（2）所示。精准度为真实为正例的样本占所有预测为正例的样本的比例，计算方式如公式（3）所示。召回率为真实为正例的样本占预测正确的样本的比例，计算方式如公式（4）所示。F1得分为根据精准度和召回率作出的一种综合评价，计算方式如公式（5）所示。

式中，TP 为将真实的平和体质分类成平和体质的个数；FN 为将真实的平和体质分类为偏颇体质的个数；FP 为将真实的偏颇体质分类为平和体质的个数；TN 为将真实的偏颇体质分类为偏颇体质的个数。

十折交叉验证常用来测试算法准确性，其步骤为：① 将数据集分成10 份，轮流将其中9 份作为训练数据，1 份作为测试数据进行试验，每次试验都会得出相应的准确度、精准度、召回率和F1 得分；② 10 次结果的准确度、精准度、召回率和F1 得分的平均值作为对算法模型效果的评估。

2 结果

2.1 特征选择

本研究按7 ∶3 的比例划分训练集与测试集，在训练集中利用随机森林的特征重要性函数对预处理后的28 个特征进行10 次特征重要性计算，根据特征重要性分值对各初始特征进行排序。选择排序靠前、重要性更高的特征构成最优特征子集，并参与最终的模型分类运算。28 个特征重要性和平均值分数如表3 所示，平均值越大表示该特征在模型预测中的贡献度越大，对偏颇体质与平和体质的分类影响越大。

表3 特征重要性和平均值统计表

其中，性别的特征重要性分数最高，为0.143；身高的特征重要性分数位居第2 位，为0.123；左脾经原穴的特选重要性分数位居第3 位，为0.08；左三焦经原穴、左肝经原穴与左膀胱经原穴的特征重要性分数约为0.07；右肾经原穴的特征重要性分数位居第7 位；右脾经原穴的特征重要性分数位居第8 位；年龄的特征重要性分数最低，仅为0.003。这说明性别、身高、左脾经原穴等排名靠前的特征对平和-偏颇体质分类结果的影响较大，年龄、体重等排名靠后的特征对平和-偏颇体质分类结果的影响较小。

在对模型特征进行选择的过程中，过多或过少的特征数量都会影响模型的准确率，不利于模型的学习与训练。为了找到符合模型的最优特征数量M，本文选取不同的M 值，将随机森林模型运行100 次得到的100 个受试者工作特征（Receiver Operating Characteristic，ROC）曲线下面积（Area Under Curve，AUC）值的平均值作为该特征数量下的AUC 值，见图2。当特征数量M 为5～21 时，AUC 的平均值呈递增的变化趋势；当特征数量M 为22 时，AUC 的平均值达到最大值0.915；当特征数量M 为22～28 时，AUC 的平均值呈下降趋势。这说明当特征数量M=22 时，AUC 的平均值最大，分类器的分类性能最好，故将重要性分数排名在前22 的特征作为模型的最优特征子集，分别是：性别、身高、左脾经原穴、左三焦经原穴、左肝经原穴、左膀胱经原穴、右肾经原穴、右脾经原穴、左胆经原穴、右三焦经原穴、右肝经原穴、右胆经原穴、右膀胱经原穴、左肾经原穴、左大肠经原穴、右心经原穴、左胃经原穴、左小肠经原穴、右心包经原穴、右大肠经原穴、左心包经原穴、右肺经原穴。

图2 不同特征数量下AUC的平均值

2.2 GBDT结果分析

建立GBDT 模型，并通过十折交叉验证模型性能，最终取10 次结果的平均值作为最终近似值输出。可得该模型的准确度为92.86%，精准度为93.65%，召回率为93.08%，F1 得分为0.92，各项评价指标较高，分类效果良好。通过ROC 曲线进一步分析GBDT 算法的分类结果，见图3。GBDT 模型的ROC 曲线接近左上方，AUC 值为0.98，说明GBDT 模型的分类性能良好。

图3 GBDT模型ROC结果

3 讨论

以往基于经络穴位信号对中医体质的分类研究较少，多采用数据挖掘不同体质的经络特点。何静玲等[16]研究盆腔炎性疾病后遗症慢性盆腔痛患者的体质分布特点，探讨了不同体质与中医经络健康检测仪检测值的关系；吴凡等[17]研究不同高血压分级患者体质特点与经络特性的关系，为临床中医经络诊断提供了理论依据。吴微等[18]探讨原发性冻结肩患者的中医体质类型和经络特性，有助于了解冻结肩的疾病特点。刘彦汶等[19]通过对比糖尿病患者的不同体质、不同经络的经络能量值，探讨了糖尿病患者体质与经络能量的关系。基于经络穴位信号对体质分类的研究方面，建立并选用合适的基于经络穴位信号的分类模型不仅对推动体质学说发展具有重要意义，弥补了现有体质诊断手段客观依据的不足，使体质诊断分类中加入了可以量化的成分，还有助于明确和有针对性地提出以体质为导向的中医养生保健等具体方案，提早预防和发现慢性病，遵循了“因人制宜”的防治原则，符合中医“治未病”理念。

特征选择的结果符合中医学的相关理论，可为体质辨识提供帮助。中医认为性别的不同会使体质类型出现较大的差异。贾丽燕等[20]通过对血瘀体质危险因素的Logistic 分析，得出女性是血瘀体质的危险因素，不同性别的血瘀体质的调节方式不同。李杰等[21]研究了不同性别阳虚体质类型的分布状况和形成机理，得出不同性别阳虚体质形成的主要原因是性别差异。以上研究均能反映性别对体质类型的影响，这与本文特征选择实验中筛选出重要性分数排名第一为性别特征的实验结果相吻合。此外，尚世由等[22]通过对200 例体检者进行体质辨识与经络特点研究，结果发现，偏颇体质类型者相较于平和体质者，其肾经、三焦经、胃经处、心包经的经络穴位信号值偏低，肝经、胆经、脾经、小肠经、膀胱经处的经络穴位信号值偏高，说明偏颇体质与平和体质的经络穴位信号存在差异，与本文特征选择实验结果相吻合，证明特征选择实验筛选出的特征可为后续体质辨识提供一定帮助。

本研究尚存在一些不足：① 目前的分类模型只能对平和体质与偏颇体质分类，无法实现对9 种中医体质分类；② 目前所搭建的模型只有单一的机器学习模型，今后还需增加更多的模型对比，以期建立更优化的基于经络穴位信号的中医体质分类模型；③ 本研究只从经络角度出发对中医体质进行分类，未能与舌象、面象、痧象相结合，今后可与相关方面结合进一步探索中医体质分类的自动化、智能化。

4 结论

基于机器学习的中医体质分类方法具有极大的临床意义与价值。本研究利用随机森林的特征选择方法不仅为中医体质分类模型筛选最优特征子集提升计算效率，还筛选出了各个经络对中医体质的影响力大小。此外，GBDT 分类模型能够有效区分偏颇体质与平和体质，分类准确度达到了92.86%。这意味着可根据受试者的经络信号特征，利用机器学习快速准确地诊断其体质类型，对中医临床的个性化治疗方案设计和疾病预防提供了极大的帮助。