基于机器学习的阿尔兹海默症初期行为辨识方法*

2021-07-23 08:44杨邦坤汪乐生聂颖熊文平

生物医学工程研究 2021年2期

杨邦坤，汪乐生，聂颖，熊文平△

(1.武汉大学中南医院神经外科，武汉 430071；2.武汉市第一医院儿科，武汉 430033)

1 引言

随着人口老龄化进程的加快，老年人患阿尔兹海默症的几率日益上升[1]。阿尔兹海默症病情复杂多样，其不仅给患者和家人的正常生活带来重大危害，还对医疗机构以及国家造成沉重负担。目前，阿尔兹海默症的诊断方法主要由医生根据患者的MRI图像对病情进行判断，主观性较强，且风险性较高[2-3]。虽然无法避免老年人的患病风险，但在患病初期阶段进行干预治疗，可有效控制病情，因此，正确辨识阿尔兹海默症初期行为尤为重要。

目前相关的研究成果有很多，如卓奕楠等[4]和郁松等[5]分别使用多模态典型相关特征表达和3D-ResNet方法辨识阿尔兹海默症初期行为，两者均具有较稳定、准确的辨识效果，但辨识精度仍需进一步细化，且耗时、延迟较高。

近年来，机器学习被广泛应用于各个领域，本研究基于机器学习的阿尔兹海默症初期行为的辨识方法，通过核支持向量机和十折交叉验证保证辨识效果，为阿尔兹海默症初期行为辨识准确性的提高和临床诊断提供可靠依据。

2 材料与方法

2.1 基于机器学习的阿尔兹海默症初期行为辨识流程

基于机器学习的阿尔兹海默症初期行为辨识流程见图1。

图1 机器学习算法流程图

2.2 数据预处理

以ADNI公共数据库作为本研究的数据来源，在432例受检者中包含126例阿尔兹海默症(AD)、258例轻度认知障碍(MCI)和48例正常对照组(NC)。从数据库获取sMRI图像，详情见表1。将各受检者的sMRI图像，通过Freesurfer软件执行图像平滑、分割、时间层校正等操作，使其转换为282个sMRI数据[6-8]，详情见表2。

表1 sMRI图像详情

表2 sMRI数据详情

2.3 特征提取

使用内核局部Fisher判别分析算法(KLFDA)提取sMRI数据特征[9-10]，具体步骤如下：

(1)将采集的原始数据集执行标准化操作，划分为训练与测试两组数据集。

(2)局部类间图，用Gb描述；局部类内图，用Gw描述；对训练数据集的两图进行创建。

(5)内核局部类间散度矩阵，用KLb描述；内核局部类内散度矩阵，用KLw描述；对二者进行计算。

(6)LLbα=λKLwα表示新广义特征方程，与λ(即最大特征值)相对应的αopt(即特征向量)，可通过对该方程执行计算获得。

2.4 基于核支持向量机的数据分类算法

使用核支持向量机(KSVM)分类提取的sMRI数据特征。

设置测试样本，用V={v1,...vj,...vm}描述，式(1)描述了KSVM的决策函数：

(1)

训练样本以及对应的类别标签，分别用xi、yi描述；偏差项用b描述；拉格朗日乘子，用αi描述；核矩阵用k描述[11-13]。

式(2)描述了径向基函数内核的形式：

(2)

核中尺度因子用σ表示，径向基函数内核样本以及对应的类别标签分别用xm、xn描述。将解决优化问题的公式带入投影训练式内，得到式(3)描述的KSVM训练函数：

(3)

样本数用N表示，KSVM训练样本以及对应的类别标签分别用ym、yn描述，投影训练样本以及对应的类别标签，分别用αm、αn描述。

2.5 十折交叉验证

为保证辨识准确性，利用十折交叉验证进行分析评估。将原始数据集划分为10个子样本，9个子样本对算法进行训练，1个子样本对算法进行测试，每次操作后均会得到KSVM算法的训练准确率及测试准确率，各子样本均需验证，重复操作10次，对10次结果求平均值，即KSVM算法的最终分类结果[14-15]。

2.6 衡量指标

衡量本研究方法的性能，可通过灵敏度(SEN)、曲线下面积(AUC)、准确率(ACC)、特异性(SPE)及受试者工作特征曲线(ROC)五个指标完成[16-18]，定义如下：

(4)

(5)

(6)

正确分类的患者数量用TP描述；患者分类为正常对照组的数量用FN描述；正常对照组分类正确的数量用TN描述；正常对照组分类为患者的数量用FP描述。分类精度越高，AUC值越大，ROC曲线越向左上角靠近[19-20]。

3 结果与分析

以ADNI数据库中432例受检者的sMRI图像作为实验对象，验证本研究方法的有效性与可行性，受检者详情见表3。

表3 受检者详情

实验分析十折交叉验证的评估性能，以AD和NC两组数据作为测试对象，将其分别赋值为2、5，共计174例，划分的测试样本数为18，利用十折交叉验证得到的分类结果与真实结果的对比情况，见图2。

图2 十折交叉验证分类结果与真实结果对比

实验分析对AD和NC、MCI和NC以及AD和MCI三种情况的辨识效果，并设计对比实验，选择基于多模态典型相关特征表达的阿尔兹海默病辨识方法(多模态辨识方法)[4]和基于3D-ResNet的阿尔兹海默症辨识方法(3D-ResNet辨识方法)[5]作为本研究的对比方法，三种方法的灵敏度、特异性、准确率以及曲线下面积四个指标的统计结果分别见图3、图4和图5。

图3 不同方法对AD-NC的辨识结果

图4 不同方法对MCI-NC的辨识结果

图5 不同方法对AD-MCI的辨识结果

使用受试者工作特征曲线(ROC)评估三种方法对AD-NC、MCI-NC和AD-MCI三种情况的辨识效果，结果见图6。

图6 受试者工作特征曲线评估结果

4 讨论

由图2可知，利用十折交叉验证得到的分类结果与真实结果基本一致，仅有1个样本分类错误，分类准确率为94.44%。由此说明，十折交叉验证具有较好的算法评估性能，可保证本研究方法的KSVM算法评估准确性。

由图3和图4可知，本研究方法对AD-NC及MCI-NC两种情况的分类灵敏度、特异性、准确率、曲线下面积四个指标均优于其它两种方法，且数值在95%以上；与之相比，3D-ResNet辨识方法对AD-NC的各项分类指标数值最低，仅为73%、80%、79%、82%；多模态辨识方法对MCI-NC的各项分类指标数值最低，分别为80%、77%、82%、72%。

由图5可知，本研究方法对AD-MCI的分类指标数值仍保持最高，而其它两种方法的分类指标数值大幅度下降。对比可知，3D-ResNet辨识方法与多模态辨识方法的分类性能相对较差，尤其是对阿尔兹海默症和轻度认知障碍(AD-MCI)之间的辨识效果不明显；本研究方法具有较优异的分类性能，不仅能在患者与健康人之间进行有效辨识，在两类不同患者中，依旧能获得较好的辨识效果，阿尔兹海默症初期行为辨识能力优势显著。

由图6可知，本研究方法的受试者工作特征曲线最靠近左上角，分类精度较高；3D-ResNet辨识方法的受试者工作特征曲线距离左上角最远，分类精度低。由此可以说明，本研究方法具有更好的阿尔兹海默症初期行为辨识效果，其次是多模态辨识方法，3D-ResNet辨识方法的效果最差。

5 结论

为及时发现阿尔兹海默症患者大脑的早期病变，本研究基于机器学习的阿尔兹海默症初期行为辨识方法，使用KLFDA算法提取经预处理的sMRI数据特征，并利用KSVM算法对其进行分类，完成阿尔兹海默症初期行为辨识。为获得更精准、稳定的分类性能，使本研究方法更好地用于阿尔兹海默症初期行为辨识，后续会增加人口统计学资料、功能性磁共振成像等数据类型，并扩大样本的数据量，为阿尔兹海默症的临床诊断提供科学、可靠的数据支持。