基于动态注意力网络非负矩阵分解的抑郁症筛选

2022-07-12 14:04王凤琴柯亨进
计算机应用与软件 2022年6期
关键词:编码器分类器卷积

王凤琴 柯亨进

1(湖北师范大学物理与电子科学学院 湖北 黄石 435106) 2(武汉大学计算机学院 湖北 武汉 435001)

0 引 言

诸如癫痫[1]和严重抑郁症[2]等脑健康问题持续受到科研工作者和医疗界的关注,其早诊断进而早治疗在改善健康方面起着举足轻重的作用。特别地,对于严重抑郁症来说,准确预知大脑状态可以大大降低患者自杀的风险,致使其成为神经科学研究和临床实践所追求的目标。

同步现象广泛存在于大脑各区域及其相互作用过程当中。研究表明,对于认知功能受损的各种脑疾病而言,其往往呈现出与正常人不同的脑电同步模式[3-4]。在度量二元变量关系上,最大信息系数(Maximal Information Coefficient)被证明是最有效的关联强度度量[5],尤其是对非线性关系和受高噪声污染数据的相关性度量上。近几年,多变量同步分析方法有了长足发展,如相同步聚类分析(PSCA)、S估计子[6]和相关矩阵分析(CMA)[7]。其中,S估计子能有效度量全局同步,但缺乏对变量间同步细节的度量;PSCA可以获取不同变量的拓扑细节,但在全局同步信息度量方面存在明显不足;而CMA兼顾以上优点。

矩阵分解将高维空间的特征映射到低维子空间中,常用的矩阵分解方法有主成分分析、线性判别分析、非负矩阵分解[8]和奇异值分解等。其中,由于非负矩阵分解首次添加非负限制且具有良好的解释性而受到广泛关注。在此基础上,很多学者对其进行了算法改进。其主要的改进方向是增加正则条件,如稀疏性、图正则[9]、正交性等,已成功运用在图像处理和神经信息处理中。然而,这些方法假设数据服从均匀分布,只关注如何提高分解后数据的稀疏度,缺乏对感兴趣特征的着重刻画。

注意力机制是当前深度学习领域的最新成果,它可以帮助模型更好地捕捉和增强感兴趣特征,从而优化模型结构。其主要机制是对输入进行加权。注意力机制早在2014年成功应用于机器翻译任务中,之后受到广大学者的关注,产生了很多形式的变体和改进算法[10-11]。为了快速地对图像的关键区域进行超分辨率分析,一种基于自适应注意力机制的循环神经网络被提出[12],该模型通过自我强化的注意力机制自适应选择并提取图像中的重点区域或位置点的相关特征,提升对图像的识别率。

在进行矩阵分解时获取全局特征的同时引入自注意力机制充分了解细节信息提供了新思路。为此,本文首先利用最大信息系数计算脑电所有通道之间的同步值,以此构造相关同步矩阵,利用自编码器提取相关同步矩阵的注意力,最后利用哈德曼积应用于非负矩阵分解算法中实现基于注意力网络的非负矩阵分解(ANMF)。本文所给出的实验结果是在抑郁症公共数据集MPHC上进行验证评估的,本文所提出的方法获得94.45%精确度、96.47%敏感度和92.31%特异度,超过了现有方法的分类性能(基于相同数据集)。其主要贡献如下:

(1) 提出一种可以刻画矩阵非线性动态注意力方法,该方法能够强化感兴趣区域特征,而抑制对问题求解无关的信息;

(2) 设计一种基于注意力机制的矩阵分解方法,自适应地将注意力集中于当前相关中对抑郁症分类更具价值的区域,从而快速做出正确的决策;

(3) 为了充分利用非负矩阵分解提取出的相关矩阵的低秩表达,设计多分支神经网络,并成功应用于抑郁症筛选,其分类性能超过现有方法。

1 方 法

本文方法的技术细节主要包括:(1) 度量两两通道间的同步关系(最大信息系数),并构造全脑相关矩阵;(2) 构建基于自编码器的非线性注意力;(3) 实现基于动态注意力的非负矩阵分解算法;(4) 设计层次卷积神经网络对抑郁症分类。

1.1 总体设计

为有效地进行EEG分析,本文试图:(1) 最小化传统EEG预处理过程(去掉了传统EEG预处理中必须包含依赖足够的先验知识而进行的去噪、去干扰和去伪迹过程);(2) 最小化超参数的设置以方便临床应用。图1显示了所提方法的整体设计,其主要包括如下三个阶段:① 同步特征的特征提取;② 基于自编码器的注意力发现;③ 对结果进行评估。具体过程如下,原始EEG数据被划分为同等时间窗口大小的片段,对片段内所有的通道计算相互之间的最大信息系数(同步值),根据通道位置将所有同步值组织成相关矩阵,构成系统的特征矩阵。利用神经网络的非线性拟合能力构建基于自编码器的注意力发现机制,应用此注意力机制实现基于注意力机制的非负矩阵算法,该算法提取了相关矩阵的最重要的感兴趣特征,最后设计分层卷积神经网络分类器实现不同模态特征的处理,并实现抑郁症的早期发现。

图1 系统流程

1.2 最大信息系数

最大信息系数是基于最优划分的互信息[5],它能够快速检测数据间的关联关系,具有抗噪性、非线性以及有效性[5,13]。本文首先计算两两通道之间的MIC,以度量通道间的同步值。

(1)

式中:MICij(i,j=1,2,…,n)表示两通道i、j之间的同步关系。依据MIC的性质,CMMIC是一个正定对称矩阵:MICij≥0&&MICij=MICji&&MICii=1。存在一个极其特殊和稀少的情形:当所有通道之间满足线性无关时,CMMIC退化为单位阵。CMMIC满足如下性质:

非负性:所有的特征值都非负,即λ≥0;

1.3 基于自编码器的非线性注意力

刻画同步矩阵中感兴趣重要特征是提高分类性能至关重要的先决条件。为此,需要设计方法,使其将广泛的上下文相关信息编码为局部特征,从而增强特征的表达能力。

图2 基于自编码器的非线性注意力机制

本文的非线性注意力模型的结构如图2所示,图中的数字表示当前层中包含的隐含神经元的个数,下方文字表示激活函数ReLU,当前层下方空白表示当前层没有设置激活函数,其本质上是一个自编码器。自编码器是一种无监督的学习算法,由编码器和解码器构成,编码器旨在把一个不定长的输入序列X转化成一个定长的向量C,解码器旨在利用编码器的输出复原成一个与输入序列相同的向量R。

(2)

式中:f(·)表示神经网络的非线性拟合函数。

f(·)的求解依靠神经网络模型参数的更新来完成,在自编码器中,其利用复原向量R与输入向量X之差,基于反向传播算法驱动神经网络模型参数的更新:

(3)

当达到稳定时,编码器的输出构成了输入向量的低维表达。换句话说,其代表了原始输入的最重要的特征。从另外一个角度看,它也能看作为输入向量的注意力。

1.4 基于动态注意力的非负矩阵分解算法

非负矩阵分解(NMF)最早由Lee和Seung于1999年在自然杂志上提出的一种矩阵分解方法[8],它分解矩阵所得的所有特征均为非负值,增加问题的物理解释性。它已成为神经信息学、计算机图像处理和信号处理等研究领域中最受欢迎的特征降维工具之一。

传统NMF在分解过程中,并未考虑注意力机制,也即假设要分解的数据满足均匀分布。然而,现实世界的数据往往呈现出多变量分布模式,致使传统NMF无法增强对感兴趣特征的提取。因此,本文在基于注意力的非负矩阵分解算法(ANMF)中引入注意力机制,试图减弱矩阵中的某些元素,而变相地增加其他元素的值。其目的是矩阵的特征增强提取,首先利用原始信号V与基于注意力D的复原矩阵之间的相对残差:

E=V-(D∘W)(DT∘H)wij≥0,hij≥0

(4)

式中:D和DT分别表示作用于矩阵W和H的注意力矩阵,也是1.3节中自编码器中编码器的输出向量重塑而出的矩阵;∘ 表示哈德曼积,其表达了注意力机制直接作用于分解矩阵。由于全脑同步相关矩阵CMMIC是对称方阵,因此,D与W的维数相同,DT与H的维数相同。假设噪声服从高斯分布,最大似然函数为:

(5)

取对数后:

((D∘W)(DT∘H))ij]2

(6)

假设各数据点噪声的方差一样,那么接下来要使得对数似然函数取值最大,只需要下面目标函数值最小。

(7)

为求解式(7)的梯度方向,需要先计算:

[ATAX+ATAX]ij=[2ATAX]

(8)

进而对W进行求偏导数:

(9)

同理可以得到:

(10)

根据牛顿法,其迭代的梯度下降公式如下:

Wik=Wik-α1[(DT∘H)(DT∘H)T(D∘W)T-

D(DT∘H)VT]ik

Hik=Hik-[(D∘W)T(D∘W)(DT∘H)-

VT(D∘W)DT]ikα2

(11)

当:

(12)

可以得到最终的分解矩阵更新公式:

(13)

而当D或者DT对应的位置为0时,Wik=0,Hik=0。

1.5 多分支卷积神经网络

本文将脑电数据分类(抑郁症和健康组)看作是二元分类问题。给定一个脑电时间片,本文的任务是决定其是否属于抑郁症还是健康组。类标签1赋予抑郁症组;而类标签0则赋予健康组。脑电时间片首先计算两两通道之间的同步MIC值,进而构造全脑同步相关矩阵。对每个同步矩阵利用自编码器提取其注意力,该注意力可以用来增强非负矩阵分解提取感兴趣特征,而降低注意力以外的特征。

分类器旨在获取高分类性能,且能够同时处理多个因子矩阵。图3显示了多分支神经网络的体系结构。它始于多分支子网,对于每一个由基于注意力网络的非负矩阵分解所得的因子矩阵(矩阵大小分别为23×5和5×23),都由每个子网进行处理,子网的最后一个卷积层输出的矩阵被展平成一个长度为95的向量,两路的向量拼接(融合)成一个长度为190的向量,构成一个全连接层,接着是两层全连接层,最后,sigmoid激活函数输出抑郁状态。其主要设计规则如下:1) “多分支网络”接受不同的因子矩阵,旨在抗噪声和处理非平稳的多模式特征数据。2) “沙漏式”全连接层旨在快速缩减神经元的数目,以减少模型参数数目。越接近输出层,神经元数据越少。本文中的“沙漏式”全连接层块是分类器模型的最后几层。

图3 分类器体系结构

1.6 参数设置

关于注意力网络和分类器的超参数设置问题,利用贝叶斯超参数优化[14]所得,其相关超参数大部分都显示在相应的图中(图3和图2)。分类器的训练由基于动量(0.9)反向传播的SGD优化器进行处理[15]。训练过程通过权重衰减(1e-6)进行调整,相应的学习率为0.01。

非负矩阵分解是一个无监督分解算法,只需设置算法的停止条件。本文设置的停止条件为迭代次数为100或者分解误差小于0.01。

2 实 验

2.1 数据描述

公共数据集包含了严重抑郁症患者和健康对照组的脑电数据(MPHC[16]),所有样本都采集自马来西亚塞因斯大学医院的34个抑郁症患者(17名男性,平均年龄为40.3±12.9)和30名健康受试者(对照组,21名男性,平均年龄为38.227±15.64)。该样本集已经排除了那些有精神病症状、孕妇、酗酒者、吸烟者和癫痫患者的MDD参与者。健康对照组也筛选出了可能的精神疾病或身体疾病。脑电图传感器按照国际系统10-20在256赫兹的频率下进行采集,该数据集中可能包含23个通道数据,本文采用了前面的20个电极(Fp1、Fp2、F3、F4、F7、T3、T5、C3、C4、Fz、Cz、Pz、F8、T4、T6、P3、P4、O1、O2、A2)。时间窗口设置为1 024(4秒);因此,整个样本空间被划分成18 442个片段(其中抑郁症的时间片:9 789,健康的时间片:8 653)。

2.2 计算复杂度

实验所用的测试环境为英特尔i7CPU(3.33 GHz)、24 GB运行内存和64 bit Win7个人电脑。计算的主要过程包括注意力网络的训练、基于动态注意力的非负矩阵分解以及分类器的训练三个部分。

注意力网络和分类器都为神经网络,它们的时间复杂度都基于子卷积神经网络和子全连接神经网络。因此,首先有必要讨论子卷积神经网络的时间复杂度。而其时间复杂度正比于网络层数(L)及其相应的隐藏神经元个数(N)。整个子卷积神经网络的时间复杂度计算如下[18]:

(14)

式中:l是卷积层的索引;d是深度;nl为第l层的过滤器的个数(也叫宽度);nl-1表示第l层的输入通道的个数;sl和ml分别表示过滤器的空间大小以及输出特征映射的大小(feature map)。

对于子全连接神经网络,假设网络的层数为L,每一层的神经元数为U,分类器的时间复杂度为O(UL)。

对于注意力网络来说,其是一个全连接神经网络,时间复杂度为O(UL)。关于层次分类器模型来说,其包括c子卷积神经网络和一个子全连接网络,所以其时间复杂度为:O(cS(N,L))+O(UL),也即O(S(N,L))+O(UL)。

2.3 实验结果

图4显示了分类器在严重抑郁症数据集上的学习曲线。在这种情况下,分类器具有很好的泛化能力,并没有产生过拟合或过拟合[18]。

图4 严重抑郁症数据集上训练和验证过程的 准确度和损失率曲线

图5显示了分类器在严重抑郁症数据集上进行抑郁症筛选的ROC曲线,曲线是模型在严重抑郁症数据集上的五折交叉验证的每一折中所生成的。曲线的高AUC值(0.95以上)表明该分类器能够有效地识别抑郁症患者。

图5 抑郁症筛选的ROC 曲线

在同一数据集(MPHCs EEG数据[16])上,图6显示了该方法与基于多元logistic回归分类器的小波(MLRW)的比较。直接分类准确率从87.5%提高到94.45%,灵敏度从95%提高到96.67%,特异性从提高80%到92.31%。相比于传统非负矩阵分解算法,本文所提出的方法利用自编码器刻画动态注意力,同时分类准确率从90.23%提高到94.45%(基于本文所提出的多分支分类器)。

图6 相关方法分类性能比较

3 结 语

针对现有非负矩阵分解方法在刻画感兴趣特征注意力方面存在不足,本文提出了一种基于注意力网络的非负矩阵分解方法,在不需要任何特定先验假设的情况下,将神经同步信号进行非负矩阵分解。之后,又设计了一个多路神经网络,其充分利用了多路因子的结构信息,并且精确地从健康组中精确识别抑郁症病人。

与最新的方法比较,所提出的方法在公开严重抑郁症数据集上能够获得高分类精度:抑郁症能分别以94.45%精确度、 96.47% 敏感度和92.31%特异度进行判别,超过了现有方法的分类性能(基于相同数据集)。此外, 通过自编码器能动态自适应地提取神经数据同步特征的注意力。

综上所述,本文使得同步特征的注意力分解成为可能。隐藏在复杂大脑神经数据中的注意力的提取有助于对脑状态的识别。

猜你喜欢
编码器分类器卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于ResNet18特征编码器的水稻病虫害图像描述生成
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基于图像处理与卷积神经网络的零件识别
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于Beaglebone Black 的绝对式编码器接口电路设计*
基于朴素Bayes组合的简易集成分类器①
基于AdaBoost算法的在线连续极限学习机集成算法