面向图像分类的基于注意力引导的Dropout

2021-04-10 05:55常东良尹军辉谢吉洋孙维亚马占宇
图学学报 2021年1期
关键词:集上神经元分类

常东良,尹军辉,谢吉洋,孙维亚,马占宇

面向图像分类的基于注意力引导的Dropout

常东良1,尹军辉1,谢吉洋1,孙维亚2,马占宇1

(1. 北京邮电大学人工智能学院,北京 100876; 2. 南水北调中线信息科技有限公司,北京 100176)

当一个较大的神经网络在较少的训练数据上训练时,不可避免的会遭遇过拟合问题,进而在测试数据集上泛化性能较差。因此,提出了多种基于Dropout的正则化方法来缓解这个问题。虽然,这些方法不能直接促使模型关注有较低判别力的特征,但对减少过拟合同样非常重要。为解决该问题,提出了一种基于注意力引导的Dropout (AD),利用自监督机制更高效地缓解特征描述算子之间的协同自适应问题。AD包含2个独特的组件:①特征的重要性度量机制,通过SE-Block度量得到每个特征的重要程度;②基于可学习丢弃概率的Dropout,通过丢弃“较好”的特征检测算子,强迫“较差”的特征检测算子学习到一个较好的特征表示,从而缓解特征检测算子之间的协同自适应并促使模型学习拥有较低判别力的特征。实验结果表明该方法可以容易地被应用到各种卷积神经网络(CNN)结构里,并获得较好的性能。

深度神经网络;过拟合;Dropout;自注意力机制;图像分类

深度神经网络已经极大地推动了计算机视觉领域的发展,在诸多极具挑战的视觉任务中获得了极大地成功,如:目标检测[1]、图像分类[2]、语义分割[3]等。然而,海量的参数使得神经网络极易过拟合,因而在实际应用中需要多种多样的正则化技术。Dropout[4]在2012年被提出,是公认的抑制过拟合问题的有效方式。其在训练过程中随机舍弃一些节点,由此抑制了节点之间的协同自适应,进而使得网络获得了较好的泛化性能[4]。近年来,受到Dropout技术的启发,研究者提出了很多类似的方法,包括:DropConnect[5],Concrete Dropout[6]和Cutout[7]以及其他变种。此外,文献[8]回顾了Dropout的发展历程。以上的方法使得模型倾向于关于最有判别力的特征,进而提升模型的分类性能,但忽视了能够提供互补信息的其他区域的特征学习。例如,文本情绪分类预测通常被一个或几个词所主导,且忽略了一些信息特征。

近年来,文献[9-12]通过在训练过程中将输入图像或特征部分区域的值设置为0的方式,擦除最有判别力的特征。这些方法与Dropout[4]和Dropbolck[13]相似,但与前者不同的是,后者随机丢弃的是特征上的一块区域而不是一个节点。尽管随机选择是快速且易于实现的,但不能高效地擦除最有判别力的区域。此外,文献[9-10]需要多次训练模型;文献[11]需要使用额外的Sigmoid函数;文献[12]为了定位最有判别力的区域,需要在一次迭代中,进行2次前向计算。

为了更高效地捕获目标的整体特征,本文提出了一种基于注意力引导机制的Dropout (attention- guided Dropout,AD),如图1所示。AD能够利用自注意力(self-attention)机制防止模型仅仅依靠最有判别力的特征进行分类,促使模型学习到更多的特征区域,进而提高分类准确率。即通过挤压和激励模块[14](squeeze-and-excitation block,SE-block)获得全连接层每一个神经元节点的重要程度,并与特征蕴含的判别力呈正相关。基于此,可对模型学习特征的过程进行动态调整,进而在获得最有判别力特征的同时,通过去除学习到最有判别力的特征来获得其他互补的特征表示,以提高模型的泛化能力。首先通过以神经元节点的归一化重要程度为分布参数的伯努利(Bernoulli)分布获得Dropout掩膜(mask),然后通过该掩膜对神经元节点进行随机丢弃。

图1 本文所提方法AD的总体结构图

值得注意的是,AD方法与Dropout类似,不同点在于本文方法更倾向于删除具备高判别力的节点来提高其他节点的学习能力,而Dropout是每个节点等概率随机删除。

1 预备知识

首先了解一下标准的Dropout和SE-block方法。

1.1 Dropout

本文使用了较流行的Dropout[4]方法。在数学上,针对全连接层的Dropout方法可写为

1.2 SE-block

AD不仅告诉神经网络模型关注什么,还提高了模型的表现能力。SE-block用来建模通道间的关系。该模块允许网络进行特征重标定,可以利用全局信息增强有用的信息,压缩不重要的信息。文献[14]第1步通过全局平均池化汇聚特征图的信息,产生关于通道间的统计量:R,并通过平面维度×压缩特征图;第2步,旨在完全捕获通道的依赖关系,从而将该统计量输入到一个单隐藏层的多层感知器(multilayer perceptron,MLP)。隐藏层的神经元个数设置为×1×1,其中为衰减率。记特征图为=[1,2,···,u]T,整个过程可以表示为

图2 Dropout方法((a)正常的全连接网络;(b)引入概率为0.5的训练过程中某次前向传播的全连接网络)

2 基于注意力引导的Dropout (AD)

考虑到Dropout和SE-block,本文提出的AD方法,以鼓励模型在学习最有判别力特征的同时,也能够学习到次重要的但对分类仍具有重要意义的特征。其与通常的用在全连接层的Dropout技术有一个显著的区别,就是可根据神经元的重要性选择不同的用于删除神经元的概率,而不是同以往的Dropout那样利用相同的概率删除所有神经元。

本文定义神经元的激活值为a+1,作为AD的输出,同时定义AD的输入为a。然后将a输入到带单隐藏层的MLP中,则获得重要性图。神经元a特征重标定为

在标准的Dropout方法中,由概率为的伯努利分布生成,而本文利用重要性图作为自适应的删除率,且由输入的重要性图的值大小决定。

掩膜通过与重新标定的神经元进行点乘操作,图1为本方法的总体结构框架,前一层神经元的输出是AD层的输入。重要性图是通过对全连接层的神经元进行挤压和激励操作获得的,掩膜被用来隐藏最具判力的节点,从而捕获到其他互补的特征表示。该方法也采用了一个松弛因子对删除概率进行尺度变换,从而调整删除率。本文方法在提高模型分类准确率的同时,防止了模型只依赖最具判别力的特征,而忽略次重要的信息的问题。

3 实验结果和讨论

3.1 数据集

为了验证所提出的AD方法的性能,在多个图像识别数据集上进行了测试,包括CIFAR-10[15],CIFAR-100[15],Stanford Cars[16]以及CUB-200-2011[17]数据集。

CIFAR-10和CIFAR-100数据集均包括60 000张32×32的彩色图像,分为训练集(50 000张)和测试集(10 000张)。此外,CIFAR-10包含10个类别,CIFAR-100包含100个类别。Stanford Cars数据集包含196类,16 185张图片,其中训练集8 144个样本,测试集8 041个样本。CUB-200-2011数据集包含200类样本,包含5 994个训练样本和5 794个测试样本。Stanford Cars和CUB-200-2011数据集的图像尺寸均为224×224。

3.2 实现细节

本文使用去除全连接层的VGG16[18],B-CNN[19]和ResNet50[20]网络作为特征提取器。随后添加了一层全连接层、一层AD层和一层分类层作为分类器。AD层的输出是分类层的输入。优化器设置为随机梯度下降(stochastic gradient descent,SGD)算法,同时使用余弦退火算法[21]调节学习率。初始学习率(learning rate)设置为0.001,权重衰减(weight decay)设置为1×10-4,动量(momentum)设置为0.9。

3.3 分类性能对比

将本文的AD方法与FC(无Dropout技术),Dropout[4],DropConnect[5],Concrete Dropout[6]和Cutout[7]方法,在4个常用的图像分类数据集上进行了比较,见表1。AD方法在4个数据集上均获得了较好的分类性能,说明其泛化性能良好。从实验结果可以看出,在Stanford Cars和CUB-200-2011数据集上,本文方法获得了较高的性能提升,是因为其利用了更多的复杂信息。此外,Cutout在某些情况下性能超过AD,但准确率非常接近。这是因为Cutout和本文方法均能使网络捕捉到更多的特征表示,而不是仅仅关注最有判别力的特征。

表1 各个方法在相关数据集上的分类准确率(%)

注:黑体为提取器下的最好结果;下划线标记为最好结果

3.4 消融实验

通过消融实验,分析本文方法的各个组件对分类性能的影响。使用预训练完成的VGG16网络作为特征提取器。在训练阶段将所提出的AD方法插入到分类层的2层全连接之间,并在CUB-200-2011数据集上进行实验。

首先,探索了SE-block对分类性能的影响。从表2可以观察到,在CUB-200-2011数据集上,SE-block能够带来轻微的性能提升;且能够使网络对特征重新分配权重,进而提高网络的特征提取能力。为了进一步研究本文方法是否仅依靠SE-block提升分类性能,还在其后添加了AD层对神经元进行舍弃,但分类性能明显下降。原因是对节点的舍弃概率过高,导致大量的有判别力的节点被舍弃,进而影响分类性能。当添加一个松弛因子对删除率进行调节时,模型的分类性能得到了显著地提高,这表明本文方法显著增强了模型的特征提取能力。

表2 在CUB-200-2011数据集上不同设置下的准确率对比

注:黑体为提取器下的最好的结果;“P”和“O”分别表示是否使用该维度

为了进一步分析松弛因子对所分类性能的影响,在CIFAR-100数据集上,使用VGG16网络作为主干网络,通过变换松弛因子的值,观察分类性能的变化,如图3所示。从图中可以看到,当=1.6时,本文方法获得最佳分类性能,同时随着的变化,分类性能大多高于FC (无Dropout技术),证明了其的优越性和鲁棒性。

图3 松弛因子c对所提方法分类性能的影响

3.5 在不同训练集规模下的性能对比

众所周知,过拟合问题在训练集规模较小时,会愈加严重。为了进一步探究本文方法对过拟合问题的抑制能力,可通过逐渐减小训练数据集规模并保持测试集规模不变的方式进行评估。使用预训练完成的VGG16网络作为特征提取器,在CIFAR-10数据集上进行了实验。表3为不同方法在不同规模训练数据集上的分类性能对比。每组实验重复10次。当训练集规模逐渐减少时,各个方法的性能均有明显的下降。此外,本文方法几乎在所有情况下均获得了最佳的性能,这表明AD相比于其他同类方法,抑制过拟合的能力更加有效。最后,将对比方法与AD的实验结果进行了配对样本检验,选择置信水平为0.01。结果表明,本文方法相比于其他方法的性能提升是显著的。

表3 训练集规模对所提方法分类性能的影响(%)

注:上表:当CIFAR-10数据集的训练集规模逐渐减少时,各个方法的分类性能(%)对比(0.200:训练集规模是原规模的0.2倍,以此类推)。下表:所提方法AD的实验结果与其他方法结果通过配对样本T检验计算出的值(***:≤0.001;**:0.001<≤0.01)

4 结 论

本文提出了AD方法,以鼓励模型在学习最有判别力特征的同时,也能够学习到次重要的但对分类仍有重要意义的特征。由于此原因,AD在Stanford Cars和CUB-200-2011的2个数据集上实现了目前最好的分类准确率,同时在CIFAR-10和CIFAR-100的2个数据集上也有着极具竞争力的分类准确率。通过实验证明了AD可以应用到不同的CNN结构的分类器中,从而用来提升分类准确率。

[1] KRISTAN M, LEONARDIS A, MATAS J, et al. The visual object tracking vot2017 challenge results[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 1949-1972.

[2] VOULODINMOS A, DOULAMIS N, DOULAMIS A, et al. Deep learning for computer vision: a brief review[EB/OL]. [2020-06-15]. https://www.researchgate.net/publication/322895764_Deep_Learning_for_Computer_Vision_A_Brief_Review.

[3] ZHANG H, DANA K, SHI J, et al. Context encoding for semantic segmentation[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7151-7160.

[4] SHEN X, TIAN X, LIU T, et al. Continuous dropout[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29(9): 3926-3937.

[5] LI W, ZEILER M, ZHANG S, et al. Regularization of neural network using dropconnect[J]. Journal of Machine Learning Research, 2013, 28: 1058-1066.

[6] GAL Y, HRON J, KENDALL A. Concrete dropout[C]//The31st International conference on Neural Information Processing Systems. San Francisco: Morgan Kaufmann, 2017: 3581-3590.

[7] DEVRIES T, TAYLOR G W. Improved regularization of convolutional neural networks with cutout[EB/OL]. [2020-06-21]. https://blog.csdn.net/mingqi1996/article/details/96129374.

[8] LABACH A, SALEHINEJAD H, VALAEE S. Survey of dropout methods for deep neural networks[EB/OL]. [2020-06-25]. https://arxiv.org/abs/1904.13310.

[9] WEI Y C, FENG J S, LIANG X D, et al. Object region mining with adversarial erasing: a simple classification to semantic segmentation approach[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 6488-6496.

[10] KIM D, CHO D, YOO D, et al. Two-phase learning for weakly supervised object localization[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 3554-3563.

[11] CHOE J, SHIM H. Attention-based dropout layer for weakly supervised object localization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 2214-2223.

[12] LI K P, WU Z Y, PENG K C, et al. Tell me where to look: guided attention inference network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9215-9223.

[13] GHIASI G, LIN T Y, LE Q V. Dropblock: a regularization method for convolutional networks[C]//The 32nd International conference on Neural Information Processing Systems. San Francisco: Morgan Kaufmann, 2018: 10727-10737.

[14] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

[15] KRIZHEVSKY A. Learning multiple layers of features from tiny images[R]. Ontario Toronto: University of Tront, 2009.

[16] KRAUSE J, STARK M, DENG J, et al. 3D object representations for fine-grained categorization[C]//2013 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2013: 554-561.

[17] WAH C, BRANSON S, WELINDER P, et al. The caltech-UCSD birds200-2011 dataset[R]. California: California Institute of Technology, 2011.

[18] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-26]. https://arxiv.org/abs/ 1409.1556.

[19] KONG S, FOWLKES C. Low-rank bilinear pooling for fine-grained classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 7025-7034.

[20] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

[21] FIEDING B, ZHANG L. Evolving image classification architectures with enhanced particle swarm optimisation[J]. IEEE Access, 2018, 6: 68560-68575.

Attention-guided Dropout for image classification

CHANG Dong-liang1, YIN Jun-hui1, XIE Ji-yang1, SUN Wei-ya2, MA Zhan-yu1

(1. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2. South-to-North Water Diversion Middle Route Information Technology Co., Ltd., Beijing 100176, China)

When a large-scale neural network is trained on a small training set, it typically yields “overfitting”, i.e., the model performs poorly on held-out test data. Therefore, various Dropout techniques have been proposed to alleviate this problem. However, the aforementioned methods cannot directly encourage the model to learn the less discriminative parts, which is also important to reducing overfitting. To address this problem, we proposed an attention-guided Dropout (AD), which utilized the self-attention mechanism to alleviate the co-adaptation of feature detectors more effectively. The AD comprised two distinctive components, the importance measurement mechanism for feature maps and the Dropout with a learnable probability. The importance measurement mechanism calculated the degree of importance for each feature map in whole by a Squeeze-and-Excitation block. The Dropout with a learnable probability can force the “bad” neurons to learn a better representation by dropping the “good” neurons. Therefore, it will diminish the co-adaptation and encourage models to learn the less discriminative part. The experimental results show that the proposed method can be easily applied to various convolutional neural network (CNN) architectures, thus yielding better performance.

deep neural network; overfitting; Dropout; self-attention mechanism; image classification

TP 181

10.11996/JG.j.2095-302X.2021010032

A

2095-302X(2021)01-0032-05

2020-07-28;

28 July,2020;

2020-08-06

6 August,2020

国家重点研发计划项目(2019YFF0303300,2019YFF0303302);国家自然科学基金项目(61773071,61922015,U19B2036);北京智源人工智能研究院项目(BAAI2020ZJ0204);北京市科技新星跨学科合作项目(Z191100001119140);中国留学基金管理委员会奖学金(202006470036);北京邮电大学博士生创新基金资助项目(CX2020105,CX2019109)

:National Key Research and Development Program of China (2019YFF0303300, 2019YFF0303302); National Natural Science Foundation of China (61773071, 61922015, U19B2036); Beijing Academy of Artificial Intelligence (BAAI2020ZJ0204); Beijing Nova Program Interdisciplinary Cooperation Project (Z191100001119140); Scholarship from China Scholarship Council (202006470036); BUPT Excellent Ph.D. Students Foundation (CX2020105, CX2019109)

常东良(1992-),男,河南灵宝人,博士研究生。主要研究方向为机器学习与计算机视觉。E-mail:changdongliang@bupt.edu.cn

CHANG Dong-liang (1992-), male, Ph.D. candidate. His main research interests cover machine learning and computer vision. E-mail:changdongliang@bupt.edu.cn

马占宇(1982–),男,河北邯郸人,教授,博士。主要研究方向为模式识别与机器学习。E-mail:mazhanyu@bupt.edu.cn

MA Zhan-yu (1982-), male, professor, Ph.D. His main research interests cover patten recognition, machine learning, etc. E-mail:mazhanyu@bupt.edu.cn

猜你喜欢
集上神经元分类
GCD封闭集上的幂矩阵行列式间的整除性
分类算一算
AI讲座:神经网络的空间对应
基于互信息的多级特征选择算法
仿生芯片可再现生物神经元行为
采用GCaMP6 在体大规模记录感觉神经元的活动
教你一招:数的分类
说说分类那些事
研究人员精确定位控制饮酒的神经元
师如明灯,清凉温润