基于双注意力机制的零样本建筑图像分类方法

2023-10-21 02:36宁园园张素兰
计算机技术与发展 2023年10期
关键词:类别注意力语义

宁园园,张素兰,陈 飞

(太原科技大学 计算机科学与技术学院,山西 太原 030024)

0 引 言

建筑风格从地理位置、安全因素、建筑材料等方面考虑,每种风格依赖于建筑元素的结构,且都有其独特的特征表示。例如:玫瑰窗是哥特式风格独有的特征;巴洛克风格的主要特征是圆顶、圆拱门等。建筑风格分类旨在通过建筑元素以及建筑元素之间的空间关系预测建筑的风格类别,准确的分类对建筑历史研究、建筑遗产保护和城市建设方面都具有重要意义。

近年来,建筑风格分类已取得一些重要的研究成果。Xu等人[1]提出在多项式潜在逻辑回归(Multinomial Latent Logistic Regression,MLLR)中引入概率分析,解决25类风格的分类问题。Ren等人[2]设计概率层次图表示基本元素的结构,从具有一致标签的3D模型中训练贝叶斯网络对中国古建筑基本元素的语义属性和层次结构进行编码。Yi等人[3]收集17种建筑类别的图像及描述信息,并采用卷积神经网络模型对美国房屋风格进行分类。Yoshi-mura等人[4]训练深度卷积神经网络对34个建筑师的多个作品进行分类,通过训练网络模型的权重计算建筑的视觉相似性。然而,上述方法都需要收集大量的有标签样本,但在建筑风格分类中,不同建筑风格之间存在相似性,同一建筑风格中又存在差异性[1],导致标注更加困难。尤其对于建筑遗产图像,因为建筑景点需要被保护,不能对外开放,如故宫中的一些殿宇,图像数据难以获得,数据集中的标签样本根本不足以涵盖所有类别。因此,在缺少足够训练数据的情况下,如何利用已知建筑风格实例对未知建筑图像风格进行分类成为一个难点。

零样本分类技术旨在对训练阶段未出现过的样本类别进行分类,该技术根据已知类和未知类之间的语义相关性,将已知类的知识迁移用于未知类的识别,可有效解决样本标签缺乏时的分类问题。目前零样本学习应用于计算机视觉、自然语言处理等领域。如图1所示,针对建筑图像标记数据少甚至某些类别没有标注数据的情况,在建筑风格分类任务上使用零样本分类技术,缓解各风格样本分布不均衡导致的识别率低下的问题,进一步提高建筑图像分类精度。

图1 零样本学习示意图

零样本学习技术的关键是学习一个嵌入空间,根据嵌入空间的不同主要分为语义空间嵌入、视觉空间嵌入、公共子空间嵌入。语义空间嵌入是将图像特征映射到语义空间中,度量与语义描述向量的匹配度,匹配度最高的类标签为测试类输入图像的标签。视觉空间嵌入将语义向量映射到视觉特征空间中来保留更多描述信息,能够从一定程度上缓解语义空间嵌入的枢纽点问题。但直接学习视觉空间和语义空间之间的映射函数,导致模型泛化能力较弱,影响分类性能。而公共子空间嵌入[5]充分利用视觉和语义两种模态信息的互补性和一致性,将视觉特征和语义特征映射到公共子空间中,能够有效缓解域偏移问题。但由于在建筑图像分类任务中,每种建筑风格外观特征整体相似,细节元素存在差异,如哥特式建筑从上到下由尖顶、玫瑰窗、飞扶檐、尖拱门组成,而巴洛克由圆拱门、穹顶构成。从空间组成上看每个建筑元素对分类任务的重要程度不同,若采用传统的卷积神经网络,以最后一个卷积层的特征作为特征表示,则可能缺乏对建筑结构的针对性,忽略图像的各个通道和每个空间位置的重要程度,很难提取到鲁棒性较高的元素特征。

视觉注意力能够注意到与任务相关的区域,提取更有鉴别性的视觉特征。常见的注意力机制有通道注意力、空间注意力、时间注意力等。其中,通道注意力学习通道的权值并进行交互,而空间注意力通过嵌入位置信息,学习空间中重要的区域。将通道注意力与空间注意力组成的混合注意力网络学习图像特征各个维度的权重,并通过特征加权可捕获图片不同物体不同位置的细节特征。因此,针对建筑图像标签缺失及局部判别性区域定位不准确的问题,提出一种基于双注意力机制的零样本建筑图像分类方法。通过通道注意网络自适应学习每个通道权重,选择图像中建筑物本身,忽略背景噪声影响;使用空间注意力对特征图每个位置生成掩码并加权输出,提取与分类任务相关的细节特征。同时,在学习各空间的映射中,采用生成器对映射后的特征重建,缓解空间映射过程中的信息损失问题,以保留更多原始信息,进而提高建筑图像分类精度。

1 相关工作

1.1 零样本学习

Larochelle等人[6]在2008年首次为解决字符分类问题提出了零样本学习。当前,零样本图像分类应用于图像标注、跨模态检索、目标检测等领域。根据嵌入空间的不同,零样本图像分类可分为语义空间嵌入、视觉空间嵌入、公共子空间嵌入。Ding等人[7]利用边缘去噪策略和自适应图训练潜在语义编码器生成潜在语义表示,提高视觉-语义映射函数的泛化。但由于语义特征映射的维度较大,容易出现枢纽点问题,使将多个类别原型的近邻点误分类。为缓解枢纽点问题,保留更多语义描述信息,提出将语义向量映射到视觉空间。Zhang等人[8]提出视觉空间嵌入,结合多种语义模式进行多模态特征融合并以端到端方式联合优化。由于零样本分类中类别的视觉特征和语义特征在空间中的流形分布不同,且空间之间的维度相差较大,直接学习不同空间的映射会导致知识迁移能力较差。若通过学习一个公共子空间,实现视觉特征和语义特征对齐,可增强模型的泛化能力。赵鹏等人[9]根据已知类的视觉特征以及类别语义之间的关系,构建了未知类的视觉特征,学习所有类别的视觉特征和语义特征到子空间的映射,并通过编码-解码器重构技术缓解了知识迁移过程中遇到的域偏移和信息丢失问题。

1.2 建筑风格分类

目前的建筑风格分类方法大多采用监督学习方法。Chen等人[10]通过使用一个集成的卷积神经网络模型作为全局分类器建立了建筑标注图像数据集(Annotated Image Database of Architecture,AIDA)并生成场景类和建筑类别的预测标签。Obeso等人[11]提出使用网络输入处的稀疏特征以及原色像素值对墨西哥建筑物的图像进行分类。Shalunts等人[12]使用局部特征的聚类寻找窗户的梯度方向,从而根据窗户的几何规则对不同建筑风格的类型进行分类,但该方法没有考虑其他建筑元素对建筑风格的影响,而且数据收集具有局限性。为缓解类别数据量不均衡的问题,Zhao等人[13]设计基于GoogleNet的深度神经网络,对数据集的数量进行增强,提高建筑风格分类性能。Chu等人[14]提出模拟空间配置提取可视化模型,解决目标建筑的缩放、旋转和变形问题,扩充小类别样本的数量。总之,这些方法一般需要大量标注样本,对没有标记样本的类别如何分类研究甚少。

1.3 注意力机制

注意力机制能够从无关的背景区域中提取出具有重要信息的目标区域,目前已成功应用于视频分类、传统图像分类、机器翻译和场景分割等方面。Hou等人[15]将空间坐标信息整合到生成的通道注意力的特征向量中,避免全局池化造成位置信息损失,精准地定位和识别感兴趣的目标。Li等人[16]提出了将通道注意力和空间注意力结合的方法,使模型聚焦于关键信息,并利用注意增强技术使模型捕获特定于类的区域,提高遥感图像的分类性能。考虑到图像中不同建筑元素以及元素细节为风格分类任务贡献的权重不同,导致在提取图像特征时无法对特征进行区分,该文将通道注意力和空间注意力融合嵌入神经网络学习中,获得图像不同元素中细节位置的权重值,进而定位到判别性区域。

2 文中方法

2.1 定 义

2.2 双注意力机制的零样本建筑图像分类模型(Dual Attention Mechanism for Zero-Shot Learning,DAM-ZSL)

文中分类模型由特征提取、属性编码和空间映射与分类模块组成,主要框架如图2所示。

图2 双注意力机制的零样本建筑图像分类模型

2.2.1 特征提取

视觉判别性特征提取由主干网络、通道注意网络和空间注意网络组成。主干网络(Backbone)提取图像的全局特征。通道注意网络(Channel Attention Network,CAN)去除图像中的天空、人、车等无关建筑的元素,定位图像中重要的建筑主体。空间注意网络(Spatial Attention Network,SAN)提取具有空间信息的特征表示,将建筑主体中对分类任务影响更大的建筑元素赋予更高的权重。

该文使用ResNeXt残差网络作为图像特征提取器,ResNeXt作为ResNet的升级版本,使用了ResNet的重复层策略及GoogleNet的分裂转换合并(split-transform-merge)的思想。在相同的参数数量下,ResNeXt提取的特征有更强的表示能力,使图像分类的精度更高。ResNeXt-101的每层是由多个Res-NeXt块组成,如表1所示,在使用ResNeXt-101网络提取特征时,需要去除最后的全连接层和池化层,只保留特征提取部分。

表1 ResNeXt-101的网络结构

由于通过ResNeXt-101提取的特征图有2 048个通道,使得判别特征分散。为了更好地进行建筑主体性特征定位,首先使用1*1卷积压缩通道Ftmp=conv1×1(fResNeXt),在不改变特征图中建筑元素空间信息的情况下删除冗余通道。通道注意网络如图2所示,利用全局平均池化(GAP)计算各个通道特征图的特征值V(公式1),再计算各个通道的注意权值Wchannel(公式2),通过SoftMax使每个权重的和等于1。将通道权值作用于全局特征图上,得到通道注意图Fca(公式3)。

V=GAP(Ftmp),V∈R1×1×16

(1)

Wchannel=SoftMax(fc_attention(Ftmp)),Wchannel∈R

(2)

Fca=Ftmp×Wchannel,Fca∈R8×8×16

(3)

建筑图像中并不是所有的区域都同等重要,只有与属性标签相关的建筑元素才是需要关注的,如玫瑰窗、尖拱门等是哥特式风格需要关注的空间区域。空间注意网络就是寻找建筑图像空间中重要的区域进行处理。为了突出重要像素,一些研究者使用递归神经网络计算图像的空间权值,但这种方法会将特征展开为一维向量,破坏建筑元素的空间结构,为避免空间结构的破坏,使用多层卷积组成的空间注意模型来提取像素点的空间权值Wspatial(公式4),将空间权值应用于通道特征图上计算注意特征图Fatt(公式5)。

Wspatial=fs_attention(Fca),Wspatial∈R8×8

(4)

Fatt=Fca×Wspatial,Fatt∈R8×8×16

(5)

2.2.2 属性编码

语义特征由建筑图像的语义属性构成,表示各风格类别之间的关系,是零样本建筑风格分类的关键信息。利用one-hot对所有类别的属性特征进行编码,0代表无该属性,1代表有该属性。如将哥特式建筑的属性[rose-windows,narrow-window,glazing,…,Symmetrical, curve,gable]编码为[1,0,1,…,1,1,0]。

2.2.3 空间映射与分类

视觉特征由双注意力得到的特征图构成,保留建筑图像中与属性相关的判别性信息。为更好地对齐视觉特征和语义特征,通过全连接层将建筑图像的视觉注意特征映射到公共子空间中,视觉特征到公共子空间中映射函数为φ(xi)=W1×fatt。在学习视觉特征到子空间的映射时,由于每层的下采样操作,使得包含未知类别的判别信息损失,因此使用生成器对特征进行重建,从而减少信息的损失。同时将所有类别编码后的属性向量也通过全连接层映射到同一子空间中,学习语义映射函数φ(aj)=W2×aj。

在映射的语义向量中利用最近邻算法寻找与训练集的视觉特征相匹配的向量,预测样本的类别标签,即y(x)=argminD(φ(xi),φ(aj)),D代表距离度量函数,文中使用欧氏距离作为度量函数。

2.3 模型优化

为更好地优化模型,该文使用特征重建损失、中心损失、回归损失和交叉熵损失来训练DAM-ZSL模型。

将视觉特征映射到公共子空间时,由于维度差异,导致一些与属性相关的判别信息在知识迁移过程中丢失,为减少信息损失,提出使用生成器对映射后的特征进行重建,计算重建损失(公式6),φ-1(φ(x))是生成器重建后的视觉特征向量。

(6)

通过最小化重建损失,使重建的视觉特征更接近实际数据,以缓解特征映射过程中的信息损失问题。

在零样本学习的训练任务中,视觉嵌入函数将视觉注意特征映射到公共子空间中,学习已知类的类原型特征Ck,即视觉特征的平均向量(公式7),m为每个类别的样本总数。数据集中存在类内差异大,类间差异小的特点,因此使用中心损失函数缩小类内距离(公式8),将类别相同的样本更紧凑。

(7)

(8)

为了使嵌入的视觉特征与相应的语义属性嵌入向量接近,使用回归损失(公式9)来最小化嵌入向量之间的误差。

(9)

在分类任务中,常使用交叉熵损失(公式10)计算预测和真实标签之间的损失值。

c∈ys

(10)

因此,该文总的损失函数为(公式11):

l=lce+lr+lc+lreg

(11)

基于双注意力机制的零样本分类的目标函数为(公式12):

(12)

2.4 整体算法

基于双注意力机制的零样本建筑图像分类具体流程如下:

算法1 DAM-ZSL算法

属性标签集合A={a1,a2,…,an},迭代次数n为200

输出:视觉映射矩阵W1,语义映射矩阵W2

Step 2:提取具有通道和空间信息的注意特征图

fori=1 ton

(1)Wchannel=SoftMax(fc_attention(Ftmp)),Wchannel∈R求通道权值

(2)利用Fca=Ftmp×Wchannel,Fca∈R8×8×16求通道注意图

(3)利用Wspatial=fs_attention(Fca),Wspatial∈R8×8求空间权重

(4)利用Fatt=Fca×Wspatial,Fatt∈R8×8×16提取包含通道和空间信息的注意特征图Fatt

//根据公式(6)特征重建损失训练通道-空间注意网络

End for

Step 3:利用one-hot对所有类别的属性特征进行编码

Step 4:空间映射:初始化W1,W2

fori=1 ton

(1)利用φ(xi)=W1×fatt计算视觉映射矩阵W1

(2)利用φ(aj)=W2×aj计算语义映射矩阵W2

//根据公式(11)的中心损失、回归损失以及交叉熵损失函数训练网络

End for

End

3 实验分析

3.1 数据集

该文提出的模型在具有代表性的零样本数据集CUB-200-2011(CUB)[17]以及建筑风格数据集Architecture Style Dataset[1]上作评估。数据集描述如表2。CUB共有11 788张图片,有312个类级属性,包括200个鸟类别,其中150个类别作为已知类,50个类别作为未知类。

表2 数据集描述

传统的建筑风格分类是依据标记的类标签对图像进行分类,没有考虑到风格的语义属性对分类精度的提高,根据Yi等人[3]提出的美国房屋风格类别的属性特征以及建筑领域的专业知识,该文在Architecture Style Dataset[1]数据集中增加类别的语义属性,属性维度为31维,共有5 000张建筑图像,包含25个风格类别,其中训练集20个类别共4 042张图像,测试集有5个类别共958张图像,如表2。

3.2 实验细节

该文使用ResNeXt-101作为图像特征提取器,将数据集的图像大小初始化为256×256,因此ResNeXt-101的最后一个卷积特征图的大小为2 048×8×8。同TransZero[18]一样,使用SGD优化器(动量为0.9,衰减率为0.000 1)对模型进行优化,设置batch大小为50,迭代200次来训练模型,并设置学习率为0.000 1。

3.3 基准实验对比模型

该文采用所有未知类的平均top-1精度,即对所有未知类正确预测的均值(Average Class Accuracy,ACA)(公式13)作为评价分类的标准:

(13)

为更好地将DAM-ZSL与其他先进的模型(如DAP[19],ALE[20],AREN[21],APN[22],LDF[23],TransZero[18],LsrGAN[24]等)作比较,该文分别在零样本通用数据集和建筑风格数据集上进行实验。

如表3所示,在通用数据集CUB上,DAM-ZSL模型的平均精度为75%,比TransZero模型提高了1.3百分点,说明DAM-ZSL能够学习与属性信息高度相关的视觉特征表示,学习的视觉区域更能表现图像的主体对象。

表3 不同模型方法在两个数据集上的比较

在表3中,将零样本学习用于Architecture Style Dataset上,DAM-ZSL模型的分类精度为39.1%,相比TransZero模型和AREN模型分别提高0.7百分点和0.9百分点,表明将通道和空间注意力应用于零样本分类模型中能够聚焦图像的细节元素区域。同时,将DAM-ZSL与LsrGAN算法进行比较,分类精度提高了0.2百分点,说明虽然LsrGAN算法利用语义正则化损失(Semantic Regularized Loss)使生成的未知类图像更加接近真实图像,但由于没有充分考虑建筑图像中与语义向量相关的细节元素的视觉特征对分类任务的影响,从而导致其精度略低于DAM-ZSL模型。与APN属性原型网络相比,文中模型分类结果稍差,原因在于APN学习属性原型,将属性原型定位到视觉区域中,能够更加有效地减少匹配样本数量,在数据量小的数据集中影响更大。

图3展示建筑风格数据集中5个类别的预测值与真实值之间的混淆矩阵。可以看出哥特式风格的准确率较高,原因在于其自身的建筑元素与其他未知类别的建筑元素相差较大,如玫瑰窗是其独有的,不会导致误分类。帕拉迪奥式建筑的整体对称是对已知类中古罗马和希腊建筑对称性的传承,能够学习到帕拉迪奥式建筑与已知类之间的语义属性关系,实现语义迁移,但其十字拱与巴洛克建筑的圆拱门存在语义干扰,容易导致其准确率稍差。

图3 Architecture Style Dataset未知类的混淆矩阵(%)

3.4 消融实验

为进一步评估双注意力机制对零样本分类结果的影响,进行了消融实验,结果如表4所示。当不使用双注意力机制时,分类精度明显小于完整的模型(DAM-ZSL)。在CUB数据集中,精度下降1.2百分点,在Architecture Style Dataset中,下降了2.6百分点。当使用通道注意力时,由于数据集中收集的图像参差不齐,CUB数据集中图像的目标主体更清晰,而建筑风格数据集中图像包含建筑主体及树、人、车等非建筑元素,因此分类结果对于CUB数据集影响不大,但对建筑风格小数据集上提高1.8百分点,说明通道注意力模型能够有效地去除背景等非建筑元素的影响,提取到建筑物本身。当使用空间注意力而不使用通道注意力时,提取到的视觉特征是图像中空间结构性较强的区域,对建筑风格数据集来说,图像的空间组成较明显,因此分类精度提高2.1百分点。当结合通道注意力和空间注意力对图像提取特征时,能提取图像中与属性相关的视觉区域,使分类结果更准确。

表4 双注意力机制对ACA精度的影响 %

为了直观地表示双注意力机制在提取局部判别特征的有效性,使用Grad-CAM将DAM-ZSL模型提取出的注意特征图可视化,如图4所示。文中模型能够提取出与建筑风格分类相关的局部细节特征,如哥特式建筑的玫瑰窗,这说明将通道-空间双注意力网络引入零样本分类任务中使学习到的视觉特征更加具有判别性。

4 结束语

为了对训练集中未知类的建筑图像进行正确分类,提出了一种基于双注意力机制的零样本建筑图像分类方法,结合通道注意机制和空间注意机制提取了建筑风格图像中与属性相关的判别性特征,同时将局部判别性特征和属性特征映射到同一子空间中,使公共子空间中存在丰富的视觉信息和类别语义属性之间的关系信息,并使用最近邻算法实现了对未知建筑风格样本的有效分类。在之后的工作中将根据语义信息结合图卷积网络构建类别之间的关系,进一步提高零样本建筑风格图像分类结果。

猜你喜欢
类别注意力语义
让注意力“飞”回来
语言与语义
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
“上”与“下”语义的不对称性及其认知阐释
服务类别
认知范畴模糊与语义模糊
论类别股东会
中医类别全科医师培养模式的探讨
聚合酶链式反应快速鉴别5种常见肉类别