特征融合网络:多通道信息融合的光场深度估计

2021-01-11 13:42张旭东
图学学报 2020年6期
关键词:光场卷积深度

何 也,张旭东,吴 迪

特征融合网络:多通道信息融合的光场深度估计

何 也,张旭东,吴 迪

(合肥工业大学计算机与信息学院,安徽 合肥 230009)

光场相机可以仅在一次拍摄中记录场景的空间和角度信息,所生成的图像与传统二维图像相比包含了更多的信息,在深度估计任务方面更具有优势。为了利用光场图像获取高质量的场景深度,基于其多视角的表征方式,提出了一种具有多通道信息高效融合结构的特征融合网络。在人为选择特定视角的基础上,使用不同尺寸卷积核来应对不同的基线变化;同时针对光场数据的多路输入特点搭建了特征融合模块,并利用双通道的网络结构整合神经网络的前后层信息,提升网络的学习效率并减少信息损失。在new HCI数据集上的实验结果显示,该网络在训练集上的收敛速度较快,可以在非朗伯场景中实现精确的深度估计,并且在MSE指标的平均值表现上要优于所对比的其他先进的方法。

光场;深度估计;卷积神经网络;特征融合;注意力;多视角

在计算机视觉领域中,深度反映了场景的三维空间信息,是超分辨率重建、目标识别、语义分割、显著性检测等计算机视觉任务的基础。因此,深度估计的研究对目前计算机视觉领域的发展具有重要的意义。传统的手持相机成像方式是在一个固定的视点采集场景的信息,生成的图片中不直接包含深度信息,依靠此类图片估计出可靠的深度信息不仅困难,而且很难满足对精确度的要求。与传统的手持相机结构不同,光场相机[1]在主透镜与传感器之间放置了一个微透镜阵列。得益于其特殊的光学结构,光场相机可以捕获场景中多个角度的光线,使用者在后续不仅可以自由选择焦点和视角生成图像,还可以根据不同的信息整合规则生成不同性质的图像,如多视角和EPI(epipolar plane image)图像等,这些成像形式所包含的信息要比单目成像更加丰富,为进一步的处理提供了有效的数据基础。

近年来光场的深度估计主要分为传统方法和深度学习方法。常用的传统方法主要有基于多视角匹配的方法和EPI方法。光场的多视角匹配的方法由单目图像的立体匹配发展而来,其优势在于光场可以使用多个视角的约束,且基线大小固定,无需人为标定[2]。WILLIEM等[3]针对场景的遮挡以及噪声问题,设计了一种角度熵约束(constrained angular entropy cost)实现了对遮挡物的预测,提升了算法对噪声的鲁棒性,但是该方法在物体的边界效果一般;STRECKE等[4]使用多视角焦堆栈构建匹配成本量,并针对多标签深度优化深度值不连续问题设计正则化优化方法,提升深度值预测的平滑性,虽然可以提升曲面情况下深度估计的效果,但对某些深度不连续的场景效果较差;GUO等[5]使用多方向部分角相干性来实现精确的深度估计,从而显式地处理场景遮挡,然而如果遮挡不在选取方向上,就无法得到正确预测。EPI方法则是主要使用EPI图像或者借助EPI特性来估计深度信息,其图像是一种适用于光场的特定表征形式,成像依据是利用光场的几何特性,可以在一个2D的切片中同时包含角度和空间信息[6]。SHENG等[7]提取多视角中所有方向的EPI特性,以解决场景中的遮挡问题,该方法缺点是和单方向的EPI方法相比计算量巨大;SCHILLING等[8]基于EPI图像使用了直接结合深度与遮挡的模型,并提出了一种局部优化方案,不仅提升对物体边界预测准确度,也对平滑曲面的预测有效,但是局部优化在处理全局类型的特征时不能保证精确度。ZHANG等[9]在2D EPI中集成旋转平行四边形算子,通过最大化平行四边形窗口的2个部分之间的分布距离来测量EPI斜率,以改善基于EPI的方法对强遮挡与噪声不鲁棒的特点,然而该方法的提升仅限于对比基于EPI的传统方法,并不能克服EPI本身的几何特性造成的限制。传统方法的局限在于只在特定问题的处理上面效果优秀,推广到其他情形上时则无法表现出优势,并且传统方法主要是依靠人的先验知识进行模型设计,算法通常较复杂,需要时间较长。

与传统方法不同,基于深度学习方法的光场深度估计并不解决场景的某一类特定问题,研究人员只要提供充足的训练数据以及设计适当的网络,就可以得到精确且鲁棒的深度估计结果。因此要想提升算法的性能,除了使用资源丰富的数据集,还需要考虑更为有效的网络结构。近年来大量文献主要使用卷积神经网络(convolutional neural networks, CNN)对场景进行像素级的预测。HEBER等[10]建立了一个U型编码-解码网络结构来预测光场的几何信息,在低计算量前提下获得了精确的结果,但是对于数据的预处理不够精确;JOHANNSEN等[11]则基于光场的EPI图像,使用了一种特殊设计的稀疏分解来得到EPI中的深度-方向关系,该方法优势在于对场景中的反射或透明表面的深度也可以有效预测,然而由于对数据的使用仍然只局限于水平和垂直方向的EPI图像,导致网络学习到的信息不够充分。SHIN等[12]在光场的多视角阵列中按照EPI特性提取了4个顺序的图像,相比较于2个方向的选取,该预处理方式加强了视角保留的信息,从而在深度估计上取得优秀的效果。但是该网络在融合输入信息时仅仅做了堆叠处理,无法高效利用不同通道的信息,此外在主网络只使用了简单的CNN结构。

为了在现今有限的数据基础上,实现鲁棒且精确的深度估计,本文受EPINET[12]启发,设计了一种实现多通道信息融合的特征融合网络FANET (feature assigning network),首先基于EPI特性排列多视角数据作为网络的输入,并设计不同尺寸卷积核来应对不同视角的基线变化;之后基于注意力机制设计了输入特征融合模块(feature assigning block,FA_block),对网络的输入进行加权融合,使后续的网络可以充分利用不同通道间的信息;最后使用前后层连接的结构设计卷积层主网络DCNET (double-channel network),减少因多层卷积引起的纹理和细节信息的损失。对比以往的深度学习的方法,本文的方法优势主要如下:

(1) 根据光场的EPI特性排列多视角序列,并根据相邻视角的基线不同使用不同大小的卷积核提取特征,在保留有效信息的同时降低数据的冗余度;

(2) 基于注意力加权思想设计了特征融合模块FA_block,使网络在多通道融合时自适应调整学习的比重;

(3) 搭建前后特征层联合的网络DCNET,减少了因网络层数加深带来的信息损失。

本文在new HCI光场数据集上进行了对比实验,并分析了网络的各部分对整体性能的影响。通过对比实验可以证明,本文方法可以有效提升最终深度估计的效果。

1 本文方法

本文的网络整体流程图如图1所示。网络整体分为3个部分,分别为输入层的四通道输入用于提取视角的EPI特性并降低数据冗余,融合层的FA_block融合模块用于四通道特征融合,以及网络主体部分的DCNET学习场景深度。其中输入层依据EPI特点排列多视角对数据预处理并调整卷积核大小来适应不同视角的基线变化,在融合层针对不同的输入特征进行注意力机制加权,最后在卷积层结合多层特征连接的结构学习场景的深度信息。网络特点为:①在网络的支路层上自主加权,增强网络主体的信息利用率;②采用双通道网络结构连接前后特征,减少逐层连接方式下的信息损失。后续小节对每个模块的细节分别进行讨论。

1.1 基于EPI特性的四通道输入

对光场数据输入方式的选取相当于对信息的初步筛选,可以突出数据的某些关键信息使之更利于网络的学习。因为光场图像比普通的图像包含了更加丰富的信息,如果不进行预处理会有2个问题:①庞大的数据量会加大学习的难度;②因为相邻视角间的基线较窄,包含有大量的相同信息,给网络增加了大量不必要的计算。因此,在去冗余的同时减少有效信息的丢失是选择输入方式的主要目标。文献[12]依照EPI的单方向特性,在多视角阵列中按照同一排列的方向选取视角,一共选择了4个方向的输入,将原81个视角缩减到了33个(中心视角重复使用4次),大大减少了数据量,并且因为预先把同一方向的视角排列作为输入,这就等于预先筛选出了视角间的EPI特性,降低了网络的学习难度,使学习效率得到提升。但为了应对窄基线带来的细微变化,该文献使用了2×2的小卷积核,产生部分场景感受野不足的问题。为了解决该问题,本文在四通道的输入基础上,使用不同大小的卷积核。在水平和垂直方向的输入,因为只有一个方向的变化,所以使用2×2的卷积核来提取特征;而在对角线方向上的相邻视角间包含2个方向的变化,因此使用4×4的卷积核(图2)。后续通过实验验证了此种方式的有效性,相关细节见2.4节。

图1 算法整体流程图

图2 输入视角选取方式和浅层特征提取的网络结构

1.2 FA_block融合模块

在经过卷积层提取特征之后,需要把4个通道的特征进行融合。目前最广泛采用的方法就是直接连接特征。此种方式结构简单,且无需引入额外参数。但缺点是没有引入对特征层间关系的表述,仅仅交由后续的卷积层来学习,且每一层的权值都是一样的,无法针对有效信息和冗余信息调整比重。HU等[13]于2017年提出了一种通道注意力机制模块(squeeze and excitation block, SE_block),通过使网络自主学习通道维度上面的权值在特征块的通道维度上进行加权,该模块不仅可以提升整体网络的表现,并且可以与多种先进的网络架构结合。WOO等[14]和LI等[15]把加权的思想扩展到了其他的维度(空间和卷积核)。本文基于该加权思想设计了一种适应于光场四通道输入结构的融合模块FA_block,对四通道输入进行加权融合,提升后续网络的效率(图3)。

图3 FA_block的网络结构

FA_block基于加权的思想设计,通过对输入的每一个支路加权融合,提高网络的学习效率。模块的特点是可以增大每一次学习到的权值的影响,提升学习效率,并且压缩所需要学习的参数,减少计算量。该模块主要包含5个部分:通道压缩(Channel Squeeze)、空间压缩(Spacial Squeeze)、门机制(Excitation)、扩展(Expand)和加权(Rescale)。设网络模块输入输出分别为

(1) 将输入的特征在通道维度上压缩,即

为了对每一个输入所压缩成的通道进行表达,需要对进行空间上的压缩。使用平均池化,把每个通道的二维特征在空间维度上进一步压缩,则每一个二维特征平面就被压缩成1×1的单通道特征。相当于Squeeze操作,即

(2) 进行Excitation操作,通过简单的门机制实现,使用sigmoid函数和relu,即

(3) 将扩展成4′大小的向量,即

其中,为扩张倍数,数值上等于压缩操作前各支路的通道数,此处取=70,该步骤把中的每个通道复制70倍,再连接起来形成1×280的向量。

(4)再与模块的输入相乘加权,得到融合后的最终输出,即

FA_block是为了针对光场数据的特殊处理方式而设计的结构,相比于SE_block,其有以下2个优势:①SE_block需要在多个卷积层都添加模块才能有较好的效果,而FA_block只需要设置在特征融合层就可以有效提升算法表现;②就单层对比而言,FA_block也仅仅只需要学习4个通道的权值,相比较于SE_block的全通道加权其学习成本也有所降低。单个的SE_block虽然在通道维度的权值学习具有较大的灵活性,但随着层数叠加,单层上面的权值分配效果会被稀释而无法对整体网络产生明显的效果。FA_block可以扩大网络每一次学习到的权值的影响,降低网络的学习成本。

1.3 DCNET网络结构

在输入的四通道特征融合之后,需要使用得到的特征块进行视差估计。EPINET中使用“Conv- Relu-Conv-BN-Relu”结构的卷积块堆叠7次,以获得高质量的预测结果。HE等[16]和YE等[17]的工作证明在不同卷积层或不同网络支路的信息互相补充可以有效缓解卷积操作带来的信息丢失等问题,提升网络的效果。而YU等[18]的工作指出,信息在网络中传递时会有少量的丢失,而使高低层的特征间产生信息差异,具体表现为低层特征分辨率更高,主要包含了位置、细节等信息,但是语义性较低,噪声更多;而高层特征分辨率较低,具有更强的语义信息,但细节、纹理信息较少,通过对不同层特征的整合可以带来网络性能的提升。受以上工作的启发,本节设计了一种双支路的网络结构,把对应前后层的特征连接起来,加强前后卷积中的信息联系,减少因卷积层数增加所带来的信息损失。网络的整体结构如图4所示。

图4 DCNET的网络结构

DCNET共有2路网络,其中支路的结构和EPINET相同,即“Conv-Relu-Conv-BN-Relu”结构的卷积块堆叠7次。但该条支路并不作为网络的最终输出,本文在该支路每个卷积块的后面单独引出一个通道数压缩减半的特征块,分别与每个后层的特征块直接连接起来,则主路的每一个卷积层都包含了支路中前、后两部分信息,卷积核大小2×2,步长为1。后续实验证明了该结构的优势,具体细节见2.4节。

2 实验结果及分析

为了验证本文算法的效果,在new HCI光场数据集[19]的上面进行实验,并对比了近三年光场深度估计方向的先进方法,分别定量与定性地分析了实验结果。实验PC主机配置为Core i7-3770k CPU 3.5 GHz×8 cores,NVIDIA GTX 1080 8 GB,系统是Ubuntu 16.04,使用的软件为tensorflow-gpu 1.12.0,cudatoolkit 9.2和cudnn 7.3.1。

2.1 实验数据集

实验采用new HCI光场数据集。该数据集为目前最完善的光场图像合成数据集,主要使用训练和测试2个部分。其中训练数据有16个场景,包含了各种不同的物体、纹理和材质。每一个场景下都有81个子视图,相当于9×9的角度分辨率,每一个子视图分辨率为512×512。同时为了消除反射和高光区域的影响,对其中非朗伯面场景做了标记处理。每一个场景都有对应深度图(ground truth)用于监督学习。测试数据选取7个场景,如图5所示。空间和角度分辨率与训练集相同,并也有相应的深度图作为定量评判标准。

图5 测试数据集的7个场景

2.2 数据增强与训练细节

深度学习想取得较好的效果需要大量的数据支持,而new HCI数据集所包含的16个训练场景对于学习的需求是不够的,数据的不充足甚至可能会给网络带来过拟合问题。为了解决该问题,本文使用文献[11]相似的方法对数据集进行了数据增强处理。包括EPI旋转、缩放、翻转、视角平移、色彩增强以及随机颜色变换。

EPI旋转与普通图像的空间旋转不同,光场的EPI图像本身就包含了一维的角度信息,所以在子视图进行旋转的时候也要同时考虑方向的变化。本文第2节提到了EPI的使用是在多视角中选取一个方向的所有子视图。因此,在二维旋转的同时,还需要改变视角的通道变化(例如水平方向的通道输入旋转90°时,就变成了垂直方向的通道输入),如图6所示。

图6 视角旋转操作示意图

除了旋转增强外,本文还使用了尺度缩放(缩放系数=(1,2,3,4))和图像翻转,色彩增强(增强系数=(0.5,2)),随机区域灰度变换[0,1]和伽马值变换[0.8,1.2]。通过以上数据增强手段,可以在一定程度上弥补数据量不足的问题,提升网络的学习效果。另外在对训练数据进行增强时,对应的深度图也要进行相应的变换才能保证训练的正确。

2.3 实验设置

训练过程中将数据按照29×29大小的图像块分割后再进行批量训练,每一批含有32个图像块,主网络的卷积层滤波器大小为2×2,步长为1,在文献[11]中已被验证更适合处理光场相邻视角间的窄基线问题。损失函数选择MAE,该损失函数具有对异常值的鲁棒性,可以在像素级预测中取得较好的效果。网络的优化方法选择Rmsprop,学习率设置为0.00001。

定量分析的评价指标选择均方误差MSE,计算公式为

其中,和分别为图像的长和宽;d和分别为真实深度值和算法深度值。除了MSE,本文还观察了各方法在阈值设定为0.07的条件下的坏像素分布图,以对结果定性分析。

2.4 实验分析

2.4.1 本文方法对比

本节以EPINET为基础对网络的各部分进行详细的对比分析。首先对不同的输入方式做了对比。实验同时采用了全视角堆叠的输入方式(Full views),半视角输入(Half views,每2个视角中选取一个,相互间隔,视角数量减少到41个)与四通道输入方式(4 Channels)做了对比,结果见表1,其中最好效果黑色加粗标注。

表1 不同输入方式下的定量结果对比

由实验结果可见,对于网络的输入信息并不是一味地越多越好,网络的性能受所能学习的参数量、网络各层之间的关系等因素制约。由半视角输入和EPI输入的对比中还可以发现,筛选视角的方式也很重要。EPI的输入因为采用了一个方向上的视角固定排列,减少了角度变化的信息,所以提高学习效率。而半视角输入降低了角度分辨率,同时加大了视角间的基线,因此效果比全视角输入更差。这说明选择合适的视角筛选方法的必要性。

表2的实验是添加本文的各部分网络之后与基准方法EPINET的对比4个场景下的结果,其中从上至下依次为:EPINET;EPI_2K (使用不同大小的卷积核,本文1.1节方法);EPI_2K+FAB (使用不同卷积核并添加FA_block,本文1.2节方法);EPI_2K+FAB+DC (使用不同卷积核、添加FA_block融合模块以及DCNET,本文最终方法)。最后一列为4个场景下的平均值。最优结果黑色加粗标注,次优结果加下划线。

表2 使用本文不同方法的定量结果对比

单独考察各场景上的表现,在Cotton场景中,因为物体单一以及低纹理的特性,4种结构都取得了相近的结果,细微的数值差异可认为是在合理的误差范围内。而Dino和Sideboard物体稍多,其遮挡关系也较多一些,可以看出添加了FA_block的结构具有一定的提升,但是区分卷积核的方法以及使用DCNET仍然体现不出优势。经过分析认为,区分卷积核是为了应对不同的基线变化,双通道网络则是为了降低浅层纹理特征的丢失,两者都是应对细小特征的策略,所以在纹理复杂、遮挡细小且密集的场景中效果才会比较明显。在拥有较复杂遮挡情况的Boxes和Backgammon中对比实验结果,可以发现各部分网络的效果都有所体现。此外观察各场景上的平均值表现,可以进一步验证本文方法的有效性。

2.4.2 与其他方法对比

本文的对比实验基于new HCI数据集的7个测试集场景,分别定性与定量地分析坏像素分布图和MSE指标。图7和图8分别为坏像素和MSE的定性结果(从上至下场景依次为:Cotton, Boxes, Dino, Sideboard, Stripes, Backgammon, Pyramids),其中图7采用二值化显示,BP>0.07显示为红色区域,否则为绿色;图8中MSE的差值正负表现为从红色向蓝色区域逐渐过渡。对比方法中LF-PAC[5]和CAE[3]为基于多视角的深度估计方法,OFSY_330/DNR[4]使用的是焦堆栈来预测深度信息,SPO-MO[7],OBER-cross+ANP[8]是基于EPI的深度估计,以上方法均为传统方法,FUSIONNET[20]是结合EPI特性与重聚焦线索的深度学习方法,EPINET[12]是basline方法,FANET为本文方法。表3为各方法在7个场景下的MSE定量指标结果,其中最后一列(Ave)为所有场景平均值。每列的最优值黑色加粗标注,次优值加下划线。

图7 与其他方法在坏像素分布图上的对比

图8 与其他方法在MSE分布图上的对比

通过图7的坏像素分布对比可以发现,在低纹理的场景Cotton,Dino,Pyramids和小深度变化场景Sideboard中,本文方法均可以取得较好的效果,坏像素较少;Boxes,Backgammon场景具有密集或细小的遮挡,Stripes前后景低对比度,三者的场景中可以发现,在大量遮挡存在的区域或者密集的物体边界处,本文方法容易发生错误预测。在对比方法中,LF-PAC和CAE是基于多视角建立遮挡代价函数的方法,LF-PAC在遮挡较多且遮挡边界主要是直线的场景Backgammon中效果最好,CAE则在边界处的预测误差较大,OFSY_330/DNR是基于焦堆栈的方法,在具有细小的深度变化场景(Boxes, Stripes)中效果一般。SPO-MO,OBER-cross+ANP则是基于EPI的深度估计,对含有深度沿连续的直线变化的低纹理场景Pyramids和Stripes效果较好,但是在Sideboard和Dino场景中无法得到优秀的结果。基于学习的3种方法表现比较相似,因此通过定量指标MSE来对比结果的好坏。综合图8和表3的数据可以得出,本文方法在大部分场景下都可以取得优秀的结果,仅在处理细微的遮挡或密集的纹理区域时效果稍差。

表4是本文方法在数据集各场景上的平均运行时间对比。通过对比可以发现,EPINET和FANET因为是基于学习的方法,网络参数已经训练完毕,可以快速完成深度估计,对比传统方法SPO-MO和OBER-cross+ANP在时间上具有明显的优势。

表3 与其他深度估计方法的定量对比

表4 各算法的平均运行时间对比(s)

最后为了考察FANET和EPINET在训练数据集上的收敛表现,对训练集上坏像素(bad pixel, BP)的平均值随迭代次数(epoch)的变化情况进行了观察,结果如图9所示。

图9 FANET和EPINET收敛曲线对比

通过曲线可以清晰发现,在迭代过程中,经过相同次数后本文网络可以更加准确地学习到训练数据的有效信息,表明相比较于EPINET,本文方法收敛速度更快,训练效率更高。

3 总 结

基于光场图像的深度估计效果目前受限于光场相机的结构特点,需要在有限的空间内对空间分辨率和角度分辨率中做出权衡。为了在现有的光场数据资源基础上获取高精度的深度图,本文设计了一种特征融合网络,在提取光场多视角的EPI特性分通道输入网络的基础上根据视角变化基线的不同设置不同的卷积核,以应对不同视角排序间的基线变化,同时通过FA_block特征融合模块对通道特征加权及融合,增强了网络的学习效率,最后使用双通道网络DCNET学习场景的深度信息。实验表明在相同的数据基础下,本文方法在大部分场景均可以得到精确的深度图。后续工作考虑在信息的融合模块上整合不同尺度的特征,以提高对遮挡和边界特征的预测效果。

[1] 张旭东, 李成云, 汪义志, 等. 遮挡场景的光场图像深度估计方法[J]. 控制与决策, 2018, 33(12): 2122-2130.ZHANG X D, LI C Y, WANG Y Z,et al. Light field depth estimation for scene with occlusion[J]. Control and Decision, 2018, 33(12): 2122-2130 (in Chinese).

[2] WU G C, MASIA B, JARABO A, et al. Light field image processing: an overview[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(7): 926-954.

[3] WILLIEM, PARK I K, LEE K M. Robust light field depth estimation using occlusion-noise aware data costs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(10): 2484-2497.

[4] STRECKE M, ALPEROVICH A, GOLDLUECKE B. Accurate depth and normal maps from occlusion-aware focal stack symmetry[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2814-2822.

[5] GUO Z H, WU J L, CHEN X F, et al. Accurate light field depth estimation using multi-orientation partial angular coherence[J]. IEEE Access, 2019, 7: 169123-169132.

[6] GORTLER S J, GRZESZCZUK R, SZELISKI R, et al. The lumigraph[C]//Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1996: 43-54.

[7] SHENG H, ZHAO P, ZHANG S, et al. Occlusion-aware depth estimation for light field using multi-orientation EPIs[J]. Pattern Recognition, 2018, 74: 587-599.

[8] SCHILLING H, DIEBOLD M, ROTHER C, et al. Trust your model: light field depth estimation with inline occlusion handling[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4530-4538.

[9] ZHANG S , SHENG H , LI C , et al. Robust depth estimation for light field via spinning parallelogram operator[J]. Computer Vision and Image Understanding, 2016, 145: 148-159.

[10] HEBER S, YU W, POCK T. Neural EPI-volume networks for shape from light field[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 2252-2260.

[11] JOHANNSEN O, SULC A, GOLDLUECKE B. What sparse light field coding reveals about scene structure[C]//Proceedings of 2016IEEE Conference on Computer Vision and Pattern Recognition.New York: IEEE Press, 2016: 3262-3270.

[12] SHIN C, JEON H G, YOON Y, et al. Epinet: a fully-convolutional neural network using epipolar geometry for depth from light field images[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4748-4757.

[13] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[C]//Proceedings of 2108 IEEE Conference on Computer Vision and Pattern Recognition.New York: IEEE Press, 2018: 7132-7141.

[14] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of 2018 European Conference on Computer Vision (ECCV). Heidelberg: Springer Nature, 2018: 3-19.

[15] LI X, WANG W H, HU X L, et al. Selective kernel networks[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 510-519.

[16] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[17] YE J W, WANG X C, JI Y X, et al. Amalgamating filtered knowledge: learning task-customized student from multi-task teachers[EB/OL]. [2020-01-09]. https:// arxiv.org/abs/1905.11569v1.

[18] YU W, YANG K Y, YAO H X, et al. Exploiting the complementary strengths of multi-layer CNN features for image retrieval[J]. Neurocomputing, 2017, 237: 235-241.

[19] HONAUER K, JOHANNSEN O, KONDERMANN D, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[C]//2016 Asian Conference on Computer Vision. Heidelberg: Springer, 2016: 19-34.

[20] ANONYMOUS. FusionNet[EB/OL]. [2020-04-06]. http://www.lightfield-analysis.net/.

FANET: light field depth estimation with multi-channel information fusion

HE Ye, ZHANG Xu-dong, WU Di

(School of Computer and Information, Hefei University of Technology, Hefei Anhui 230009, China)

Compared with the traditional two-dimensional images, the images, generated by the light field camera capturing the spatial and angular information of the scene in only one shot, contain more information and exhibit more advantages in the depth estimation task. In order to obtain high-quality scene depth using light field images, a feature assigning network, of which the structure can efficiently fuse the multi-channel information, was designed for depth estimation based on its multi-angle representation.On the basis of the artificial selection of specific views, convolution kernels of different sizes were utilized to cope with different baseline changes. Meanwhile, a feature fusion module was established based on the multi-input characteristics of light field data, and the double-channel network structure was used to integrate the front and back layer information, boosting the learning efficiency and performance of the network. Experimental results on the new HCI data set show that the network converges faster on the training set and can achieve accurate depth estimation in non-Lambertian scenes, and that the average performance on the MSE indicator is superior to other advanced methods.

light field; depth estimation; convolutional neural network; feature fusion; attention; multi-view

TP 391

10.11996/JG.j.2095-302X.2020060922

A

2095-302X(2020)06-0922-08

2020-05-20;

2020-06-16

20 May,2020;

16 June,2020

国家自然科学基金面上项目(61876057,61971177)

General Project of National Natural Science Foundation of China (61876057, 61971177)

何 也(1995-),男,安徽六安人,硕士研究生。主要研究方向为光场成像技术、计算机视觉。E-mail:18656417409@163.com

HE Ye (1995-), male, master student. His main research interests cover light field imaging technology and computer vision. E-mail:18656417409@163.com

猜你喜欢
光场卷积深度
四增四减 深度推进
基于3D-Winograd的快速卷积算法设计及FPGA实现
深度理解一元一次方程
光场成像原理及应用技术
卷积神经网络的分析与设计
利用新型光场显微镜高速记录神经元活动和血流动态变化
从滤波器理解卷积
简约教学 深度学习
基于傅里叶域卷积表示的目标跟踪算法
光场图像重构算法仿真