基于改进HRNet的单幅图像苹果果树深度估计方法

2022-03-10 02:23张广犇
农业工程学报 2022年23期
关键词:单幅深度图编码器

龙 燕,高 研,张广犇

基于改进HRNet的单幅图像苹果果树深度估计方法

龙 燕,高 研,张广犇

(1.西北农林科技大学机械与电子工程学院,杨凌 712100;2. 农业农村部农业物联网重点实验室,杨凌 712100;3. 陕西省农业信息感知与智能服务重点实验室,杨凌 712100)

针对苹果自动采收获取深度信息的实际需求,以及目前单幅图像深度估计算法存在的空间分辨率低和边缘模糊问题,提出一种基于改进高分辨率网络(High-Resoultion Net, HRNet)的单幅图像苹果果树深度估计模型。首先基于HRNet构建多分支并行的编码器网络,提取多尺度特征,并通过引入密集连接机制强化特征传递过程中的连续性;为了减少冗余特征造成的噪声干扰,使用卷积注意力模块在通道及像素层级对融合特征进行重标定,强化特征图结构信息。在解码器网络中,使用条纹细化模块自适应地优化特征图的边界细节信息,突出边缘特征,改善边缘模糊问题,最后经上采样生成深度图。在NYU Depth V2公共数据集和果树深度数据集上进行试验。试验结果表明,引入密集连接机制,添加卷积注意力模块、条纹细化模块均能提升模型性能。提出的改进HRNet网络在果树深度数据集上的平均相对误差、均方根误差、对数平均误差、深度边缘准确误差和边缘完整性误差分别为0.123、0.547、0.051、3.90和10.59,在1.25、1.252、1.253阈值下的准确率分别达到了0.850、0.975、0.993;在主观视觉上,改进HRNet网络生成的深度图有清晰的边缘以及较多的纹理细节。该方法在客观指标和主观效果上均有良好的表现。

图像处理;深度学习;苹果果树;单幅图像深度估计;密集连接机制;卷积注意力模块;条纹细化模块

0 引 言

在苹果的机械化采收中,深度信息的获取是实现果实精准定位、机械臂避障采收和机器人自主作业的关键[1-3]。传统方法获取深度信息常利用激光雷达等深度传感器,但这类传感器易受环境和自身零部件干扰,得到稠密而准确的深度图成本过高,无法广泛应用[4]。基于图像的深度估计方法利用输入RGB图像的纹理、形状和空间关系特征直接估计场景深度,无需昂贵的仪器设备和专业人员,就能获得高精度深度信息,应用前景更加广阔[5]。基于图像的深度估计方法根据输入图像数量的不同又分为多幅图像深度估计和单幅图像深度估计[6]。其中,基于多幅图像的深度估计包括立体视觉匹配和运动恢复结构等,这些方法都是建立在多视点特征对应上,需要图像对或图像序列作为输入,对输入有较强的限制且预测结果受光照变化和物体纹理的影响较大,标定过程复杂、计算时间较长[7]。相比之下,基于单幅图像的深度估计对设备和环境要求较低且易于实现,因此具有更加广泛的应用价值。

近年来,随着深度学习的迅速发展,基于深度学习的单幅图像深度估计算法也得到了广泛的研究[8-11]。Eigen等[12]首次将卷积神经网络用于深度估计,通过构建粗、细两个尺度的深度预测模型,分别提取图像的全局信息和局部信息,再将两者融合得到深度图,但由于网络层数较少,预测的深度图分辨率较低,仅为原图大小的四分之一。Laina等[13]提出一种基于残差学习的全卷积网络,网络结构更深,得到了分辨率更高的深度图,但在特征传递过程中丢失了较多的细节信息,物体边缘模糊问题未得到解决。Alhashim等[14]设计了一种简单的编解码器网络,使用在图像分类任务下效果较好的预训练模型作为编码器,相较于复杂的多网络结构得到了更精确的深度图,验证了迁移学习方法在单幅图像深度估计任务中的有效性。Xue等[15]提出一种边界诱导和场景聚合网络,考虑到最远区域和边界线索在深度估计中的重要性,设计了深度相关编码器、自底向上边界融合模块和条纹细化模块,生成的深度图拥有较多的纹理细节,但是对某些单一大平面组成的场景往往存在性能退化和深度失真情况。Fu等[16]将深度估计从回归任务转换为分类任务,但离散化深度难度较大,导致深度图复杂区域出现明显失真。Bhat等[17]设计了Adabins模块,将深度范围划分为256个不同区间,取每个区间的中心值作为该区间像素深度值,最终深度为区间中心深度值的线性组合,分类任务中的深度离散问题也得到解决。温竣文[18]提出一种基于多尺度注意力导向网络的深度估计算法,通过引入残差通道注意力和空间注意力机制,优化场景结构、增强边界细节,生成的深度图质量得到提高,物体轮廓信息更加细致。霍智勇等[19]利用多尺度结构相似度损失和尺度不变梯度匹配损失组成联合损失,对相对深度点对进行排序实现单幅图像深度估计,生成的深度图具有更加准确的几何形状,边缘也更加清晰。

上述算法极大地促进了深度估计技术的发展,但仍存在以下两个问题:1)传统对称性网络对全局特征提取能力较差,采用跳跃连接逐级融合低层特征时容易引入背景噪声,导致场景深度估计准确性不高;2)现有深度估计网络对场景中纹理等几何信息解析能力不足,导致深度图细节不足,边缘模糊。

针对以上两个问题,本研究提出一种基于改进HRNet的单幅图像苹果果树深度估计模型。首先基于HRNet构建多分支并行的编码器网络,提取包含更多上下文信息的多尺度特征,并通过引入密集连接机制强化特征传递过程中的连续性;使用卷积注意力模块在通道及像素层级对融合特征进行重标定,减少冗余特征造成的噪声干扰,强化特征图结构信息,提高模型深度特征提取能力。在解码器网络中,使用条纹细化模块对水平与垂直正交方向的边界像素进行聚集,突出边缘特征,优化特征图细节,改善物体边缘深度预测失真问题,最后经上采样生成深度图。

1 材料和方法

1.1 材料

1.1.1 果树深度数据集

搭建苹果果树图像采集平台,由一台Azure Kinect DK相机和一台带有8 GB内存、Win 10操作系统和配套软件程序的计算机组成,其中深度相机采用NFOV 非装箱模式,分辨率大小640×576像素,深度范围为0.5~3.86 m,彩色相机分辨率大小为1 920×1 080像素。在相机配准的过程中,深度图经超分辨率、viewpoint 转换与彩色图像对齐。

图像数据于2021年8-10月采集自陕西省咸阳市乾县宏霖农业苹果园,采集时,始终保持相机的中心线与果树垂直,在不同的时间段内进行顺光和逆光采集,以使图像数据集更具多样性。同时,为方便模型训练,将采集到的图像进行中心裁剪,获得对齐后大小为640×480像素的RGB彩色图像和深度图,共1 285对图像,包含顺光632对,逆光653对。其中,深度图为单通道灰度图像,利用着色算法对深度图进行填充后,使用Python中matplotlib.pyplot包着色,进行可视化处理。数据集部分图像如图1所示。

将采集到的1 285对图像按照6∶4的比例分为训练集(771对)和测试集(514对),为丰富图像数据集,避免过拟合,增强模型泛化能力,使用以下3种方式对训练集进行数据增强:1)水平镜像,彩色图像和深度图同时水平翻转,概率设置为50%;2)色彩抖动,将彩色图像的亮度、对比度和饱和度按照比例因子c∈[0.7,1.3]进行随机缩放;3)随机旋转,彩色图像和深度图在角度范围∈[-6°,6°]内同时旋转,最后共获得2 860对图像。

图1 Kinect相机采集的苹果果树深度数据集示例

1.1.2 NYU Depth V2公共数据集

NYU Depth V2是最常用的深度数据集之一,纽约大学的Silberman等利用微软的Kinect V2相机,采集了464个不同室内场景的RGB图和深度图,共407 024帧RGBD图像对构建数据集[20]。数据集中图像大小为640×480像素,深度范围为0~10 m,本文在其包含训练集50 688幅、测试集654幅图像的子集上进行研究。

为了取得更好的鲁棒性与泛化能力,基于深度学习的单幅图像深度估计要求训练数据必须有更多的数量和类型,但数据采集是一项耗时耗力的任务,因此,迁移学习得到越来越多的关注。迁移学习将源任务中学习到的特征应用到新的目标任务中,利用预训练模型学到的丰富特征,可以在数据量有限的条件下,大幅提高网络的训练效率和预测精度[21]。因此,本文基于迁移学习思想,首先在公共数据集NYU Depth V2上对网络模型进行预训练,再将预训练模型权重迁移到果树深度数据集上训练微调参数。

1.2 方 法

本文基于HRNet构建编码器提取多尺度特征,使用密集连接机制强化特征传递的连续性;添加卷积注意力模块进行特征重标定,强化结构信息,提高深度特征提取能力;在解码器网络中添加条纹细化模块突出边缘特征、改善边缘模糊,最终生成高质量深度图。

1.2.1 改进HRNet网络结构

单幅图像深度估计的本质是构建一个关联图像信息和深度信息的模型[22],在规定的范围内对图像中每一个像素进行深度预测,需要综合特征图分辨率、多尺度信息融合等多方面因素。传统的对称性编解码器网络往往先经卷积池化得到低分辨率深度特征,再逐步上采样增加特征图的分辨率得到深度图。但是简单的上采样往往会丢失较多的全局信息,采用跳跃连接逐级融合低层特征时又容易引入背景噪声。中科大和微软亚洲研究院提出的高分辨率网络[23](High-Resoultion Net, HRNet)在整个特征提取的过程中始终保持高分辨率的特征图,而多尺度信息则通过在高分辨率特征图主分支上逐渐并行加入低分辨率的特征子分支的方式来获取,强化上下文语义特征提取能力的同时,最大限度地保留图像信息,能够更好地满足单幅图像深度估计任务需求,因此本文采用HRNet作为基础框架。

本研究提出的改进HRNet的多分支深度估计网络结构如图2所示,主要由基于HRNet多尺度特征提取的编码器和恢复特征图尺寸的解码器网络组成。将卷积神经网络相邻两个降采样模块间的卷积过程称为一个阶段(Stage),基于HRNet的多分支编码器网络共4个阶段,Stage1只包含一个最高分辨率分支,从Stage2开始,每个阶段依次增加一个平行分支,将前一阶段个分支的输出作为后一阶段+1个分支的输入,新增分支为前一阶段最低分辨率分支的一半,通道数则提升两倍。编码器最终输出4个尺度的特征图,通道数分别为64、128、256、512,图像分辨率则分别为原图的1/4、1/8、1/16、1/32。为了提高特征传递过程中的连续性,引入密集连接机制,使用denseblock模块替换Stage1中原Bottleneck模块及后续新增分支中的basicblock模块。不同分辨率特征统一尺寸后进行通道拼接,实现不同分支间的特征交互,再经卷积注意力模块(Convolutional Block Attention Module, CBAM),在通道及像素层级对融合特征进行重标定,减少噪声干扰。在解码器中使用条纹细化模块(Stripe Refinement Module, SRM)自适应地学习特征图边界信息,细化高分辨率深度,最后经上采样生成深度图,实现单幅图像深度估计。

注:d为denseblock模块;B为Bottleneck模块;b为basicblock模块;虚线框内为网络模块调整,使用denseblock模块替换原Bottleneck模块或basicblock模块;CBAM为卷积注意力模块;SRM为条纹细化模块。

1.2.2 使用密集连接机制改善网络结构

原HRNet网络中的basicblock模块、Bottleneck模块是通过像素级相加,建立层与层之间的短路连接,这有助于训练过程中梯度的反向传播,从而训练出更深的网络,但以相加的方式无法反推原来的输入特征,导致训练参数量大、过程复杂[24]。而本文改进HRNet网络中的denseblock模块则是在通道维度进行拼接,建立前层与后面所有层之间的密集连接[25],能够较好地保留原有特征,实现和加强了特征重用,有效减少了参数量,效率也得到提高。它的缺点在于对显存占用量较大,所以仅在每一阶段产生新分支特征图时使用。basicblock模块、Bottleneck模块、denseblock模块如图3所示。

1.2.3 添加卷积注意力模块提升模型精度

由于深度估计任务主要是对编码器网络产生的特征图进行逐像素预测,特征图中每个像素的位置对于输出结果的影响也应被充分考虑。同时,在编码器网络中不同分辨率特征的多次融合可能会引入噪声,造成信息冗余。因此,本研究将注意力机制应用在每个stage特征融合过程及编码器网络最终输出特征上。

首先对编码器网络中低分辨率特征图进行上采样或高分辨率特征图进行下采样获得统一分辨率特征图并进行通道拼接,然后采用卷积注意力模块(CBAM)在通道以及像素层级对融合特征图进行特征重标定。CBAM模块由通道注意力模块(Channel Attention Module, CAM)和空间注意力模块(Spatial Attention Module, SAM)串联组成[26]。对于给定特征图,CBAM模块会沿着通道和空间这两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化,CBAM结构如图4所示。由于CBAM是轻量级的通用模块,因此可以忽略该模块的开销而将其无缝集成到解码器网络架构中,并且可以与基础网络一起进行端到端训练。

1.2.4 添加条纹细化模块突出边缘特征

机械采收时果实目标的三维定位和枝干避障都需要精准的深度信息,单目图像深度估计常见的边缘模糊问题容易对机器人自主作业造成干扰。Xue等在2021年提出的条纹细化模块(Stripe Refinement Module, SRM)如图5所示,将条纹细化模块应用到解码器中,首先使用卷积核大小为3×11和11×3的条纹卷积,对水平与垂直正交方向的边界像素进行聚集[15],再经后续的特征融合与卷积可以较好的突出边缘特征,改善边缘模糊问题。

图3 三种模块结构

注:特征图大小为H×W,通道数为N;d为降维系数;Conv为卷积;Pool为池化;Softmax为归一化指数函数;Reshape为特征图重塑。

图5 条纹细化模块

1.2.5 损失函数

为了训练所提出的网络,将预测深度p与真实深度g间的损失定义为3个损失函数的加权和:

=l+l+l(1)

式中l为像素深度值损失,l为梯度损失,l为表面法向量损失。

因为果树主要集中在深度较浅区域,深度较深区域在图像中较少,所以使用深度差的对数作为损失函数以降低背景等较深区域对预测结果的影响,l计算公式为

式中为图像像素数。

考虑到场景深度通常离散,且在边界位置容易发生突变,定义l改善边缘失真:

对于细微结构误差,通过计算法向量夹角来减少物体表面波动对深度估计的影响,l计算公式为

1.2.6 模型性能评价指标

本文采用深度精度指标来评价深度预测的准确性,使用深度边界误差(Depth Boundary Error,DBE)来评价预测深度图中边缘的完整性和准确性。

1)深度精度指标

深度精度由平均相对误差(MRE)、均方根误差(RMS)、对数平均误差(log10)和不同阈值(thr)下准确率()4个指标组成,各指标表达式如下:

式中为测试集中所有图像像素点总个数。

深度精度评价指标中,REL、RMSlog10的值越小越好,不同阈值下准确率()的值越大越好。

2)深度边界误差

1.2.7 试验环境与参数设置

本文模型基于Tensorflow框架实现,在深度学习工作站上进行训练,其配置为AMDW-2245@3.90GHz×12,内存64 GB和显存11 GB的NVIDIA GeForce RTX 2080 Ti,操作系统为Win10,安装CUDA和CUDNN,python版本为3.7,tensorflow版本为2.2。首先在NYU Depth V2公共数据集上进行训练,之后利用迁移学习,在果树深度数据集上训练微调参数。使用Adam(自适应估计)优化器进行优化,设置初始学习率为0.000 1,优化器超参数1=0.9,2=0.999,每4个epoch降低10%。网络共训练60个epoch,步长为4。

2 结果与分析

2.1 网络消融分析

为了验证本文算法的有效性,对不同改进程度的HRNet网络进行试验。仅使用密集连接机制模块的网络记为HRNet-A,仅使用卷积注意力模块记为HRNet-B,仅使用条纹细化模块的网络记为HRNet-C,同时进行以上所有改进的记为改进HRNet。在NYU Depth V2公共数据集和果树深度数据集上对以上模型进行测试,REL、RMS、log10、不同阈值下准确率和深度边界定位误差结果如表1所示。同时,为了更直观地体现不同改进对网络预测结果的影响,在果树深度数据集上进行主观比较,深度图对比如图6所示。

表1 不同改进网络评价指标对比

从表1可以看出使用密集连接机制,添加卷积注意力模块,引入条纹细化模块都能不同程度提升网络的性能。

图6中,与真实深度图相比,原HRNet网络生成的深度图比较粗糙,有比较严重的深度失真、细节模糊问题。HRNet-A网络生成的深度图模糊问题得到改善;HRNet-B网络生成的深度图能较好地呈现图像深度信息,分辨率得到提高;HRNet-C网络和改进HRNet网络生成的深度图轮廓清晰,棱角分明,一些小尺寸物体的深度信息也得到了展现;改进HRNet网络生成的深度图整体效果最好,更接近真实深度图。

图6 不同改进网络在果树深度数据集上的估计结果

2.2 网络对比试验分析

将本文算法与当前主流的网络进行试验对比,包括文献[14]中算法(称为DenseDepthNet)、文献[15]中算法(称为BSNet)、文献[17]中算法(称为AdaBinsNet),进一步验证本文算法的先进性。客观评价指标结果如表2所示,网络模型参数量及平均预测时间如表3所示。

表2 不同算法评价指标对比

表3 不同算法模型参数量及平均预测时间

从表中可以看出,本文算法的深度精度和边界误差指标都优于DenseDepthNet、BSNet;与AdaBinsNet相比深度精度指标和深度边缘准确误差指标结果较差,但边缘完整性误差、模型参数量大小和平均预测时间都较小,有一定优势。

果树深度数据集上不同算法主观效果对比如图7所示,改进HRNet网络生成的深度图具有更加精确的空间分辨率和更丰富的边界细节信息。与真实深度图相比,DenseDepthNet生成的深度图比较模糊,部分物体连在一起,很难进行分辨;BSNet、AdaBinsNet和改进HRNet网络生成的深度图物体边界都较为清晰,但改进HRNet网络深度图连续性更好,保留了更多细节信息,物体形状更完整,主观效果最好。

图7 不同算法在果树深度数据集上的估计结果

3 结 论

1)本文提出了一种基于改进HRNet的单幅图像苹果果树深度估计模型。基于HRNet构建4个分支并行的编码器网络,通过使用密集连接机制、添加卷积注意力模块,改进编码器性能,强化特征图结构信息,实现多尺度特征的有效提取;在解码器中引入条纹细化模块提高对小物体深度估计的准确性,深度图边缘模糊问题得到改善。

2)在公共数据集和果树深度数据集上进行试验,改进HRNet网络在主观评价和客观指标上综合表现最优,在果树深度数据集上的平均相对误差、均方根误差、对数平均误差、深度边缘准确误差和边缘完整性误差分别为0.123、0.547、0.051、3.90和10.59,在1.25、1.252、1.253阈值下的准确率分别达到了0.850、0.975、0.993,验证了本文算法的有效性。

但由于在编码器中需要进行多次特征融合,导致算法参数量和计算量较大,后续考虑对网络进行轻量化处理,以便移植到嵌入式设备。

[1] 王丹丹,宋怀波,何东健. 苹果采摘机器人视觉系统研究进展[J]. 农业工程学报,2017,33(10):59-69.

Wang Dandan, Song Huaibo, He Dongjian. Research advance on vision system of apple picking robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(10): 59-69. (in Chinese with English abstract)

[2] 周云成,邓寒冰,许童羽,等. 基于稠密自编码器的无监督番茄植株图像深度估计模型[J]. 农业工程学报,2020,36(11):182-192.

Zhou Yuncheng, Deng Hanbing, Xu Tongyu, et al. Unsupervised deep estimation modeling for tomato plant image based on dense convolutional auto-encoder[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 182-192. (in Chinese with English abstract)

[3] 张勤,陈建敏,李彬,等. 基于RGB-D信息融合和目标检测的番茄串采摘点识别定位方法[J]. 农业工程学报,2021,37(18):143-152.

Zhang Qin, Chen Jianmin, Li Bin, et al. Method for recognizing and locating tomato cluster picking points based on RGB-D information fusion and target detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 143-152. (in Chinese with English abstract)

[4] 郭继峰, 白成超, 郭爽. 基于深度学习的单目视觉深度估计研究综述[J]. 无人系统技术,2019,2(2):12-21.

Guo Jifeng, Bai Chengchao, Guo Shuang. A review of monocular depth estimation based on deep learning[J]. Unmanned Systems Technology, 2019, 2(2): 12-21. (in Chinese with English abstract)

[5] 李阳,陈秀万,王媛,等. 基于深度学习的单目图像深度估计的研究进展[J]. 激光与光电子学进展,2019,56(19):9-25.

Li Yang, Chen Xiuwan, Wang Yuan, et al. Progress in deep learning based monocular image depth estimation[J]. Laser & Optoelectronics Progress,2019, 56(19): 9-25. (in Chinese with English abstract)

[6] Zhao C, Sun Q, Zhang C, et al. Monocular depth estimation based on deep learning: an review[J]. Science China Technological Sciences, 2020, 63(9): 1612-1627.

[7] 黄军,王聪,刘越,等. 单目深度估计技术进展综述[J]. 中国图象图形学报,2019,24(12):2081-2097.

Huang Jun, Wang Cong, Liu Yue, et al. The progress of monocular depth estimation technology[J]. Journal of Image and Graphics, 2019, 24(12): 2081-2097. (in Chinese with English abstract)

[8] 宋巍,朱孟飞,张明华,等. 基于深度学习的单目深度估计技术综述[J]. 中国图象图形学报,2022,27(2):292-328.

Song Wei, Zhu Mengfei, Zhang Minghua, et al. A review of monocular depth estimation techniques based on deep learning[J]. Journal of Image and Graphics, 2022, 27(2): 292-328. (in Chinese with English abstract)

[9] Faisal K, Saqib S, Hossein J. Deep learning-based monocular depth estimation methods: A state-of-the-art review[J]. Sensors, 2020, 20(8): 2272-2272.

[10] Masoumian A, Rashwan H A, Cristiano J, et al. Monocular depth estimation using deep learning: A review[J]. Sensors, 2022, 22(14): 5353-5377.

[11] 江俊君,李震宇,刘贤明. 基于深度学习的单目深度估计方法综述[J]. 计算机学报,2022,45(6):1276-1307.

Jiang Junjun, Li Zhenyu, Liu Xianming. Deep learning based monocular depth estimation: A survey[J]. Chinese Journal of Computers, 2022, 45(6): 1276-1307. (in Chinese with English abstract)

[12] Eigen D, Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2014. 2366-2374.

[13] Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]// Proceedings of the 4th International Conference on 3D Vision. New York: IEEE Press, 2016. 239-248.

[14] Alhashim I, Wonka P. High quality monocular depth estimation via transfer learning[EB/OL]. (2018-12-31) [2021-07-21]. https://arxiv.org/abs/1812.11941.

[15] Xue F, Cao J, Zhou Y, et al. Boundary-induced and scene-aggregated network for monocular depth prediction[J]. Pattern Recognition, 2021, 115: 1-38.

[16] Fu H, Gong M, Wang C, et al. Deep ordinal regression network for monocular depth estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018.2002-2011.

[17] Bhat S F, Alhashim I, Wonka P. AdaBins: Depth estimation using adaptive bins[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 4008-4017.

[18] 温竣文. 单目图像深度估计算法研究[D]. 广州:华南理工大学,2021.

Wen Junwen. Research on Monocular Image Depth Estimation Algorithm[D]. Guangzhou: South China University of Technology, 2021. (in Chinese with English abstract)

[19] 霍智勇,乔璐. 基于结构化损失的单目深度估计算法研究[J]. 电子科技大学学报,2021,50(5):728-733.

Huo Zhiyong, Qiao Lu. Research on monocular depth estimation algorithm based on structured loss[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(5): 728-733. (in Chinese with English abstract)

[20] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from RGBD images[C]//Proceedings of the 12th European Conference on Computer Vision (ECCV), Florence, Italy. Berlin: Springer Press, 2012: 746-760.

[21] 刘佳涛,张亚萍,杨雨薇. 基于迁移学习的高效单目图像深度估计[J]. 激光与光电子学进展,2022,59(16):236-244.

Liu Jiatao, Zhang Yaping, Yang Yuwei. Efficient monocular image depth estimation based on transfer learning[J]. Laser & Optoelectronics Progress, 2022, 59(16): 236-244. (in Chinese with English abstract)

[22] 罗会兰,周逸风. 深度学习单目深度估计研究进展[J]. 中国图象图形学报,2022,27(2):390-403.

Luo Huilan, Zhou Yifeng. Review of monocular depth estimation based on deep learning[J]. Journal of Image and Graphics, 2022, 27(2): 390-403. (in Chinese with English abstract)

[23] Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5686-5696.

[24] 龙洁花,赵春江,林森,等. 改进Mask R-CNN的温室环境下不同成熟度番茄果实分割方法[J]. 农业工程学报,2021,37(18):100-108.

Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract)

[25] Huang G, Liu Z, Vander M, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4700-4708.

[26] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV). Berlin: Springer Press, 2018: 3-19.

Depth estimation of apple tree in single image using improved HRNet

Long Yan, Gao Yan, Zhang Guangben

(1.712100,; 2.712100,; 3.712100,)

An accurate and rapid estimation of apple tree depth can be widely applied to the precise fruit positioning and robot autonomous harvesting in recent years. In this study, an improved High-Resolution Network (HRNet) was proposed to estimate the monocular depth of apple tree in the real scene. The actual requirements of the depth were obtained from a single RGB image for the apple mechanized picking. Firstly, a multi-branch parallel encoder network was constructed to extract the multi-scale features using the HRNet. A dense connection mechanism was introduced to enhance the continuity in the feature transfer process. Secondly, the Convolutional Block Attention Module (CBAM) was used to recalibrate the fused feature maps at the channel and pixel levels, in order to reduce the noise interference that caused by redundant features. Furthermore, the different weight distributions of the feature maps were effectively learned to enhance the structure information. In the decoder network, the Stripe Refinement Module (SRM) was used to gather the boundary pixels in the horizontal and vertical orthogonal directions. The boundary details of the feature map were adaptively optimized to highlight the edge features. As such, the blurry edge was reduced in the predicted images. Finally, the up-sampling was utilized to generate the prediction depth images of the same size as the RGB images. An image acquisition platform was constructed to collect the RGB and depth images of apple orchards at different times. The data was then enhanced using horizontal mirroring, color jitter, and random rotation. After data enhancement, the 3374 orchard RGB and depth images were obtained for the depth datasets. A series of experiments were also conducted on the NYU Depth V2 dataset and the orchard depth dataset. Ablation experiments were firstly performed on the HRNet networks with different degrees of improvement. The predictive performance of different improved networks was improved significantly, compared with the traditional HRNet network. It indicated that the dense connection mechanism, CBAM, and SRM were added to improve the model performance. Secondly, the mean relative error (MRE), root mean square error (RMS), logarithmic mean error, depth edge accuracy error, and edge integrity error of the improved HRNet network on the orchard depth dataset were 0.123, 0.547, 0.051, 3.90 and 10.59, respectively, compared with the current mainstream networks. The accuracy reached 0.850, 0.975 and 0.993 at different thresholds, respectively. More accurate spatial resolution was achieved in the depth map that generated by the improved HRNet network, in terms of subjective vision. The improved network can be expected to better present the depth information distribution of the image, particularly with the clear edges and more texture details. More importantly, the depth information of some small-sized objects was also displayed, indicating the best overall effect closer to the real depth map. The ablation analysis demonstrated the higher effectiveness of depth estimation using the improved network, compared with the subjective and objective ones. The experiment also verified that the proposed network was outperformed for both visual quality and objective measurement on the NYU Depth V2 and the orchard depth dataset. The finding can provide a new idea to obtain depth information in the apple automatic picking machine.

image processing; deep learning; apple tree; single image depth estimation; dense connection mechanism; convolutional block attention module; stripe refinement module

10.11975/j.issn.1002-6819.2022.23.013

S24; S126

A

1002-6819(2022)-23-0122-08

龙燕,高研,张广犇. 基于改进HRNet的单幅图像苹果果树深度估计方法[J]. 农业工程学报,2022,38(23):122-129.doi:10.11975/j.issn.1002-6819.2022.23.013 http://www.tcsae.org

Long Yan, Gao Yan, Zhang Guangben. Depth estimation of apple tree in single image using improved HRNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 122-129. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.013 http://www.tcsae.org

2022-09-26

2022-11-26

陕西省重点研发计划一般项目—农业领域(2020NY-144)

龙燕,副教授,博士,研究方向为农业电子与自动化技术、数字农业与农业信息化工程。Email:longyan@nwsuaf.edu.cn

猜你喜欢
单幅深度图编码器
基于改进大气散射模型的单幅图像去雾方法
融合CNN和Transformer编码器的变声语音鉴别与还原
基于CNN的轻量级神经网络单幅图像超分辨率研究
一种基于WMF-ACA的深度图像修复算法
基于深度图的3D-HEVC鲁棒视频水印算法
基于FPGA的同步机轴角编码器
基于稀疏表示和结构自相似性的单幅图像盲解卷积算法
应用旋转磁场编码器实现角度测量
一种基于局部直方图匹配的深度编码滤波算法
基于改进暗通道和导向滤波的单幅图像去雾算法