基于水下成像物理模型的生成对抗网络

2021-12-18 06:49舒艺沆沈润杰黄奕欣童鑫红
系统仿真技术 2021年2期
关键词:波长分量损失

陈 骁,舒艺沆,沈润杰*,黄奕欣,童鑫红

(1.福建华电可门发电有限公司,福建福州 350000;2.同济大学电子与信息工程学院,上海 201804)

如今大多数深度学习任务都属于有监督学习,需要大量的有标签数据指导模型训练。当缺少数据时,网络模型无法学习足够的非线性特征并且极易出现过拟合问题,这种现象在数据集规模很小时尤为明显。生成对抗网络的出现给解决这一难题带来新的思路,采用生成对抗网络合成图像,对小样本图像数据进行增强,能有效融合前景目标和各种类型的背景,解决由于数据匮乏导致的神经网络难以训练的问题。合成数据和真实数据相比既有结构上的相似性,同时又能呈现出上下文信息的多样性;加入合成数据后,模型能够更加稳定地训练,进一步提高对各种背景条件下退化图像的学习能力。Li等人提出一种生成水下图像数据集的模型WaterGAN[1],包含生成器G和判别器D两部分,通过对抗训练的方式生成逼真的水下图像。其中生成器G分为衰减、散射和晕渲三个部分,判别器D通过区分合成图像和真实图像指导生成器G的训练。Fabbri等人基于生成对抗网络思想构造模型UGANP[2],不需要将水下图像的深度信息输入到生成器,而是基于CycleGAN学习RGB图像和水下退化图像特征合成退化的水下图像。本文针对高级视觉模型训练过程中水下图像数据缺乏的问题,基于Jaffe-McGlamery水下成像物理模型,构造UWGAN网络,同时提出多目标损失函数指导模型训练,该模型能够合成丰富的水下退化图像,实现对水下图像数据集的增强。

1 本文方法

1.1 Jaffe-Mc Glamery水下成像物理模型

经典水下成像物理模型主要有Jaffe-McGlamery模型和蒙特卡洛方法[3]。在Jaffe模型的基础上[4],McGlamery等人[5]建立了新的物理模型,根据Jaffe-McGlamery水下成像物理模型,光线通过三种路径到达成像平面,成像结果实际上是三个分量的线性叠加,如图1所示。其中模型分量分别如下所示。

图1 Jaffe-McGlamery物理模型Fig.1 Jaffe-McGlamery physical model

(1)目标物反射后直接被相机捕捉的分量称为直接分量Ed。

(2)经过目标物表面反射后受微粒影响而发生小角度散射的分量称为前向散射分量Ef。

(3)直接被水中的悬浮颗粒散射后被相机接收到的分量称为后向散射分量Eb。

Jaffe-McGlamery模型可表示为

式(1)中,ET表示总的光强度值,Ed、Ef、Eb分别表示直接分量、前向散射分量和后向散射分量。每种分量在传播过程中都会被水分子、溶解物或者悬浮颗粒等吸收,并且对不同波长的光吸收程度不同。通过图2(a)可以看出,红、黄以及浅绿色光透射率低,而蓝绿光具有较大的透射率,其中波长为462~475 nm的蓝光衰减程度最小。水的吸收使蓝光的强度每米衰减约4%,其他波长的光衰减程度更大,因此,通常情况下获取的水下图像都呈现蓝绿色。水下成像过程中光强度值随着传播距离增加呈指数衰减,衰减过程可以由式(2)表示,即

图2 光在水中的吸收和散射作用Fig.2 Absorption and scattering of light in water

水下成像过程中,散射作用对图像退化的影响更大。如图2(b)所示,根据Jaffe-McGlamery物理模型坐标系,通过几何光学理论可以计算出直接分量,根据数学推导,直接分量可以表示为

其中,EI表示目标物体表面(x',y')处的反射辐照度值,Rc表示点(x',y')到相机光心的距离,M(x',y')表示反射率,经验值取M(x',y')∈(0.02,0.1),Tl、F和Fl分别表示相机参数,角度θ表示反射光线与切向平面的夹角。前向散射分量可以由直接分量和点扩散函数计算得到,如式(4)所示,其中g(x,y,Rc,G,c,B)表示点扩散函数。

从目标反射平面到相机接收平面,对近似的体积散射函数进行体积元分析并积分,得到最终的后向散射分量,即

其中,Eb,d(x,y)表示后向散射的直接分量。在水下成像过程中,Jaffe等人在充分考虑各种限制条件后构造了水下成像物理模型,根据物理模型就能推导出何种因素导致了水下图像退化,具体为水体吸收部分光波导致色偏,以及水中悬浮颗粒散射导致成像模糊或大颗粒泥沙造成遮挡,因此,可以根据水下成像物理模型构造生成对抗网络合成退化的水下图像。

1.2 合成水下退化图像模型UWGAN

1.2.1 UWGAN网络结构

整个UWGAN网络结构如图3所示。

图3 UWGAN网络结构Fig.3 UWGA network structure

网络的核心模块主要是生成器和判别器。输入分别是RGB图像I、对应深度图像D和随机噪声向量Z。合成图像的过程主要分为两个阶段,第一阶段是模拟水体对光的吸收造成的退化,记为G_1;第二阶段是模拟水中悬浮物以及大颗粒泥沙对光的散射造成的图像模糊,具体分为前向散射和后向散射,统一记为G_2。两个阶段的具体描述如下。

(1)G_1:水体对不同波长的光的吸收造成图像色偏。生成器的直接退化部分G_1模拟光在水中衰减,即

其中,Iair是输入的RGB图像或者通过水体传播之前的初始辐照度,rc是目标物体到相机光心的距离,η(λ)是网络估算的与波长λ有关的衰减系数。

将原始图像离散为RGB三个颜色通道后,根据不同波长λ学习不同的衰减系数,符合水体对不同波长光吸收程度不同的实际情况,同时也避免了模型在学习过程中各通道参数相互耦合。各通道衰减系数首先被初始化为一个随机值,接着分别乘以由深度图像表征的距离值后,再按照RGB的通道顺序进行拼接,最后和输入的RGB图像一起代入公式(6),得到颜色衰减后的结果G1,整个G_1的结构可以由图4(a)表示。

(2)G_2:水中悬浮颗粒和泥沙对光的散射造成图像模糊。光在水中经过悬浮颗粒的散射后会在水下图像中产生雾化效果,导致无法清楚地识别目标物体,退化过程可以通过式(7)表示,即

其中,β是取决于波长的标量参数,这一阶段通过浅卷积网络计算散射系数。如图4(b)所示,输入深度图像D和噪声向量Z。噪声向量Z经过投影和整形后与深度图像进行拼接得到特征图像F,再分别经过三个残差卷积模块学习不同通道的散射系数,每个卷积分支得到一个单通道特征图像Si,按照RGB成像顺序在通道维度上进行拼接得到输出特征图像M2。最后将散射得到的模糊图像M2和颜色退化图像G1进行相加,得到最终的合成水下退化图像G2,如式(8)所示。

图4 生成器结构图Fig.4 Generator structure

判别器是基于PatchGAN[6]实现的一个串行网络,整个结构共包含5层,除了第一层和最后一层不使用BN归一化,其余所有卷积层都遵循相同的基本设计,即“卷积+BN+Leaky ReLU”,并且使用频谱归一化以限制判别器的Lipschitz常数,稳定判别器的训练。

1.2.2 UWGAN损失函数

整个UWGAN的损失函数分为四个部分,如图5所示。

图5 UWGAN损失函数Fig.5 UWGAN loss function

第一部分是带约束条件的生成对抗损失,如式(9)所示,即

第二部分是指导退化风格的生成对抗损失,具体形式是带有softmax的交叉熵损失,如式(10)所示,即

第三部分是结构一致性损失,保持内容的一致性及输入和输出图像之间的结构相似性,通过比较生成图像和目标图像的均值、方差和协方差,保证图像风格转换后仍然保持上下文信息的一致性,具体如式(11)和式(12)所示,即第四部分是色彩一致性损失,如式(13)所示,即

总损失函数如式(14)所示,其中α,β和δ分别取值2,1,1,即

2 实验与分析

为了验证本文使用的生成对抗模型UWGAN能够有效合成逼真的水下退化图像,本实验使用经典算法WaterGAN、UGAN-P和UWGAN进行对比,并使用NYU Depth数据集,该数据集包含了利用kinect采集的1449张室内场景RGB图像和对应的深度图像,每张图像的分辨率为640×480。部分合成图像的对比结果如图6所示。

图6 合成图像对比Fig.6 Comparison of synthetic images

由于单目相机进行深度估计所固有的尺度模糊性,WaterGAN只能估计相对深度而不是绝对深度,因此合成的图像整体亮度偏暗,并且图像四周出现阴影和渐晕;UGAN-P基于CycleGAN的循环一致性损失合成退化图像,能够充分利用原始图像和目标图像之间的像素差异,因此能够很好地合成色偏图像,而对于大颗粒悬浮物遮挡这类带有高级语义信息的特征合成效果较差,甚至会产生条纹状的伪影;本文使用的UWGAN能够较为准确地估计图像中前景和背景的深度信息,因此不仅能合成蓝绿或者黄绿色偏图像,还能有效模拟模糊现象,包括一些大颗粒泥沙造成的遮挡,合成的图像在主观视觉效果上更接近真实水下退化图像。

3 结 论

本文通过分析水下成像物理模型,构造生成对抗网络UWGAN,在生成器中模拟吸收和散射作用,同时集成生成对抗损失、风格损失、颜色损失和结构一致性损失构造多目标损失函数,实现端到端训练,将室内RGB图像转换为指定样式的水下图像。实验结果表明,UWGAN保留了原始RGB图像的前景纹理信息,同时有效融合了水下场景特征,为合成图像实现数据集扩充提供了新的思路,也为其他水下高级视觉任务提供了支持。

猜你喜欢
波长分量损失
杯中“日出”
胖胖损失了多少元
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
玉米抽穗前倒伏怎么办?怎么减少损失?
论《哈姆雷特》中良心的分量
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
菜烧好了应该尽量马上吃
损失