基于卷积神经网络的梵高作品风格转换

2019-07-20 13:24赵丽飞余航谢清涛王新宇刘宝弟

电子技术与软件工程 2019年10期

赵丽飞　余航　谢清涛　王新宇　刘宝弟

摘要：本文运用深度学习算法将图像内容和风格进行分离，选择原有图像内容与艺术作品的图像风格，采用VGG19模型和计算机数据第三方库，计算得到初始内容与风格总损失;通过不断优化迭代，尽可能降低总损失数值，进而实现图像风格转换。

[关键词]深度学习卷积神经网络图像风格转换

1引言

近年来，卷积神经网络生长迅速，其中一个由一系列卷积层、池化和完全相连的层组成。有了这个模型，你可以建立一个旋转的神经网络，有不同的层来研究图像。许多实验结果证实，卷积神经网络正在接受足够的数据训练，以获得一般特征图像的内容，并进一步应用纹理和风格识别。

1.1前期准备工作

我们查找了从1986年至今CNN的五种经典模型，Lenet，Alexnet，Googlenet，VGG，DeepResidualLearning。着重对于Gatys等人提出的一种使用深度学习算法创建艺术图像方法进行了研究。该方法将内容图像和样式图像作为输入，使用训练用于对象识别的原始VGG网络将样式图像的纹理信息传送到内容图像。当风格图像更抽象或包含丰富的纹理（例如绘画）时，效果较好，因此我们决定选取VGG作为梵高作品风格转换的基本模型。

1.2梵高作品风格的数字化分析

使用稀疏编码算法可以对提取的图像特征进行视觉艺术作品的风格分析，从而获得能够反映风格图像本质特征的训练基，对训练基进行空间特征量统计及高阶特征量统计。利用Gabor变换能量，对梵高的风格作品进行归一化互信息计算，从而对梵高艺术作品差异特点做出一定程度的分析。要想实现对视觉艺术作品的风格进行分类可以通过不断地学习训练，由此会得到一些基函数，这些基函数会将各种风格的作品联系起来，并且对同种风格的艺术作品会做出响应，配合使用稀疏代码。运用峭度、负熵和互信息等等方式对系数进行比较，也属于非高斯性参量的一部分。如果测量出的峭度峰值很大，那么就属于艺术作品大致属于同一种风格。

2NaturalStyle的训练方法

2.1图像内容提取

卷积神经网络中的各层都包括一个过滤系统，也称为卷积核，针对于图像又，在卷积神经网络当中可以充分利用每层过滤器对图像进行有效处理。假设1层含有N，个过滤器，卷积处理后即会生成Mp个大小为Mp的特征图（M1为对应特征图的面积）。从而，每层生成的特征图就在矩阵Fq∈RNxM储存，F表示1层j位置上第i个过滤器的激活值。通过利用梯度～下降这一算法，在一副完全空白的噪声图像上寻找与输入特征一致的其他图像，并对这些图像按照层级进行编码。

p代表初始图像，文代表处理后新的图像，令F和P1分别为在1层中的特征表示。进而，二者间的残差平方和损失函数为：

此函数表示为，对于提取内容的图片p，将该位置所代表的内容表示P，通过构造，使其在对应位置的特征无限趋近于P，最终要达到内容损失函数最小的结果。其倒数为：

通过修改图像又直到与初始图像在某个卷积神经网络层得到相同的反馈。.

2.2对图像风格的提取

使用固定的纹理信息空间来显示风格，你可以从风格图像中得到你想要的风格。这个特征空间可以建立在任何卷积神经网络水平上处理的过滤器出口，上。

可以使用格莱姆矩阵G，∈RNxM/来表示特征关系，不同网络层级之间的关系不同，利用这种矩阵模型可以使得输入的图像标书更准确、更全面。同时，还能获取除整体结构以外的纹理信息。用G，表示在1层的特征图中i和j的点积：

可以使用选择的图像类型来创建新的图像，以此来获得在不同层次的卷积神经网络中构建的特征空间的信息。a代表原图像，代表产生的新图像，A'代表1层的风格，G'代表1层相对于总体的损失所占的比率，为：

2.3风格的迁移

同时糅合p图像里的内容表示与a图像中

的风格表示，可以完全得到一个新的图像，这种方法可以将风格图像a在内容图像p中表示。最小化函数：

其中a与β指的是图片的内容与风格比重，同样对于梯度可以通过拟牛顿优化算法，共轭梯度法，梯度下降法进行优化。

3实验结论

在经大量的图片转移训练之后，我们得到的新梵高风格的图片的纹理数据与梵高作品的纹理数据十分相似。通过将得到的图片与梵高的原作进行差异特点分析，并对于基函数进行数字量化，我们发现转移后的图片基函数中线段的平均长度与梵高原作基函数中线段的平均长度大致一样。测量出的平均长度可以有效反应绘画艺术作品笔刷的长短，甚至可以了解到作家的绘画风格和绘画的技巧。这说明经过风格转移后的图片与梵高原作有很高的相似性。

但是这种算法仍然存在着技术限制。其中最大的限制因素是合成图像的分辨率问题。无论是最优化问题的维数，还是卷积神经网络的单元数，都随着像素数量线性增长。因此图片风格的转移速度很大程度上取决于图像分辨率。本文中呈现的图像大都是512*512像素的分辨率，在装有nvidiaGTX950M的笔记本电脑上合成时间需要到四五个小时，而在NvidiaK40GPU上大概需要一个小时的时间。目前这样的j性能不允许我们的图片风格转移进行在線或交互式的应用程序，但深度学习的未来改进可能会提高目前算法的性能。

参考文献

[1]焦李成，杨媛淑，刘芳，王士刚，冯志玺.神经网络七十年：回顾与展望[J].计算机学报，2016（08）：1697-1716.

[2]周飞燕，金林鹏，董军.卷积神经网络研究综述[J].计算机学报，2017（06）：1229-1251.