基于深度学习的布料图像检索方法研究

2021-11-15 03:58于振中

科技与创新 2021年21期

于振中，秦岭

（江南大学物联网工程学院，江苏无锡 214122）

随着计算机技术的快速发展，图像数据正在以火箭般的速度飞速增长，相应的对图像数据的处理技术需求也在快速上涨。尤其是在纺织品布料行业，例如布料外观的检测、测量布料密度等。对于服装设计师而言，当他们根据偶然看到的服装发布会的布料时，想要在布料库中找寻到这一面料，或是在设计过程中突发奇想需要一款特定的面料时，如何从成千上万的布料数据库中快速准确地查找到这一特定的面料，则需要采用计算机图像检索技术。

纺织品行业对于“查询布料”这样的需求由来已久，但“找料慢”“找料难”“找料烦”等问题一直尚未得到解决，目前市场上也并没有切实可行的完整的布料检索的系统，解决这一技术难题成为了整个纺织品行业都期望的事情。以往布料图像的检索工作往往通过有经验的工人手动完成，但是人工的操作方式不仅耗时很长，而且准确率也很难让人满意[1]。因此，如何快速、准确地从浩瀚如海的布料图像数据资源中找寻到目标图像是值得研究的，基于深度学习的布料图像检索为这一问题提供了解决方法。

1 传统图像检索方法

传统的图像检索方法根据检索内容可分为两类，一类是基于文本的图像检索[2]（TBIR，Text Based Image Retrieval），另一类是基于内容的图像检索[3-4]（CBIR，Content Based Image Retrieval）。这两种检索方法已经在很多行业得到了广泛应用，前者主要运用于电子商务等工业领域，最著名的便是电子商业平台搜索产品，后者则在红外探测、医疗诊断等方面多有应用。其中基于文本的图像检索依赖于人工进行标注，这种由专人凭借个人经验完成的查询方式不仅检索效率极低，而且检索时往往依靠于工人的主观经验判断，而对于布料图像特征来说，每个人观察到的直观图像也存在视觉差异。目前市场上较为常见的便是基于内容的图像检索，其中基于特征的图像匹配技术能够通过计算机技术提取图像特征，替代了人工检索的传统方式，大大提升了检索的效率和准确率，成为了图像检索领域的热门趋势，如CM-DC[5]、CM-gist、SURF[6]算子等。尽管这些方法都实现了检索的目的，但提取出的特征简单，缺少学习能力，检索精度低，难以满足实际应用中复杂环境多变的要求。尤其是在纺织品行业，设计师不仅仅只是想要“看起来类似”的布料，而是想要找到最为精确的那一种面料，显然这种传统方法难以解决这个问题。

2 基于深度学习的图像检索方法

一种新的基于深度学习的方法被提出用于纺织品布料图像检索。通过对数据集图像数据进行特征提取，获取到能够表示这些图像的特征，然后对特征进行相似性度量，根据度量结果得到相似性排序，于是得到了最为相似的两个特征，其分别代表的便是与待查询布料图像最相似的布料图像[7-8]。

2.1 图像预处理

图像预处理指的是将图像中与特征无关的、影响机器判断的无效信息剔除，在保留关键信息的同时，突出并强化布料图像的关键特征，也方便后续的特征提取，提高特征的准确性和图像匹配的可靠性。

2.1.1 图像裁剪

纺织厂商提供的布料原型图卡往往包含着毛边和标签等无关信息，这些无关信息在计算机进行模型训练或者学习时往往会造成很高的误差影响，所以我们首先需要做的便是将这些布料原型图卡（如图1 所示）的无关信息切除，得到仅包含布料信息的图像（如图2 所示）[9]。

图1 布料原型

图2 布料图

2.1.2 图像灰度化

图像的灰度化是指图像本身包含有多种颜色，而将其转化为仅包含一种颜色的图像。例如，在RGB 颜色模型中，图像在R、G、B 三个通道分别有不同的数值，而当这三个通道的数值变换为一致时，图像的直观视觉便成了只有一种颜色，此时RGB 三个通道的数值相等且等于灰度值，因此图像灰度图的像素便可以通过一个灰度值占据一个字节存放。

图像的灰度化是一种重要的图像预处理技术。当图像的色彩信息量比较大，但是用户并不十分关注布料图像的颜色特征，或用户期望检索到的图像的色彩大致相同时，颜色特征便不再重要，可以通过图像灰度化大大缩减图像的颜色特征数据，着重于其他特征，提高特征提取的准确度[10-11]。

常用的将图像转化为灰度图有四种方法，分别为分量法、最大值法、平均值法和加权平均法。分量法就是在实际使用过程中，对图像的多个颜色通道中仅选取其中一个通道的数值，而将其他通道的数值都转换为相同的数值，按照这一通道的数值作为灰度值。最大值法就是将多个颜色通道中数值最大的作为灰度图的灰度值。而平均值法，顾名思义就是将多个通道的颜色通道值求平均，将平均值作为灰度值。加权平均法根据颜色通道的重要性，将三个值以不同的权值进行加权平均。在实际使用过程中，我们可以根据具体的需求选取不同的灰度处理方法。

2.2 特征提取

特征指的是图像数据中包含并能具体表征该图像的关键数据，特征提取便是将这些关键信息从图像数据中提取出来用于简便计算或匹配的过程。在进行图像匹配检索的过程中，我们可以通过对图像的特征进行匹配检索，在降低了图像的其他无关信息的比对的同时，还可以将精力着重于关键信息部分，从而提高检索的速度和准确率。图像的特征多种多样，通常受到人们关注的有颜色特征、纹理特征、空间信息特征和角点局部信息特征等[12]。特征提取作为机器视觉图像识别的一个重要环节，特征提取的质量与精度直接决定了后续图像识别的速度与准确度。因此，从繁复无章的布料图像数据中提取出鲜明独特的特征变得至关重要。而基于深度学习的卷积神经网络很好地完成了这一工作。

卷积神经网络的每一层的输出都可以作为图像的特征进行输出，但每一层输出的特征并不相同，其表达图像的能力也不一样，不同的特征也会导致不同的检索结果，因此要对卷积神经网络不同层进行筛选组合[13-14]。首先建立卷积层提取出图像的初步特征，这些初步特征仅能表征图像的局部信息，然后建立池化层提取出图像的主要特征，在卷积层和池化层的共同作用下，不仅可以提取出图像的特征，还可以大大过滤掉原始图像中无关的参数，最后通过完全连接层把所有的局部特征通过权值矩阵。最后需要匹配的图像的特征就提取出来了，就可以从特征的相似和不同来识别图像了。

最经典的卷积神经网络模型是LeNet[15]，主要分为卷积层和全连接层两个部分，这是最早用于数字识别的卷积神经网络[16-17]。随后AlexNet 在2012 年横空出世并在比赛中夺冠，它使用了8 层神经网络，比LeNet 更深，用多层小卷积层叠加替换了单大卷积层。2014 年牛津大学提出了VggNet[18]，相较于前面两个，VggNet 将网络层数增加到了16～19 层，并且将卷积层提升到了卷积块的概念，每个卷积块由两三个卷积层构成，使得网络有更加宽广的感受野的同时降低了网络参数。虽然更深的网络层，带来了更加高的精确度，但是当网络层级增加到一定数目时，模型变得难以训练，测试卷积神经网络的速度以及准确度都会下降。为了解决这一网络层不断加深带来的梯度爆炸的问题，ResNet[19-20]便被提出。ResNet 采用残差块使得输入层直接连接到输出层，整个网络只需要学习残差，大大简化了学习目标和难度。残差神经网络使得超级深的网络层成为可能，避免了不断加深的网络层导致的准确率饱和的问题。因此，目前在图像分类领域中，残差神经网络运用最为广泛。

2.3 相似度计算

相似性度量，即综合计算特征向量之间相似程度的一种度量方法。相似性度量的数值反映了不同特征向量的相似程度，且二者成正比关系，即特征之间越相似，其特征相似性度量越大。相似性度量方法有很多，在特征向量相似性度量中距离度量使用的较多，常用的特征相似性度量方法有以下两种：BruteForce[21]和FLANN[6]，分别对应于BFMatcher 和FlannBasedMatcher。BFMatcher 是将待检索的特征与数据库中的每一个特征都进行计算，遍历特征库中的所有值，得到的也是所有特征之间相似性度量最大的一个结果，正如它的名字“暴力法”，但相应的，运算量极大，运算速度很慢。FlannBasedMatcher 中 FLANN 的全称是 Fast Library for Approximate Nearest Neighbors，也就是快速临近检索。这是一种近似算法，检索到的结果是邻近待检索特征的相关特征，虽然它并不能找到最准确的那一个，但是检索速度得到了大大提升，当我们并不需要找到最相似的唯一一个，而是允许在一个误差范围内时，便可以选择这种相似性度量方法。当然也可以通过调整FlannBasedMatcher 的参数来提高匹配的精度或者提高算法的速度，但是相应的算法速度或算法精度也会受影响。

2.4 整体流程

图3 为用户实际上进行布料检索的过程，首先用户将采集到的布料图像在电脑上进行预处理，随后通过服务器使用CNN 模型进行特征提取，获取待检索布料图像的特征向量，然后将该特征向量与特征索引库中的每一个特征进行相似性计算，并按照相似性计算结果输出最为接近的几张图片，最后将结果经过服务器返回给用户，完成检索结果。

图3 基于深度学习的布料检索整体流程

3 结论

相较于传统的布料图像检索方法中存在的检索速度慢、检索准确度低等问题，本文提出的基于深度学习的布料图像检索方法，通过机器学习获取特征，然后根据特征进行相似性计算完成检索的方法，无论是在速度、准确度或是学习能力上均强于传统的方法。日后卷积神经网络将会越来越多地运用到处理更多图像领域的难题中去。