基于CNN的外观专利图像分类

2019-12-05 08:35苏静

智能计算机与应用 2019年5期

苏静

摘要：针对专利图像检索系统中的图像分类问题，研究并实现了深度学习中的卷积神经网络方法。所设计的卷积神经网络由4个卷积层、2个池化层及2个完全连接层组成，其中每个特征映射层只由上一层的部分特征映射层线性组合而得，整个神经网络由反向传播算法调整权重参数和偏置项并自动完成学习任务。通过外观专利图像的分类实验表明，该方法分类准确率可达90%。

关键词：深度学习;卷积神经网络;外观专利;图像分类

【Abstract】 For patent image classification problems of Guangdong province in image retrieval system， A convolution neural network method in the deep learning is researched and implemented. The designed convolution neural network is made of four convolution layers， two pooling layers and two complete connection layers. In the convolution neural network， each feature mapping layer is the linear combination of the last part feature mapping layers. And the whole neural network adjusts the weight parameters and the bias by the back propagation algorithm and automatically completes the study task. The patent image classification experiment shows that the average classification accuracy can reach 90% by this method.

【Key words】 deep learning; convolution neural network; design patent; image classification

0 引言

在互联网技术迅猛发展的今天，专利图像的规模不断扩大，专利图像数据库都是海量的，这无疑给面向大规模图像数据的分析和理解带来了重大挑战。现有基于内容的图像检索技术[1-2]用来提取特征的训练数据大多来自人工标注样本和人工调参，需要依靠设计者的先验知识，很难利用大数据的优势，极大地限制了图像检索的性能。

近年来，深度学习 [3-4]在计算机视觉与图像检索等领域表现出强大优势。与传统模式识别方法不同的是，深度学习无需手工设计特征，可以直接从大量数据集中自动学习特征，学习到成千上万的参数，在图像检索领域应用广泛。

本文提出了一种基于 CNN 模型的家具类外观专利图像分类方法，并对本文方法与支持向量机方法（SVM）及传统神经网络（NN）方法加以对比，对家具类外观专利图像进行了交叉验证实验。实验结果表明，基于 CNN 模型的方法取得了更好的分类效果。

1 CNN模型与算法

1.1 CNN模型简介

卷积神经网络由 Hinton等人于2006年提出，作为一种深度学习模型受到了广泛关注，并已成功应用在人脸识别、图像分类与检索等领域。结构上， CNN是由多层神经网络构成，主要包括卷积层、激励层、池化层及全相连层[5-6]。在每一个卷积层，上一层的特征Maps被一个可以学习的卷积核进行卷积，再通过激活函数（Relu），就可以得到输出特征Map。池化层往往在卷积层后面，计算Map一个区域上的某个特定特征的平均值来代表这个区域的特征，从而降低卷积层输出的特征向量。在本实验中，前面两层是卷积和池化的交替，接着两层是单卷积操作，在最后一两层（靠近输出层）是全连接的一维网络。网络结构如图1所示。

2 实验与结果分析

2.1 实验设备与数据

本实验在Ubuntu14.04操作系统，caffe框架环境下完成，使用的是改进后的Alexnet模型。关于实验数据，使用了家具外观专利图像，其中5 000张为训练图像，1 000张为测试图像。在分类方案中，根据家具种类的不同，训练图像与测试图像都被细分为10个类。在训练过程中，每个类都有500个训练样本;在测试过程中，每个类都有100个测试样本。每个图像的输入大小为224*224，格式为PNG。部分图像样本如图2所示。为保证实验的客观性，实验图像为随机选取，采用交叉验证法得到实验结果的平均准确率。

2.2 实验结果分析

（1）训练模型对分类结果的影响。不同的训练模型因网络层数和参数不同对分类结果有较大影响。对于同样的数据集，采用AlexNet原模型识别准确率为85%，采用改进后的AlexNet模型识别准确率可达90%，仿真结果对比如图3所示。本设计考虑到了外观专利图像的特殊性，对输入图像的大小、网络层数、滤波器大小都做了重新设计。实验中，当训练次数达到15 000次时，网络参数变化不大，表示卷积网络已呈收敛状态，分类性能达到最优。

（2）与SVM 、NN方法的比较。本文将CNN模型的方法與SVM及NN两种分类方法进行了对比，实验结果见表1。可以看出，和SVM方法相比，CNN在各个类别和总体分类精度上略有提升。和NN方法相比，CNN方法在Mirror和Stool两个类别分类精度相当，而在Swivelchair、Table、Messagechair这3个类别上精度有较大提高。总地来看，CNN方法的分类效果在三者中为最优。

3 结束语

本文研究了卷积神经网络在外观专利图像分类中的应用，所设计的卷积神经网络由4个卷积层、2个池化层和2个全连接层组成，在外观专利图像分类实验中达到90%的准确率，优于SVM及NN分类方法。但是本文只是对Alexnet的网络结构进行了简单的改进，采用了均值池化方法，针对外观专利图像的更优卷积网络模型仍有待进一步的深入研究。

参考文献

[1]Edkins J， Graham M. Content-based image retrieval [R]. Newcastle：University of Northumbria，1999.

[2]DATTA R， JOSHI D， LI Jia， et al. Image retrieval： Ideas， influences， and trends of the new age [J]. ACM Computing Surveys （CSUB）， 2008， 40（2）： 5.

[3]余凱，贾磊，陈雨强，等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展， 2013， 50（9）：1799-1804.

[4]KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM，2017，60（6）：84-90.

[5]DAHL G E， SAINATH T N， HINTON G E . Improving deep neural networks for LVCSR using rectified linear units and dropout[C]//2013 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）.Vancouver， BC， Canada：IEEE， 2013：8609-8613.

[6]FUKUSHIMA K. Neocognitron： A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological Cybernetics， 1980， 36（4）：193-202.

[7]LECUN Y， BOSER B E， DENKER J， et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation， 1989，1（4）： 541-551.