一种基于深度学习的产品分类统计方法的研究

2020-03-27 18:17王占云闫志华
机械设计与制造 2020年3期
关键词:搪瓷卷积分类

王占云,闫志华

(郑州大学机械工程学院,河南 郑州 450001)

1 引言

目前流水生产线上产品在线自动计数装置一般采用光电传感技术,这类装置通常只能用于种类单一、摆放有序的生产线的在线自动计数。而对于多品种混线生产,产品摆放随意的生产线的产品计数,目前多采用人工完成,产量较大时,人工统计难免出现差错,从而造成浪费。针对这一问题,以某搪瓷企业烧成生产线为研究对象,研究了一种基于深度学习的机器智能分类统计方法,实现了对多类产品混线生产情况下的自动分类统计。近年来,深度学习是图像识别中应用最广泛的一个领域,基于深度学习的各种模型层出不穷,其中深度神经网络(DNN)是当前最主流的模型。该模型大多数使用显卡厂商NVidia推出的通用并行计算架构CUDA进行GPU加速运算,在保证识别准确率的同时缩减了运行时间,极大的提高了运行效率。在深度卷积网络模型的算法中,对多目标图像的识别效果最好的是fasterR-CNN算法,它能在较短的时间内完成对多目标图像的快速定位。研究方法以fasterRCNN为基础,首先从工业摄像头获取图像,然后利用fasterR-CNN对图像中的产品进行定位,提取其位置信息,再用含有ROI池化层的深度卷积网络对工业图像进行分类识别和统计[1-5]。

2 分类统计方法原理

分类统计方法首先用faster R-CNN算法提取图像中目标位置,之后用改进的深度卷积网络对目标进行分类识别,共包含图像获取、目标定位、目标分类三部分,其过程,如图1所示。

图1 分类检测结构图Fig.1 Structure Chart of Classified Detection

2.1 图像获取

首先利用工业摄像头获得生产线上在制品图像。在研究中,利用光电传感装置,当悬挂在输送机上的吊篮通过时,触发摄像头,获得吊篮上的在制品图像,并传送回计算机进行处理。

2.2 产品定位—faster R-CNN

产品定位采用faster R-CNN算法实现,该算法对产品的候选区域进行提取和类型识别,把不需要的候选区域作背景处理,保留需要的产品区域信息。Faster R-CNN引用区域生成网络RPN对产品候选区进行选择和定位,在输出端输出产品区域位置信息和目标所属类型,其过程,如图2所示。

在区域生成网络RPN中,输入与输出的对应关系为:

式中:输入图像为 x,输出为 XPart1∈Ru×v@r,表示输出 r为 u×v个尺寸的特征图,θPart1—待学习参数。

之后结合RPN的输出,得到faster R-CNN网络的输入与输出关系如下:

图2 Faster R-CNN网络Fig.2 Faster R-CNN Network

2.3 产品分类—改进的深度卷积网络

深度卷积网络的输入要求图像尺寸相同,而输入深度卷积网络的图像包括faster R-CNN提取的不同尺寸的产品区域图像和生产线上的摄像头以及工厂用数码相机拍摄的不同尺寸的样本照。对于尺寸不同的图像,传统的方法是将图像缩放到大小相同的尺寸,但这样容易造成图像信息的丢失[6]。改进的深度卷积网络是在深度卷积网络中添加一个RoI池化层,归一化输入全连接层的输入特征尺寸。该网络的输入为样本图像和样本图像的产品位置信息,其中样本图像输入卷积网络进行特征提取,产品位置信息通过卷积网络的映射机制映射到最后一层公共卷积层上,之后用ROI池化层对特征图上目标区域的特征进行尺度归一化处理[7],使其转化为固定长度的特征向量,然后将特征向量输入softmax分类器进行分类识别[8]。ZF5模型,如图3所示。(图中的RoI-pooling层的13×13为固定尺寸,不随输入尺寸的改变而改变),输入的产品位置信息为[x,y,w,h,n],最后一层公共卷积层中产品区域位置信息为[x′,y′,w′,h′,n],n1、n2为 Pool1 和 Pool2 的滑窗尺寸,则两者的映射关系为:

深度卷积网络中输入与输出之间的关系如下:

式中:part—映射后的产品区域位置信息。

图3 改进的深度卷积神经网络ZF5模型Fig.3 The Model of Improved Depth Convolution Neural

分类器的参数表达如下:

式中:K—产品的种类数;y—图像中产品的种类标签。

3 数据集

本分类统计方法主要用于工业生产中多类混线产品的分类记数,选择成套搪瓷品为实验对象,它在生产线上有多种类和混线生产的特点。图像的来源分为三类:工业摄像头拍摄的搪瓷品套件,数码相机在不同环境下拍摄的搪瓷品以及数码相机拍摄的样本照。采用VOC 2007数据集的格式以及评价算法工具,将原始图像样本制作为VOC 2007数据集格式并添加自定义标签,作为fasterR-CNN网络和改进深度卷积网络的训练数据集,图像为jpg格式。搪瓷品图片共收集到755幅,包括生产线上的搪瓷品112幅、其他环境下的搪瓷品613幅以及样本照30幅,为了扩充数据集,将一些图像向右镜像和向下镜像处理,并添加相应标签信息,最终得到数据集2154幅,标签共6792个。部分搪瓷品图像样本,如图4所示。

图4 原始输入图像样本Fig.4 Original Input Image Sample

4 预训练

4.1 运行环境配置

硬件配置:处理器Inteli5-4210M@2.60GHz,GPU显卡Nvidia GeForce GTX 960(2G),内存 8G(DRR3L 1600MHz)

软件配置:Win10 64位操作系统,编程软件Matlab2014a和VS2013,CUDA7.5数据库。

4.2 faster R-CNN网络预训练

该分类统计方法需要对faster R-CNN的网络和改进的深度卷积网络进行预训练调参,使该方法能够对搪瓷品的特征进行提取和识别分类。首先对fasterR-CNN的网络进行预训练,这里fasterR-CNN的网络选用ZF5和VGG16两种模型,把模型中的多分类改为二分类模式(即搪瓷品和其他),提高训练的精度和识别率。其中ZF5模型设置,如图3所示。VGG16模型参数设置如下:该网络包括13层卷积层、5层池化层和3层全连接层,在卷积层所有卷积核均为3*3大小,步长为1,池化层的滑动窗口为2*2大小,步长为2。两个模型的学习率均设置为0.01,迭代次数设置为20000次。在训练中训练样本占80%,测试样本占20%。预训练采用交替训练的方法,首先用在ImgNet预训练的模型进行参数初始化,训练RPN网络;然后用RPN上提取的候选框训练FastR-CNN网络参数;之后固定共享卷积层,用训练好的fastR-CNN重新训练RPN网络,训练完成后再用RPN网络的候选框微调fastR-CNN,如此交替优化来训练faster R-CNN的网络参数,直至收敛为止[9]。Faster R-CNN预训练完成后,VGG16模型的搪瓷品位置信息提取效果,如图5所示。生产线上搪瓷品识别过程,如图6所示。

图5 faster R-CNN区域定位结果Fig.5 The Results of Faster R-CNN Regional Positioning

图6 生产线上搪瓷品识别过程Fig.6 Enamel Identification of Production Line

4.3 改进的深度卷积网络预训练

改进的深度卷积网络训练时,需要输入单件搪瓷品的图像,因此训练集选用数码相机拍摄的简单背景下的单件搪瓷品图像和搪瓷品样本照。待识别的搪瓷品分为4类,共有4种标签:大搪瓷盆、大搪瓷盖、小搪瓷盆、小搪瓷盖。深度卷积网络选用ZF5和VGG16两种模型,网络模型参数设置同faster R-CNN一样,学习率设置为0.01,迭代次数设为6000次。选用已经训练好的faster R-CNN共享卷积层的参数进行初始化,用反向传播算法对softmax分类器和卷积网络进行微调。在训练过程中发现,VGG16模型比ZF5模型的损失率低,而且VGG16训练时的收敛速度更快。

5 实验结果分析

在faster R-CNN搪瓷品区域位置信息提取阶段,用不同模型和训练样本进行实验,来验证卷积网络深度和样本集大小对识别精度的影响,实验结果,如表1所示。准确率为四次试验的平均值。

表1 Faster R-CNN在不同网络模型和不同样本下的识别准确率Tab.1 Accuracy of Faster R-CNN Recognition Under Different Network Models and Different Number of Samples

在改进的深度卷积网络训练中,用传统的缩放输入图像尺寸后输入卷积网络的方法,与本方法进行对比,采用不同的模型进行识别对比,实验结果,如表2所示。准确率为四次试验平均值。

表2 不同深度卷积网络在ZF5和VGG16模型下的识别准确率Tab.2 Identification Accuracy of Convolutional Networks with Different Depths in ZF5 and VGG16 Models

预训练完成后,用不同的faster R-CNN和深度卷积网络模型进行实验,实验结果,如表3所示。

表3 不同模型组合网络的分类准确率和运行时间Tab.3 Classification Accuracy and Running Time of Different Model Combinations

实验结果表明,在产品定位阶段,适当增加样本量和增加网络卷积层的深度,可以提高faster R-CNN提取搪瓷品位置区域的准确率;在产品分类阶段,深度卷积网络中加入RoI池化层,可以提高卷积网络的分类准确率;整个分类统计方法中使用VGG16模型,识别率到达83.7%,每秒钟可以处理3张图像,满足实时性分类统计的要求。

6 结论

(1)提出了一种基于faster R-CNN和改进的深度卷积网络结合的图像识别方法,用于搪瓷制品混线生产情况下的产品在线自动分类统计;

(2)用RoI池化层归一化最后共享卷积层的特征,比直接通过缩放图像来统一输入图像尺寸的方法识别率更高;

(3)实验结果表明,采用VGG16作为分类统计方法中faster R-CNN和改进深度卷积网络的模型,分类统计效果更好。

猜你喜欢
搪瓷卷积分类
基于3D-Winograd的快速卷积算法设计及FPGA实现
分类算一算
卷积神经网络的分析与设计
从滤波器理解卷积
分类讨论求坐标
老乞丐
数据分析中的分类讨论
基于傅里叶域卷积表示的目标跟踪算法
教你一招:数的分类
玖申文化创意从日用到时尚