基于像素分类的图像语义分割方法及其应用研究

2022-02-15 09:35梁智宇苏彩红林军帆
关键词:药片外观像素

梁智宇,苏彩红,*林军帆

(佛山科学技术学院 机电工程与自动化学院,广东佛山 528000)

随着医药行业的飞速发展,制药工厂的机械生产自动化程度越来越高。在药片生产过程中,经过加工和包装等程序后,药片表面不可避免地会存在污点、裂痕等缺陷。然而人工检测的方式存在效率低下、漏检率高等缺点,无法满足如今的工业自动化生产要求。虽然国内在药片外观缺陷检测上已有一定的研究,但大多数研究都是基于传统方法的图像分割来进行的,在面对不规则和复杂的缺陷特征时,传统方法图像分割算法的鲁棒性弱,检测结果的精确度较低。因此,本文研究了基于全卷积神经网络的语义分割药片外观缺陷检测方法,将深度学习的优势运用在药片外观缺陷检测中。该方法能够对药片样本图像上的每个像素点进行分类,推断出每一个像素所属的类别(背景、污点、裂痕),最终分割出药片缺陷区域,实现对药片的外观缺陷检测。

1 全卷积神经网络

语义分割的定义是对图像中的每一个像素都定义一个表示其语义类别的描述标签。一般卷积神经网络(convolutional neural network,CNN)的结构由卷积层、池化层、全连接层堆叠组成,它们由5 个卷积组和3 个全连接层组成,这种卷积神经网络是基于图像局部的区域像素块处理来进行分类,而不是基于像素级别的分类。2015 年,LONG 等[1]提出了最早的全卷积神经网络(fully convolutional network,FCN),FCN 在CNN的基础上保留了前5 个卷积组,将后面的3 个全连接层全部替换为卷积层,使输出结果变为二维图像,再通过反卷积的方法进行上采样,使得通过池化层后缩小的特征图恢复原始的尺寸大小。为了弥补丢失的细节信息实现精细分割,FCN 增加了跳跃结构,同时兼顾了深层卷积层提取的粗糙的语义信息和浅层卷积层提取的精细的图像细节特征[2]。FCN的网络框架结构图如图1 所示,通过提取和学习样本图像的特征,可以对样本图像上的每一个像素点进行分类,最终输出一个精细的分割结果。

图1 FCN 网络框架结构图

2 药片外观缺陷检测方案

本文使用HALCON 提供的机器视觉集成开发环境HDevelop 搭建药片外观缺陷检测平台,实验的硬件配置为Intel i7-8750H 处理器,NVIDIA GeForce GTX 1060 显卡。药片外观缺陷检测步骤为:

(1)利用全卷积神经网络对预处理后的数据集进行网络模型的训练;

(2)对训练得到的模型性能进行评估;

(3)使用该模型推断新的样本图像。该方案的程序流程图如图2 所示。

图2 检测方案的程序流程图

本文采用像素精度(pixel accuracy)和交并比(IoU)来评估模型对缺陷检测的精确度[3]。像素精度表示某一类像素中预测正确的像素数目占该类像素总数的比例,平均像素精度则表示所有类别的像素精度的平均值。交并比表示某一类像素实际标注的真实值和模型推断结果的预测值的交集和并集之比,而平均交并比则表示所有类别的交并比的平均值,交并比指标可以直观地判断出真实值和预测值的重合程度。

假设样本图像中的像素类型可分为k 个类,将本属于i 类的像素预测为j 类像素的像素总数表示为ΣiNij,而将本属于i 类的像素预测为i 类像素的像素总数,即预测正确的i 类像素的像素总数表示为ΣiNii;设i 类像素的实际像素总数为Ti=ΣjNij,所有像素中被预测为i 类的像素总数为ΣjNji。

像素精度(pixel accuracy)PA的定义公式为

平均像素精度(mean accuracy)的定义公式为

交并比(IoU)的定义公式为

平均交并比(mean IoU)MIoU的定义公式为

2.1 原始数据集

本实验使用HALCON 提供的深度学习图像集作为原始数据集,其中包括圆形药片、椭圆药片、柱状药片,共2 850 张,三种药片合格品的原始图像如图3 所示,其中圆形药片的图像尺寸大小为300×300,椭圆药片的图像尺寸大小为429×300,柱状药片的图像尺寸大小为632×300,且皆为3 通道的RGB图像。图像的样本类型可分为三类,即合格品、污点缺陷样本和裂痕缺陷样本。柱状药片中的合格品322张,含污点缺陷的样本325 张,含裂痕缺陷的样本314 张;圆形药片样本中合格品298 张,含污点缺陷的样本317 张,含裂痕缺陷的样本324 张;椭圆药片中合格品316 张,含污点缺陷的样本326 张,含裂痕缺陷的样本308 张。

图3 三种药片的合格品图像

2.2 预处理

在预处理过程中需要完成数据集的制作,包括进行人工缺陷标注、数据划分和统一图像格式,预处理流程如图4 所示。

图4 预处理流程图

在进行样本标注时,须进行保留背景的分割标注,即样本图片中的非缺陷区域为背景,部分样本的标注效果如图5 所示。原始数据一共2 850 张图像,进行数据划分时需要随机选取1 995 张图像作为训练集,427 张图像作为验证集,427 张图像作为测试集。综合考虑训练效率和最终的分割结果,预处理时需要把数据集图像的格式统一设置成:图像大小为400×400,图像通道为3 通道,灰度值范围在-127到128 之间。

图5 标注结果

2.3 模型训练

在进行模型训练前还需进行预训练,预训练的目的是对网络模型进行参数初始化。HALCON 中提供的预训练模型中已经对网络参数进行了初步的初始化。在参数初始化过程中,还需要设置相关训练超参数,如初始学习率、训练批次大小、迭代次数和学习动量等。训练是一个将整个模型参数调整至使损失函数的loss 值最优化的一个过程,通过迭代和学习来不断更新网络模型的参数,使得训练中的loss值不断减小并进入收敛。实验采用基于动量的随机梯度下降算法(Momentum)作为优化算法[4],来得到最优的损失函数值。Momentum 算法引入动量项,综合历史参数的改变量,能够有效地抑制振荡,加快收敛速度。Momentum 算法的更新公式为

其中,η 为学习率,ρ 为动量因子,E(wt)为关于第t 次迭代权重wt的损失函数,∇tE(wt)为权重w 在t 时刻关于损失函数的一阶梯度,Δwt为梯度算子,表示每次迭代的权重更新部分。

为了分析训练中设置不同迭代次数对模型性能的影响,实验中进行了4 组不同迭代次数的模型训练,分别为10 次迭代、50 次迭代、100 次迭代和200 次迭代训练。训练过程中的初始学习率设置为0.000 1,动量设置为0.99。网络在200 次迭代训练中的loss 值变换曲线如图6 所示,loss 值随着迭代训练次数增加而呈现不断下降的趋势,最后进入收敛完成训练,训练的总时长为19 059 s。

图6 200 次迭代训练中的loss 值变换曲线

3 实验结果与分析

训练结束后,使用测试集来对训练得到的分割模型进行性能评估,评估结果使用像素精度和交并比来度量模型分割的精确度。表1 为不同的迭代次数下训练得到的模型对试集样本图像进行推断,推断结果中预测不同类别像素(背景:good、污点:spot 和裂痕:crack)的像素精度(PA)以及平均像素精度(mean PA)。表2 为不同的迭代次数下训练得到的模型对试集样本图像进行推断,推断结果中预测不同类别像素(背景:good、污点:spot 和裂痕:crack)的交并比(IoU)以及平均交并比(mean IoU)。

表1 像素精度变化表 %

表2 交并比变化表 %

从表1 和表2 可知:通过增加迭代次数,模型检测的精确度得到一定的改善,其中迭代200 次训练都得到的模型分割测试集样本图像的平均像素精度达到95.3%,平均交并比达到85.3%。

图7 给出使用迭代200 次训练后得到的分割模型对统一图像格式后的新样本图像进行药片外观缺陷检测的部分实验结果展示,检测结果中模型分割出了药片表面的缺陷区域,描述出缺陷的类别并给出缺陷区域的像素总面积。实验中对100 张预处理后的新样本图像进行推断的总用时为5.7 s,说明该分割模型在药片外观缺陷检测中的平均单张图像推断用时为0.057 s。

图7 药片外观缺陷检测结果

4 结语

本文提出一种基于像素分类的图像语义分割方法,将其应用于药片外观缺陷检测,从性能评估结果和实验结果中均得出较好的精确度。该方法表现出良好的鲁棒性,能够快速准确地分割出药片外观的缺陷区域,并对缺陷区域加以语义的描述,说明本方法具有很好的移植性,对其他产品的外观缺陷检测具有很好的参考作用。

猜你喜欢
药片外观像素
外观动作自适应目标跟踪方法
A Shopping Story to Remember
像素前线之“幻影”2000
不论外观还是声音,它都很美 Yamaha(雅马哈)A-S3200合并功放
救命药片
药片不能掰开服
“像素”仙人掌
药片洗头有奇效
药片颜色谁决定
ÉVOLUTIONDIGAE Style de vie tactile