一种纸质工作票信息快速识别方法

2024-01-09 04:01林文钊

电力安全技术 2023年11期

来骏，仲赞，林文钊，沈炼

(1.国网浙江省电力有限公司湖州供电公司，浙江湖州 313000；2.国网浙江省电力有限公司长兴县供电公司，浙江湖州 313100)

0 引言

随着电力企业规模的不断扩大，设备数量激增，员工记录工作票、操作票(简称“两票”)的工作量也逐渐加大。虽然“两票”已经实现电子化管理，但是，一线员工仍严重依赖纸质工作票，因此，设计一种纸质工作票信息快速识别方法，以减轻人员工作负担，提升工作效率。

1 研究现状

工作票中需要识别的信息主要有印章内容、日期、人名以及操作步骤等，结合现场实际需求，重点选择使用较为广泛的印章以及日期两类信息进行识别，包括工作票图像中的印章与日期的检测和内容的识别。

工作票图像中的印章与日期检测可作为文本检测问题来处理，目前主要有专用的文本对象检测方法和基于通用目标检测的文本检测方法两类。文献[1]在CTPN 算法的基础上，使用多层卷积网络提取更加丰富的特征来对试卷当中的手写文本进行检测；文献[2]在角度纠正过的电力作业扩工单上，采用CTPN 算法来检测手写日期。随着通用目标检测技术的发展，目前越来越多的工作采用基于通用目标检测的算法对文本对象进行检测，这些方法根据网络结构的不同可分为以Faster R-CNN 为代表的两阶段检测算法和以YOLO 系列为代表的单阶段检测算法。文献[3]在Faster R-CNN 的基础上优化了RPN 结构，进而提高了对于复杂背景下文本定位的精度；文献[4]根据YOLOv3 的网络结构，设计了一种适用于小目标的字符检测网络。

针对文本识别，目前主要有两个途径：一种是通过传统图像处理方法进行字符分割，再对单个字符用分类器进行识别；另一种是直接对完整的文本信息进行无分割的序列化识别。文献[5]采用连通域方法，将生产日期的字符分割出来，再使用LeNet-5 网络对单个字符进行分类识别，这一类方法对于字符分割有着较高的要求，当遇到连笔等情况，将很难得到满意的分割效果，进而影响最终的识别率。随着深度神经网络的发展，无分割的序列化文本识别方法逐渐成为主流，典型的CRNN 就是其中一种针对场景文字的识别算法，该算法通过CNN 将图片特征提取出来，然后采用RNN 对序列进行预测，最后通过CTC 的翻译层得到最终识别结果。虽然RNN 有较强的序列建模能力，但运行效率不高，因此部分工作可尝试使用全卷积网络替代RNN 进行序列化识别，使模型更加轻量化。

综上分析，构建了一种全新的工作票图像检测与识别框架。在设计检测部分的框架时，重点考虑两点：一是日期信息区域的形状与尺寸都比较规则，使用复杂的专用文本检测算法会带来额外的算力负担；二是需要检测印章这类非常特殊的目标对象。因此，考虑选取通用检测方法。对于印章的分类，直接采用轻量化的卷积神经网络来提取深层特征以实现分类；在日期识别部分，采用Ghost-OCRNet 来解决由于手写与印刷字体混合造成字符粘连、不易分割的难题。

2 算法原理

2.1 YOLOv4 检测网络

YOLOv4 是由Alexey B 等人提出的，并在YOLOv3 的基础上进行了包括骨干网络、激活函数、损失函数以及数据增广等方面的优化，其主干网络采用了CSPDarkNet53，在YOLOv3 所使用的DarkNet53 基础上引入CSP 结构，进一步增强了网络的特征提取能力。CSPDarkNet53 中采用了Mish 作为激活函数，相较于传统的负值零硬边界的Relu 激活函数，新的激活函数使得网络拥有更好的泛化能力。YOLOv4 使用了CIOU Loss 作为损失函数，相较于之前的均方差损失函数，该函数将IOU、中心点距离以及矩形框长宽比纳入衡量的指标，使得检测精度得到进一步提升。YOLO 作为单阶段检测网络，可同时对边界框和类别进行预测，效率上相较于两阶段的检测网络有很大的优势。综合考虑效率以及精度，选用YOLOv4 作为工作票信息快速识别的检测网络。

2.2 MobileNetV3 分类网络

需识别的印章一共有六类，包括“合格”“不合格”“已执行”“未执行”“以上空白”以及“作废”。在实际场景中，受光线变化以及人工操作的影响，印章的色调、饱和度以及形状的完整程度等都会发生变化，因此采用神经网络提取深层特征信息并通过交叉熵损失函数对印章进行分类。为实现快速识别，选用更为精简的MobileNetv3 网络。

2.3 Ghost-OCRNet 日期识别网络

针对日期识别的复杂性，提出一种无需分割的轻量化识别网络Ghost-OCRNet 进行识别。由于工作票日期的字符数量不是固定的，因此采用CTC 损失进行模型训练，并使用贪婪算法来解码网络的输出序列，从而得到最后的字符串预测结果。

Ghost-OCRNet 设计中使用全卷积网络替换了文本识别网络中常用的RNN 算法以降低模型复杂度，同时引入Ghost 模块来替换普通卷积操作以减少参数量，从而进一步提升模型的推理速度。此外，为了充分利用文本的全局信息，在中间特征图的生成过程中使用了全局上下文嵌入与并行下采样的方法来增强特征表达能力。网络以Ghost 瓶颈模块(GhostBottle-neck)为基本模块进行特征提取，中间进行了两次并行下采样(Parallel DownBlock)来增强特征表达能力，此外，在网络的不同阶段设计了两种不同的全局信息嵌入模块(Easy-Global Embedding 与Multi-Global Embedding)以更好地提取特征信息。

2.3.1 Ghost 模块

为了构建轻量化的模型，引入了Ghost 模块，其基本结构如图1 所示。深度神经网络中的卷积操作被分成两部分：一部分为普通卷积，生成上半部分特征图；另一部分是将一系列线性运算应用于已有特征图来生成下半部分特征图，再对两部分特征图进行拼接。与普通卷积神经网络相比，在生成相同尺寸与数量特征图的情况下，此模块所需要的参数总数与计算复杂度均已降低，同时网络性能相比采用普通卷积的情况不会有明显下降。基于这一思想，引入GhostNet 中的基本网络组件Ghost 瓶颈模块并以此模块引入Ghost 模块替代卷积块，同时使用了深度可分离卷积网络(DWConv)来减小参数量。此外，为了应对梯度爆炸以及梯度消失的问题，设计了输入到输出的残差连接。

图1 Ghost 模块基本结构

2.3.2 特征增强

在Ghost-OCRNet 中，为获得更高的识别精度，设计了并行下采样模块以及全局信息嵌入模块来提高特征表达能力。该模块对输入特征图并行地进行卷积和池化操作，通过设置步长来实现降采样，并对结果进行拼接，在不增加计算量的情况下，实现了更强的特征表达。此外，根据特征图尺寸的不同，调整了步长、卷积核以及池化类型，使得网络在不同阶段都能够提取到足够丰富的语义信息。

全局信息嵌入模块采用全局池化的方法来获取上下文信息并增强特征表达能力。该模块被分成两个阶段：前一阶段，直接将输入与经过平均池化并广播后的结果进行拼接；后一阶段，特征图尺寸较小，因此并行引入卷积分支，以少量的计算代价获取到了更加丰富的特征信息。

3 实验结果及分析

3.1 数据集建立

从基层班组收集400 张原始数据，通过旋转、裁切等增广手段得到1 200 张图像。将得到的数据集随机分为两部分，其中1 000 张用来训练，200张用来测试；日期识别样本采用手写与打印混合的日期图片作为数据集，共计4 055 张，其中训练集为3 655 张，测试集为400 张；采用类似方法，获得了印章训练集图像2 000 张，测试集图像400 张。

3.2 模型训练

训练与测试采用相同的软硬件平台，操作系统为Ubuntu18.04，CPU 为Intel Core i7-9700k@3.60 GHz×8，GPU 为Titan V (显存12G)，使用的通用并行计算架构(cuda)版本为9.0。网络相关参数设定如表1 所示。

表1 网络相关参数

3.3 实验结果

按照要求进行日期和印章目标检测、印章分类和日期识别三组实验，并分别对网络的精度与运行速度进行测试。

1) 检测部分。以Faster R-CNN 作为对比网络，在200 张测试集上对印章与日期两类对象进行检测，分别评估，印章与日期的检测准确率。设置置信度为0.5、IOU 为0.7 时的检测精度作为网络精度的评价指标，同时以每秒处理帧数作为速度指标，检测实验结果如表2 所示。

表2 检测实验结果

结果显示：Yolov4 的检出率和召回率均高于Faster R-CNN，在保证高检测精度的同时，YOLOv4 在推理速度上也比Faster R-CNN 高，其模型尺寸也较小。综合考虑，YOLOv4 更能满足本文轻量化、快速识别框架的要求。

2) 印章分类部分。以轻量化网络Shuffle-Net_v2 为对比网络，在400 张测试集上进行分类效果的评估。以分类准确率作为精度的衡量指标，每秒处理帧数作为速度的衡量指标，实验结果如表3 所示。

表3 印章分类实验结果

结果显示：MobileNetV3 和ShuffleNet_v2 推理速度都很快，且模型大小也相差不大，但前者在精度上有优势，综合考虑，MobileNetV3 是更优的分类网络。

3) 日期识别部分。以CRNN 作为对照网络，测试集有400 张图片。以准确率作为精度衡量指标并且仅当每个字符都预测正确才被判定为正例，同样以每秒处理帧数为速度指标，识别实验结果如表4 所示。

表4 日期识别实验结果

结果显示：Ghost-OCRNET 在准确率和速度上都明显优于CRNN，并且模型大小只有后者的1/5，轻量化网络能够在保证精度的同时，实现手写和印刷混合日期的快速识别。

4) 整个系统的识别精度和识别速度测试。测试中以检测正确(预测置信度大于0.5 并且预测框与GT 框重叠率大于0.7)且分类识别正确的结果作为正样本，以正样本所占比例作为精度标准。从测试集中随机选取50 张图片进行测试，结果显示平均处理速度为5.6 帧/s，识别正确率能够达到93.5 %。

4 结束语

针对工作票上日期及印章等信息的识别，构建基于深度神经网络的快速识别框架，该框架采用单阶段快速检测网络YOLOv4 同时对日期和印章进行检测，并采用轻量化分类网络MobileNetV3 对印章进行分类识别。

考虑到日期中手写与印刷体混合文本信息较难识别的问题，提出了一个轻量化且无需字符分割的序列化文本识别网络Ghost-OCRNet，通过引入了Ghost 模块使得卷积操作更加轻量化，整体识别的模型大小较小，推理速度达到了47.6 帧/s，具有明显的识别速度优势。此外，为提高识别准确率，Ghost-OCRNet 中还引入了并行下采样与全局信息嵌入的操作来增强特征表达能力，整个工作票识别系统的识别准确率为93.5 %，平均处理速度为5.6 帧/s，非常适合应用于实际工作场景。