基于深度学习的表格类型工单识别设计与实现

2020-08-21 09:09潘炜刘丰威
数字技术与应用 2020年7期
关键词:深度学习

潘炜 刘丰威

摘要:针对电力行业,基于OCR技术和TensorFlow深度学习框架,设计了一种表格文本的识别模型,同时支持印刷、手写字符的识别,模型使用了OpenCV中的形态学函数,以及CTPN+CRNN算法,可实现电力营销业务办理过程中各类业务表格类工单的批量识别,实现海量扫描件、拍照件等图像数据的检索并返回营销业务人员需要核查的信息。这种借助计算机辅助的新方式,相比人工核查,速度快,效率高,误差低,有较好的应用价值。

关键词:电力营销业务;OCR技术;深度学习;表格文本识别模型

中图分类号:TP391.1 文献标识码:A 文章编号:1007-9416(2020)07-0150-03

0 引言

互联网技术的飞速发展,信息系统的广泛应用,给企业带来更全面、及时的信息,但快速准确核查信息也变得更加困难。特别是信息系统中上传的各类扫描件、证照等附件,相比较传统的人工查阅核查方式效率低,易错漏的情况,采用基于深度学习的机器识别模型则可从海量附件数据中检索并返回给用户需要核查的信息。机器辅助的新方式,提高了工作效率,降低了错漏率[1]。

1 研究现状

1.1 背景和意义

日常生活中,我们每天都会接触到数字表格,以电力行业为例,在办理业扩报装业务时,操作人员在收集了用户提供的基本信息后,通过系统打印一份业务申请单,交给用户签字,之后扫描存档,以为后续业务环节办理提供材料支撑[2]。同时,为保障用电业务开展的规范性、安全性,业务办理人员还会对扫描件进行核查,这项工作重要、繁杂且枯燥。所以,如果找到一种自动识别扫描后的表格文档的方法,把数据的处理交给电脑来做,就能极大地节省时间,提高核查比对的工作效率,也可及时发现材料存在的相关问题[3]。

1.2 现状及分析

表格的分析和字符识别在实际生活中有巨大的应用意义,已成为近年来图像处理应用的研究的热门。美国成立了一个专门研究表格字符识别的机构,即国家标准及技术研究所,我国在表格字符处理领域起步较早,处于一个较先进的水平层次,1992年,重庆大学就设计开发出Av-100型表格自动阅读机。

表格字符识别的核心技术就是表格内字符的提取及识别[4]。目前人们对表格文档类的自动识别系统的研究主要面向邮编识别、票据识别、考试成绩识别等应用领域,虽然表格文档类自动识别已经有一定研究,但是由于表格多样性、复杂性、加上印刷体和手写体在表格中时常混合存在,都加大了字符识别正确率提高的难度,能够实用的系统却比较少,这一方面的理论有待完善。

2 模型设计

2.1 特征分析

以下是一张电力装拆工作单的部分内容截图(如表1所示),混合表单的字符内容存在以下特征:

(1)表单样式有固定的设计,多有嵌套的表格存在。(2)表单中存在印刷的内容,也会有手写的内容。(3)表单有扫描,也有拍照的,其受噪声干扰较严重,方向也可能存在倾斜,获取到的字符信息存在不同程度的干扰。

2.2 模型设计及开发

一般情况下,通过OCR(光学字符识别)技术进行图形字符识别的基本流程可分为5步,如图1所示。

第1步执行版面分析,判断页面上的文本朝向;第2步预处理,做角度矫正和去噪;第3步行列切割,对每一行做行分割,再对每一行文本做列分割,切割出每个字符;第4步字符识别,该字符送入训练好的OCR识别模型进行字符识别,得到结果;第5步后处理识别矫正,对其进行识别结果的矫正和优化。

在初期识别时,先从表格中找到相匹配的表格模板,如找到,则直接進行字符图像的提取,如未找到,则将表格信息加入表格模板,再提取字符图像,分割、细化、归一化处理,得到正规的单个字符后进行特征提取然后送入已经训练好的神经网络去进行识别。识别后根据识别结果提取单元格字符串的整体特征,训练整体识别的神经网络。

依据上述过程的设计,对图1的基本流程做优化,得到表格的后期识别流程,如图2所示。

根据上述流程,表格识别过程设计如下:

(1)对图片做二值化处理,腐蚀和膨胀后得到表格线。这里利用OpenCV里面的形态学函数(cvErode、cvDilate)完整的识别出图片中的表格。(2)由表格线获取单元格交点坐标,按坐标把表格分割为多个单元格图片。(3)对图片文字做检测定位。基于tensorflow框架,采用CTPN算法完成文本的检测定位,并使用RNN提升文本检测效果。(4)文本识别,输出结果。基于pytorch+warp-ctc框架,采用CRNN(CNN+RNN+CTC)算法完成文本识别过程,其中CNN提取像素特征,RNN提取时序特征,由于手写字符的随机性,可以使用CTC确定哪些像素范围对应的字符[5]。

表格字符的识别,字符分割的处理很关键,为保证分割结果的准确性[6],在分割过程中嵌入了一个BP识别神经网络计算其广义置信度;其次,再利用统一的算法来反求出置信度。

根据当多层前向神经网络在使用均方误差或库尔贝克(Kullback)鉴别熵做代价函数时,其输出的期望值是各个类别的后验概率。假设Oi是Ki类对应的神经网络的输出,则:

E{Oi}=P(Ki│x)

分类判决时可以取最大输出对应的分类,在某种程度上Oi输出的最大可以作为置信度,但是,却忽略了其他的输出值,用这种方法会产生误识。所以这里利用最大值和次大值的差值比作为置信度。先把Oi的输出值做排序,得到最大值Omax,次大值为Osec,则置信度为:

c=(Omax-Osec)/Omax

判断置信度c的值,值越大其识别结果的可靠性越高,这里取阈值为0.95,如果大于0.95,则判断识别结果正确,否则错误。

图像识别后输出结果存在在数据库中,其响应参数设计如表2所示。

3 模型应用

目前该模型已应用在广州供电局稽查业务中,对业务扫描件、拍照件进行合规性检查,提取各种表单数据中的关键信息[7](例如用电户身份信息,用电类别、电能表计编号、型号等),并与营销系统中录入的数据做一致性比对。通过使用,机器识别相比人工识别,效率提升至少10倍以上,印刷手写表单混合字符识别的准确率可达到75%以上。

4 结语

本文以电力行业为例,针对业务办理人员面对海量的表单扫描件、拍照件的信息收集、核查需求,基于深度学习,研究了一种印刷手写混合表单识别模型,经过模型验证和实际应用,较好的实现了机器辅助识别表单内容的能力。相比人工核查,速度快,效率高,误差低,亦可推广至其他行业,有较好的应用价值。

参考文献

[1] 王科俊,陈卉.印刷体中文文档识别系统的研究[C].北京图像图形学学会.图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集.北京图象图形学学会,2009:311-316.

[2] 于伯峰.印刷体中文文档中表格和汉字的识别研究[D].哈尔滨:哈尔滨工程大学,2011.

[3] 马然.基于深度学习的自然场景文本识别系统的设计与实现[D].长春:吉林大学,2015.

[4] 吴畏,丁茂祥,郝红卫.通用票据识别系统中的字符切分方法[J].计算机工程与设计,2004(1):19-21.

[5] 刘晓春.基于深度学习的手写体图像分类识别研究[J].江西通信科技,2016(04):35-39.

[6] 高学,金连文,尹俊勋,等.一种基于支持向量机的手写汉字识别方法[J].电子学报,2002,30(5):651-654.

[7] 高学,王有旺.基于CNN和随机弹性形变的相似手写汉字识别[J].华南理工大学学报(自然科学版),2014(1):78-82+89.

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
构建“单元整合、主题牵引”诗歌鉴赏“深度学习”课堂的策略