基于深度学习的供应商资质证书智能识别技术研究

2021-05-07 06:12张开洋付震坤胡义勇
数字通信世界 2021年4期
关键词:证书供应商文字

程 博,张开洋,唐 波,付震坤,胡义勇

(1.潍柴动力股份有限公司大数据部,山东 潍坊 261000;2.湖南工商大学大数据与互联网创新研究院,湖南 长沙 410205)

0 引言

随着人工智能、大数据技术的兴起,越来越多的企业将大数据和人工智能领域的技术应用在办公场景下,因此人工智能领域的相关技术成为实现办公自动化的一种重要的手段,通过人工智能算法自动化完成繁琐且单一的人工业务,可以使供应商管理环节更加高效,也能避免人工验证出现的错误。本文提出的主要优化技术是基于深度学习的OCR 识别技术。

OCR 技术是通过扫描等光学输入方式,将书籍、发票等文本印刷物品中的文字部分转为图像数据,再通过文字识别算法将图像数据转化为计算机可以识别的字符数据。OCR 技术的概念最早在1929由德国科学家Tasheck 首次提出,在20世纪90年代开始被应用于小规模的票据电子化处理[1-2]。近年来,OCR 技术被应用于各种领域,主要是金融、证券以及保险等行业[3]。目前OCR 技术发展成熟的应用有车牌识别、证件识别以及文档识别等。

随着深度学习领域的快速发展,基于深度学习的图像文本检测和识别模型已然成为文本识别领域的翘楚,检测和识别的精度已经超越了传统图像识别算法。深度学习的优势在于参数较多并且模型层次分明,将低层的特征转换为高层抽象的特征表示,因此比传统的图像识别算法拥有更良好的特征表示和更高的文字识别率。

近年来越来越多的研究者开始探讨基于深度学习的OCR 技术在各类专项领域的应用:

黄妙红等[4]将OCR 技术应用计算机审计工作中,何震等[5]探究了如何通过OCR 技术将金融票据电子化,丁明宇等[6]研究了将基于深度学习的OCR 技术应用于电商领域的商品参数提取,Wiseman 等[7]将OCR 应用于公路收费项目上,Hosozawa 等[8]应用OCR 技术检测食品的过期时间。

OCR 技术可以应用于生活的方方面面,本文将基于深度学习的OCR 技术应用于供应商证书识别业务,本方法将证书识别分成了两个部分:文字区域检测和文本识别,即利用计算机视觉技术检测证书图像中文本区域,然后将文本区域切分后进行字符识别,通过以上过程将证书图片信息转为计算机字符信息。

1 供应商采购流程自动化需求分析

大型企业的供应商数量上千家,公司的采购部需要对每一位供应商质量管理体系认证证书的执照信息、征信信息进行识别鉴定,鉴定过程主要是以下两个方面:①将证书与网上公开的信息进行对比查询,辨别真伪;②对证书的有效期进行查证。资质证书的人工鉴定过程复杂,并且工作量巨大,给采购部门的任务繁重。

供应商证书类型主要是质量管理体系认证证书(ISO9001)和IATF(International Automotive Task Force)证书,提取证书的主要参数信息(企业名称、证书编号、有效日期、经营范围和企业地址)。但是各种证书的样式不同,难以对齐分类整理,只能招聘一些业务人员专门负责整理资质证书,并通过官方网站利用证书号检验证书的真伪和有效性。这样的业务流程消耗了业务部门大量的人力成本,影响部门工作效率。

如果能通过智能识别技术优化供应商资质鉴定流程,会大大的减少业务部门人力物力的成本消耗,并且能提升证书识别的准确率和效率。而基于深度学习的OCR 技术是解决资质证书查验工作最适合的方法。

2 供应商证书智能识别方法

2.1 OCR 智能识别资质证书流程

OCR(Optical Character Recognition.光学字符识别)技术,指利用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,后用字符识别方法将形状,翻译成计算机文字的过程[9]。OCR 技术可以将图片信息转化为计算机文本,本文利用基于深度学习的OCR 技术识别供应商的资质证书信息。

由于证书的板式不固定,不同的发行机构有不同的样式,无法通过划定指定区域的方法切割文字区域。本文采用先识别后提取的方法,先识别证书的所有文字信息,在通过正则表达式提取出证书的主要参数信息(如企业名称,证书编号等)。

图1 供应商智能识别流程

证书智能识别流程如图1所示,多种类型的证书图像信息传入基于深度学习的识别模型,分别经过了图片预处理、文本检测、文本识别以及文本纠错,通过以上步骤将证书中的文字信息提取出来转换为计算机可以处理的字符信息。

2.2 图像预处理

为了使文字检测和识别模型能够较好的提取证书文本信息,在证书识别前对图像进行预处理。预处理操作包括以下几个方面:

2.2.1 去证书印章干扰

在证书上印章覆盖的区域内,文字检测和识别率很低,因此在图像预处理环节应该对印章区域进行过滤,这样可以有效地避免印章区域对文字检测和识别的影响。本文采用的方案是根据彩色图的RGB三通道方法[10],因为资质证书的印章大部分是红色样式,可以通过过滤与R 相近通道的颜色,以此能在不破坏资质证书文字信息的情况下,有效的去除红色印章,而对于没有红色印章的图片没有影响。

2.2.2 图像二值化处理

资质证书大部分是彩色图片,具有占用内存大,底纹干扰的缺点。对图像进行二值化处理,这样可以将彩色底纹过滤掉,留下白色背景和黑色文字。图像二值化处理的效果如图2(a)和2(b)所示。

图2(a) 原始图像

图2(b) 经过二值化处理的图像

接下来,我们可以计算窗口内的任何一个像素,并规定二者中的绝对值最大值(D)作为这一像素的输出,在累加把这个区域内所有像素点,并且将累加的和输出为特征,即:

接下来所要介绍的方法:自动阈值的选择。这个方法可以用来计算新图像的阈值,将新图像中的每一像素的灰度值与阈值作比较,必然存在两种可能:

然后,我们默认为图像的灰度范围为1到L,第一步我们可以通过一个方法把图像的全部像素分为两大组:即灰度范围是(1,2,……,k)的一组和灰度范围为(k+1,k+2,……,L)的一组,这两组的概率分为如式(2)和式(3):

整幅图像总的平均灰度为:

两大组之间的方差为:

2.2.3 去底纹噪声

噪声是图像中亮度或颜色的随机变化,会使图像的文本更难以识别。在二值化步骤中,神经网络识别图像文本无法去除某些类型的噪声,这会导致准确率下降。证书图片中包含很多底纹,底纹的存在会影响证书的文字识别,增加识别难度,所以要尽可能清除图片的干扰噪声源。主要运用滤波器和像素变化技术进行了底纹去除处理,通过反复测试得出较合适的阈值。

2.2.4 色域平滑与图像增强

通过以上3个步骤的图像预处理后,发现在证书图片因底纹、印章部分覆盖的文字有可能在处理后被模糊化或者变成残缺的文本图片信息,不利于后续的文字检测和识别。因此本方案通过调整对比度和色度对图片进行色域平滑处理。图像增强方面采用了Lanczos 算法进行插值,然后进行色域过滤,再进行文字膨胀以及边框填充,使用Clahe 算法进行平滑增强和对残缺的文字进行了增强处理。

Clahe 算法全称是限制对比度自适应直方图均衡的算法,Clahe 算法可以通过改变直方图的分布,将像素级限制在一定的范围内,提高图片的对比度,以此来展现证书图片中因模糊化而无法识别的细节部分。为了使Clahe 算法能达到良好的效果,需要对图像数据进行归一化处理[11]。归一化处理的方式是对其进行min-max 标准化(Min-Max Normalization),使结果值由原来的[0,255]限制在[0-1]数值范围内。Min-Max 标准化的公式如下:

归一化处理后,再用Clahe 算法处理图像数据,Clahe 算法的具体实现步骤如下所示:

①将输入的图像数据切割成相同形状和大小(像素数为M)的矩形块,像素值M的值越大,图像增强效果越好;②计算每个矩形块的直方图,x表示矩形块的灰度级,x的取值范围是[0,N-1],其中N是此时的灰度级;③计算受限制值,公式如下所示:

图3 直方图裁剪处理效果

通过以上证书图片处理流程,证书图片已经转化为清晰的白底黑字图,可以帮助智能识别模型提高检测和识别的效率和精准度。

2.3 文字检测

供应商证书图片文字检测是证书信息智能识别的必要步骤,先检测出证书图片中的文本区域,再对文本区域划分成单个字符的图片,这样方便后续的文本识别工作。

在具体工作中,一般需要在文本识别之前,通过文本检测技术对图像中文本位置进行画框定位,并存储其文本区域块[12]。本文采用了主流的CTPN 文本检测算法[13],CTPN 中用检测小框代替大文本框,以及引入了RNN(循环神经网络)中的BiLSTM(双向LSTM)模型,有着较好的文本检测效果。

在CTPN 模型出现前,文本检测模型中Faster-RNN表现较好。在许多文本检测算法中对其进行了优化,由于Fast-RNN 自身没有考虑到文字本身的特征,使得其检测效果无法显著提升。CTPN 模型依据文本行是由水平矩形模块,文本之间存在间隔,并且每个文本互相存在着语义关联这一特性,提出

图4 CTPN网络结构图

图5 VGG-16网络结构图

图6 BiLSTM网络结构图

了拆分检测的思想,首先检测固定长短的小文本框,然后将文本连在一起,组成文本行。

CTPN 的网络结构如图4所示,其的具体实现步骤如下[9]:

①使用VGG-16网络(其完整架构如图5所示)的前5个卷积层提取获得了大小为特征图。

②然后,使用3×3的滑动窗口在第一步的基础上进一步提取特征,并用这些特征预测多个目标候选区域。

③将上一步得到的结果输入一个BiLSTM 网络中,BiLSTM 是以LSTM(一种循环神经网络)为基础的神经网络模型,其网络结构如图6所示,输入模型后得到W×256的结果,然后将其输入到一个512维的全连接层。

④最后经过类似Faster R-CNN 的RPN 网络,获得文本序列框。

2.4 文字识别

文本识别是OCR 技术的核心模块,对检测出的文本区域快进行文字识别,将图像信息转换为计算机的字符信息。本文所使用的文本识别模型是CRNN,其网络架构如图7所示,这是一种基于CNN(卷积神经网络)[14]、BiLSTM(双向长短期记忆人工神经网络)[15]、CTC(一种时间序列算法)的模型结构。该模型是集成特征提取、序列预测、序列标注和序列对齐的端到端的网络模型,结合了CNN 网络和RNN 网络的优点,提高了文字识别的准确率和效率。

图7 CRNN网络架构图

2.5 文本纠错

本文采用的文本纠错方式有两种,对于文本参数(如企业名称、企业地址等)是通过上下文语序的方法为名称或者地址文本中字词计算其置信度,用来判断文本中OCR 识别错误的文字,并且给出相应的错误位置;利用统计语言模型与同一特征多角度相结合的方式对错误处进行改进[16-18]。对于证书编号和时间参数是通过正则表达式判断证书编号是否符合ISO9001证书和IATF 证书编号规律,以及时间参数是否符合“yyyy-mm-dd”的格式,然后对不符合的数据按照编号规律以及规范的时间格式作出相应的修改。

3 结束语

本文通过智能识别技术,实现了企业采购流程中供应商资质验证自动化,不仅提高了资质验证的效率和精确度,还为企业在供应商管理过程中节省了大量的人力物力成本。基于深度学习的OCR 技术在证书识别和企业资格认证方面有长远的发展前景和应用价值值得我们去探索和研究。

猜你喜欢
证书供应商文字
中国铸造供应商产品目录
WJCI 收录证书
中国铸造供应商产品目录
CSCD收录证书
收录证书
文字的前世今生
热爱与坚持
当我在文字中投宿
收录证书
海德威,最佳压载水处理解决方案供应商