基于图像识别技术的高压电缆附件数字化工艺库设计与研究

2021-11-09 08:20邹翔宇梅珊珊孙伟莎乐保罗
电力与能源 2021年5期
关键词:电缆附件字符识别维数

袁 奇,邹翔宇,梅珊珊,孙伟莎,沈 斌,乐保罗,刘 畅

(国网上海市电力公司电缆分公司,上海 200072)

随着电网负荷的日益增长及城市化水平的不断升高,空间占用率更低、安全性更高的电力电缆成为城区电网的主要架构[1]。截至2020年底,上海电网在运行110 kV及以上电压等级电缆回路为1 900余回,电缆总长度已超过3 800 km,研究如何保障中高压电缆线路的安全运行已然成为电网运维工作的重要内容。

虽然电缆系统故障率远低于架空线路,但是电力电缆附件敷设通道狭窄,并且电缆设备大多位于市中心区域,当设备出现意外故障时,故障排查定位困难、修复用时长、修复难度大,造成的损失远大于架空线路[2]。近年来,因市政工程中的不当操作引起的高压电缆设备故障大量出现,引发了爆炸、火灾等重大事件[3]。据统计,2020年因安装工艺导致的高压电缆故障占比达35%,对电网的安全运行带来一定风险。为了减少电力故障,需要将安全防线前移,在电缆敷设安装过程中严格管控施工质量,尤其是管控电缆终端、接头处的附件安装工艺。

高压电缆附件的安装步骤主要以工艺图纸的形式呈现,经过严格审查后获得许可的工艺图纸是电缆公司施工监督的重要凭证。高压电缆附件的生产厂家众多,电缆附件种类繁多,各厂家生产出的同批次电缆附件依然存在质量参差不齐的可能性;大量高压电缆附件在未经长期运行数据验证其可靠性的同时,多次发现一些厂家附件安装工艺在电缆公司未告知电缆公司情况下变更了工艺,对后期运行带来安全隐患;由于没有形成各厂家附件安装工艺库,导致图纸比对无标准,人工审核工作量巨大且容易出现漏查情况。

本文从签订技术协议的源头上进行管控和把关,建立高压电缆附件图纸的数字标准化工艺库,收集各厂商电缆附件图纸扫描成像后作为标准附件安装工艺数据库;开发具有图像特征识别技术、光学字符识别(Optical Character Recognition,简称OCR)和一致性检测算法功能的指纹识别系统。在施工过程中,可将高压电缆附件安装工艺进行图像识别,与数据库中的图像进行比对,从而快速识别出施工图纸与数据库中标准图纸的差异信息,消除非标准工艺图纸带来的安全隐患。

1 原理简介

本文主要使用图像识别技术、OCR技术以及一致性检测算法,通过高清扫描设备采用光电技术和数字处理技术对高压电缆图纸、技术协议等工艺图扫描后进入工艺库,将电子版工艺图纸或工艺文档进行特征提取和字符识别、与标准工艺库里固化的厂家模板图纸进行比对;最终系统根据算法判断比对的结果从而形成比对报告,主要针对在不同厂家的高压电缆附件工艺图纸或文档上的修改情形进行分析,对图纸的删除、新增和修改部分进行系统提示,简化设计审核人员比对审核图纸的过程,减少错漏现象,提高工作效率。

1.1 图像识别技术

在高压电缆附件数字化工艺库中的图像特征识别技术中,主要涉及到局部二值模式(LBP)算法和方向梯度直方图(HOG)算法等特征抽取及边缘检测算法。在本系统中整个图像识别部分的流程包含图像预处理(图像降噪、图像增强)、图像复原(重建图像,恢复图像)、图像编码与压缩、图像分割(划分不同特征的区域)以及最终的识别。识别流程如图1所示。

图1 识别流程

LBP是一种特征描述的经典算法[4],广泛应用于图像分析领域,该算子不仅能捕获丰富的细节信息,而且能压缩冗余信息。当这种LBP算法的半径太大时,噪声的敏感度就会加强。HOG的主要目的是将已经进行过统一、灰度处理工作的工艺图纸单元进行梯度计算,统计图像的梯度信息,将图像划分成小的细胞单元形成每张图纸独有的HOG特征[5],从而实现后续图纸的比对。

基于高压电缆工艺化图纸本身复杂的特性,如对比度、颜色、密度分布的方法都具有局限性,为了获取更好的特征抽取和分类结果,深入研究现有的LBP算法。针对原算法的不足,利用全局及局部的像素灰度均差来决定自适应阈值的大小,让数字化工艺库系统对工艺图纸的图纸识别有较强的自适性。

本文运用自适应模式的LBP算法将窗口大小的值与基础LBP算法相结合,具有自适应分析特征的性能。窗口大小的值由水平和垂直方向的平均强度差来决定。

假设图像为g(x,y),计算大小为(2k+1)×(2k+1)的活动窗口中的像素平均强度值:

(1)

对于工艺图像中的每一个像素,分别计算它在水平和垂直方向上互不重叠的窗口之间的像素平均强度差:

(2)

对于每一个像素,能使Ek,h(x,y)或Ek,v(x,y)值达到最大(无论方向)的k值用来设置最佳尺寸:

Sbest(x,y)=2k+1

(3)

由此可知,Sbest(x,y)即为以(x,y)为坐标的像素点的特征基元近似大小。该尺寸与LBP算法的结合,减少了LBP在基元特征提取上的误差。

1.2 OCR字符识别

图片的字符识别过程是一整套流程,它包括图片分析、预处理、字符识别和识别矫正等,每个步骤都关系着最终识别结果的准确性。比如要进行字符识别的图片越清晰(即预处理做的越好),识别效果往往就越好。字符识别是图片的字符识别过程中最重要的环节。目前最广泛使用的字符识别技术是OCR。OCR是针对印刷体字符,采用光学识别的方式将纸质文档中的文字转换成为黑白单元构建的图像,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术[6]。

在OCR识别过程中主要分为4个部分。

(1)图片预处理。该模块的功能主要是将样本图片进行尺寸统一、分割、灰度化和二值化等预处理,为后续的字符识别做准备。

(2)训练字库。利用OCR的开源引擎对目标工艺图片里的特征字符进行,以提高识别准确率。

(3)字符识别。利用开源OCR识别引擎对图片进行字符识别。在系统中实现对一张图片的字符识别只需调用Pytesseract库里的Image_to_String方法。Text就是识别后返回的字符内容;Lang是自己训练的字库或者Tesseract自带语言包;Img是预处理后的图片。

(4)识别矫正。对拒识或误识的图片字符进行矫正。对于灰度图可以进行灰度调整,也就是对比度增强。以灰度图为例,试验发现增强前拒识,增强后则识别正确。

1.3 一致性检测算法

分形几何学对自然界出现的一些不规则几何体给出了数学描述,其本质是“自相似”。用分形理论进行图像分析的原理是利用图像的分形维数特征对目标图像进行处理及分析。分形维数直观上与物体表面的粗糙度相吻合,图纸中不同物体的粗糙度有很大差别,因此可用分形维数作为判别两张图纸中对应位置的图形是否一致的参数[7]。

高压电缆附件工艺图纸尺寸普遍偏大,本文采用盒维数作为分形维数的计算方式,利用分形维进行图纸比对。

图纸比对时,将图纸分别划分为P×Q个区域,利用分形维数计算方法进行盒子像素的计算,根据两张图纸的分形维数差值绝对值,根据参考阈值来进行判断,若小于阈值则判定为不一致,反之则为一致,从而实现最终的比对审核和判定[8]。

2 结语及展望

通过引入图像识别技术、OCR和一致性检测算法技术,将高压电缆附件数字化工艺库中的图纸、工艺说明书、技术协议与数据库中的原始模板进行特征值抽取比对,从而快速识别两者之间的差异性,比对准确率得到了大大的提升,避免了漏查、误判,及对高压电缆附件工艺后续造成的影响。

(1)本文建立了一个基于B/S架构数字化高压电缆附件工艺库,录入所有现有高压电缆附件的技术协议以及工艺图纸,MySQL关系型数据库管理系统的存储量大大增加,并且更便于检索,能够极大程度地保证数据的一致性与完整性,满足工作人员用户需求,安全可靠且可共享。

(2)图形识别利用LBP及HOG特征提取算法提取图纸中的图形特征从而获取局部相似性,并结合分形维数的对比算法与工艺库中的标准化图纸进行鉴别比对,最终形成比对报告,协助管理人员实现高效审核。

猜你喜欢
电缆附件字符识别维数
基于图像处理的交流电缆附件安装质量校核方法
β-变换中一致丢番图逼近问题的维数理论
一类齐次Moran集的上盒维数
一种改进深度学习网络结构的英文字符识别
仪表字符识别中的图像处理算法研究
硅橡胶在高压电缆附件中的应用
基于CUDA和深度置信网络的手写字符识别
220kV XLPE电缆附件GIS终端有限元优化设计
谈高压交联电缆附件的选型
具强阻尼项波动方程整体吸引子的Hausdorff维数