表格图像特征目标识别技术的研究

2016-11-04 23:14李彬赵连军刘帅
科技视界 2016年23期

李彬+赵连军+刘帅

【摘 要】为了准确快速地识别一张完整的考核测评表的特征目标信息,提出了一种基于表格图像处理的特征目标自动识别的算法。根据表格图像的特点,对考核测评表图像进行灰度化等预处理,并利用感兴趣区域检测方法定位考核表单元格位置,在此基础上,研究了采用像素统计方法和角点检测方法识别特征目标,最后通过实验验证了算法的正确性和可行性。

【关键词】图像预处理;光学字符识别;角点检测

【Abstract】In order to identify the characteristics of a complete assessment form of the target information accurately and quickly,an automatic recognition algorithm for feature objects based on table image processing is proposed.According to the characteristics of the table image,On the assessment of the assessment of the image of the gray, and uses the interest area detection method to locate the position of the table cell.On this basis,according to the feature of objects, the thesis studies to automatically recognize ticks using statistics pixels and corner detection methods..Finally, the correctness and feasibility of the algorithm are verified by experiments.

【Key words】Image preprocessing; OCR; Corner Detection

0 概述

传统的企事业单位一般采用人工统计方式进行人员年度考核测评,从下发考核文件,组织相关人员填写考核测评表,收回考核测评表,计算得出人员的考核测评成绩。这样的流程复杂繁琐,花费时间,效率低下。而且,最终要将纸质版的表格进行存档,这种存档方式不利于今后的文件查阅,影响了文件的可追溯性。为减少人工操作,提高工作效率,本文研究了一种电子考核测评系统,通过该系统可以将一张有固定版面格式的考核测评表图像进行灰度化[1]、二值化[2]、图像细化[3]、倾斜校正和归一化[4]等操作,使得图像的版面清晰;然后,对考核测评表进行版面特征方面的分析,为快速定位考核表内单元格的位置,提出了感兴趣区域检测方法。对于考核测评表内的文字信息和特征目标(对勾),分别采用了光学字符识别技术和角点检测方法进行自动识别。这些方法和技术的提出,使得数字图像处理技术在企事业单位人员考核测评中得到应用,节省了人力和时间,提高了工作的准确性和效率。

1 表格图像预处理

经过照相机和扫描仪等设备采集后的图像,经常受到外部环境诸如光照、拍摄角度等因素的影响,采集后的图像存在图像倾斜、模糊、图像失真等情况,极大的影响后续考核表内的文字信息和特征目标的提取。因此,必须对获取到的图像进行预处理操着,预处理操作的流程如图1所示:

1.1 灰度化

彩色图片所包含的像素都是由红(R)、绿(G)、蓝(B)三种基本颜色组合而成,这三种基本颜色的参数都是在0~255之内。为减少处理彩色图像的计算量和时间复杂度,本文采用线性变换中的加权平均法对图像进行灰度化处理,得到单色图。

1.2 二值化

为了将图像中目标与背景分割开,去除干扰信息,需要根据图像设置合理的阈值。由于本文所研究的考核测评表的版面清晰、灰度级别对比明显,所以采用固定阈值[5]法对图像进行二值化操作,通过比较考核表中每一个像素点的灰度值与设定的固定阈值的大小关系,将原图像中每一个像素点的灰度值,即取值范围从0~255被置换为0或1两个值。

1.3 平滑处理

考虑到一些外部因素如外部光照条件造成的亮度不统一,从而引发明暗对比、图像失真等不良后果。为降低图像上的噪声,分别研究了中值模糊处理法[6]、双边滤波处理法[7]对图像进行平滑处理。

1.4 倾斜校正

对于考核测评表不可避免出现的图像倾斜的现象,经过研究,根据表中表格线的特征,使用Hough变换[8]计算得出图像的倾斜角度,将不同的坐标系中的点和线建立起一种对偶关系。方法简单且图像校正的效果不错。

此外,在经过图像细化和归一化等操作后,对考核表图像的预处理操作就结束了,在得到内容和版面清晰的图像后,便可顺利进入下一步的特征目标定位的操着。

2 特征目标定位算法的研究

以整个考核测评表为研究对象,通过版面理解的特征目标定位算法,从几何结构出发,分析版面特征,明确横纵向记录之间的关系。

2.1 几何分析的版面理解技术研究

每张考核表由标题、主体这两部分组成。标题处在考核表的最顶端的位置,是一行描述性的文字,主体由大小规格统一的二维表格组成,考核表的内容简单、主体信息明确,只包含了被考核人员的姓名和考核内容两部分,所要填写的特征目标(对勾),所在的矩形框大小都是60*60像素的单元格,而且单元格之间分隔存在,并不相互连接,这样便于对不同单元格内信息的提取。

2.2 基于感兴趣区域检测的单元格定位

对于一副图像,我们感兴趣的是图像中的某部分,有时候要对目标进行跟踪时,需要选取目标特征,为方便将图像中的目标区域标记出来,通过设置感兴趣区域(ROI),即将考核表图像中的有用信息如姓名、单位等文字信息和对勾所处的位置设置为感兴趣的区域。本文使用cvsetImageROI(src,cvRect(x,y,width,height))函数进行感兴趣区域的划分,在该函数的参数中,src为需要进行处理的图像,x和y代表感兴趣区域的起点坐标,width和height为感兴趣区域的宽和高。

结合本人事考核表的实际情况,考核测评表一共8行单元格,在Opencv中设置感兴趣区域的同时设置相应的一个计数器,每执行完一行单元格就对计数器进行一次累加操作,直到执行完最后一行。

3 特征目标自动识别技术的研究

在研究了几何分析的版面理解和基于感兴趣区域检测的单元格定位的方法后,在一张完整的考核表内,实现了准确定位目标单元格位置和文字信息的效果,在此基础上,进一步研究如何提取已经定位好的特征目标(对勾)的位置。

3.1 像素统计法识别对勾

像素是数字图像中最基本的单位,对数字图像的操作也就是对数字图像中的像素的操作,每一幅图像都有像素个数固定、像素位置排列固定和像素独立存在的特点。在考核测评表中,有些单元格中有对勾,有些单元格中没有对勾,这二者的像素差距非常明显,有对勾单元格的黑色像素个数多于没有对勾的单元格。根据每个感兴趣区域像素点的位置,逐行进行像素检测,直到整个感兴趣区域的像素检测结束。每个感兴趣区域的黑色像素点的个数运用求和公式得出,参考对照已经设定好的定值,判断该区域是否为对勾,如果是,记录该区域的位置。

3.2 角点检测识别对勾

一般图像边缘曲率的极大值点或者亮度变化剧烈的点被认为是角点,角点有利于匹配的可靠性和运算速度的提高,在减少信息数据量的同时又能保留图像的大部分信息。角点检测的方法有许多种,如Fast角点检测算法、Moravec角点检测算法、Shi-Tomas角点检测算法、Harris角点检测算法、曲率空间角点检测算法和外界链码角点检测算法[9]等算法。根据本文所研究的考核测评表的结构特征和对以上有关算法的了解,选择Harris角点检点算法进行研究。

Harris是一种简单的点特征提取算子,这种算子受到信号处理中的自相关函数的启发,自相关函数相联系矩阵的特征值是它的一阶曲率,如果该点是特征点,曲率值会很高。Harris角点检测算法的原理如图2所示。

图(a),这是窗口在图像中的平滑区域里面,窗口在移动时,在所有的方向上都没有任何变化,其运动轨迹没有改变;图(b),窗口在边缘区域,窗口在该区域移动的时候,其运动轨迹是沿着边缘方向的,没有方向上的变化;图(c),这是窗口进入角点区域,窗口的运动轨迹在各个方向上具有变化。Harris角点检测的自相关函数可以表示为:

其中,E(m,n)是两个窗口偏移[m,n]而造成的图像灰度变化的结果,在一副图像中,角点区域是变化最明显的区域。对于本文所研究的考核测评表图像,利用OpenCV中提供的cvGoodFeaturesToTrack函数,在设置每个单元格为感兴趣区域时使用该函数中的mask参数,根据程序得出的结果,得出感兴趣区域中角点的个数。由于每个规范填写的对勾会有至少3个角点,单元格是一个规范的矩形,会有4个角点,这样该区域的角点个数大于等于7个的时候,该感兴趣区域内存在特征目标对勾,此时程序输出该感兴趣区域的位置标记符。

4 实验分析

采用的实验环境平台为Microsoft Visual Studio2010,用C++作为编程语言,在Visual Studio 软件上配置OpenCV实验环境。通过配置好的实验环境,做实验对比分析像素统计法和角点检测法对对勾位置提取的准确度。如图3为一张测试图。

通过像素统计法和角点检测法得到的结果图4所示,可以看出,对于一张填写并不规范的表格,角点检测法比像素统计法的容错能力更高。

5 结束语

本文提出了一种快速识别一张人事考核表图像中的特征目标的算法,经过对图像的预处理和表格图像的版面分析等操作,最后通过实验对比分析像素统计法和角点检测法对图像中特征目标识别的准确度。

【参考文献】

[1]王泽发,唐兴国.基于灰度变换的图像增强方法研究[J].科技创新导报,2011(1):119.

[2]平丽.图像平滑处理方法的比较研究[J].信息技术,2010(1):65-67.

[3]吴丽丽,余春燕.基于Sobel算子和Radon变换的车牌倾斜校正方法[J].计算机应用,2013(S1):220-222.

[4]周冠玮,平西建,程娟.基于改进Hough变换的文本图像倾斜校正方法[J].计算机应用,2007(7):1813-1816.

[5]段晋英,史建芳.改进的高低帽变换对固定阈值二值化算法的优化[J].科学技术与工程,2014(15):245-250.

[6]王芳,满益云.基于模糊中值滤波的椒盐噪声去除方法[J].模糊系统与数学,2012(1):166-174.

[7]张闯,迟健男,张朝晖,王志良.基于边缘检测与双边滤波的彩色图像去噪[J].电子学报,2010(8):1776-1783.

[8]梁添才,皮佑国,彭晶,朱朝华.基于Hough变换的列车客运票图像倾斜校正[J].华南理工大学学报,2007(5):35-40.

[9]卢瑜,郝兴文,王永俊.Moravec和Harris角点检测方法比较研究[J].计算机技术与发展,2011,21(6):95-97.

[责任编辑:许丽]