读书机器人的版面分析及文字图像预处理算法

2011-02-05 06:37张伟业赵群飞
微型电脑应用 2011年1期
关键词:识别率版面页面

张伟业 赵群飞

0 引言

据世界卫生组织报告,全世界有盲人近4500万人,视力障碍患者达1.35亿人。我国现有各类残疾人8300万,其中盲人、低视力和视力障碍的多重残疾人有1691万,大约占残疾人总数的23%。对盲人及视力障碍者而言,法律上和经济上的援助是必要的,工程技术上方面的支持也是非常重要的。近年来,作者所在的实验室在助盲助残方面,做了一些基础性的研发工作,先后开发了自动翻页机器人[1]、翻页扫描机器人[2]和读书机器人[3],目的是帮助盲人和其他有阅读困难人的学习和工作,丰富他们的文化生活。

图1 自动读书机器人

众所周知,随着计算机信息技术高度发展,从文本文字转换为声音(TTS:Text To Sound)是轻而易举的事情,可是把用传统的印刷技术已经出版的书籍变成机器可识别的文档确实是费力又费时的事情。利用光机电一体化技术的读书机器人,可以实现翻书、版面文字图像信息采集、版面分析与文字识别、文本文档编辑与存储、朗读等自动化功能。

读书机器人实现自动朗读的关键在于对书面文字的识别,也就是说OCR(Optical Character Recognition,光学字符识别)识别率的高低决定了机器人阅读工作的可靠性和稳定性。由于书本的厚度和装订线,自动翻页机构和视觉系统可能导致版面文字图像的几何变形,直接影响机器人的文字识别能力。因此本文提出一种版面文字图像的预处理算法,包括版面分析、图像二值化,并通过建立数学模型矫正扭曲变形,改善获取的版面图像质量,提高OCR识别率,保证读书机器人阅读流畅和工作稳定。

1 图像的预处理

版面文字图像预处理流程算法将分为3个部分,依次为初步版面分析,图像二值化和图像扭曲矫正。

1.1 初步的版面分析

自动读书机器人获取的页面图像不仅包含了左右两张页面的信息,还包含了背景信息,所以需要通过初步的版面分析来定位页面位置,来过滤背景信息,分割左右页面。

如图2所示,页面图像的背景为单一的深色托板,而目标物书本一般为白底或浅色底,其垂直和水平方向的投影直方图的特征非常直观,可以从水平和处置投影直方图的一阶导数示意图中找出其边界信息,如图3中的白色标记所示,其中最大的波峰和波谷即对应了页面的边界处。

图2 页面图像

图3 垂直和水平投影直方图一阶导数示意图

由此可以确定页面的左右边界和上下边界,以及左右半页的分界线,并得到分割后的页面如图4。

图4 分割后的左右半页图像

1.2 二值化

图像二值化是扭曲校正的基础,也是OCR的基础。一般而言,针对图像像素的处理方式可以分为基于全局的阈值选取算法和基于局部的阈值选取算。由于读书机器人获取的页面图像所处的光线环境不确定,常常会有背景色渐变的情况出现,所以考虑在这种情况下适应能力更强的基于局部的阈值选取法。

最常见的基于局部的阈值方法是NiBlack算法[5]。它利用一个模板窗口不断去寻找局部的最佳阈值,强调光线环境变化下的情况。但是,实际运用中,经常会出现整体光线环境比较暗的情况,此时,NiBlack方法不会很理想。我们参考中参考Sauvola的方法[7],采用如下的改进方法:

其中,m(x,y)为局部灰度均值,s(x,y)为局部标准差,R为归一化参数,n为模板窗口的大小,与k一样,为经验参数。我们在本实验中,选取n=7*7,k=0.5。得到实现结果如图5和图6所示。

图5 全局方法和局域方法的二值化结果

图6 较暗环境下的二值化结果

图5中是我们对读书机器人中实际抓取的图像(即图4中的右图)进行二值化操作,左图为全局化的 OSTU方法得到的结果,右图为Sauvola方法得到的结果。在背景色渐变的情况出现,Sauvola方法这样的基于局域的方法效果很好。

图6中的左图是从页面图像上截下来的光线较暗的一部分,中间和右边的图像分别为Niblack方法和Sauvola方法二值化的结果,可以明显看出,在这样的光线条件下,Sauvola方法比NiBlack方法适应力更强。

1.3 页面扭曲的矫正

读书机器人获取的页面图像,由于书本身的厚度和视觉系统的视角限制,或多或少的存在着一些几何形变。近年来,世界上很多学者针对这种情况提出了解决方法,主流方向是根据分析页面图像的内容来进行页面扭曲校正[4][6][7][8][9]。本文中以这些文献为基础,并且结合实际的实验环境,提出了以下的扭曲矫正流程,如图7所示:

图7 图像扭曲矫正流程

1.3.1 文字行的定位

页面图像经过二值化之后,首先对其进行膨胀操作为寻找连接点做准备,膨胀的模板大小为3×3。然后遍历膨胀过后的图片,寻找所有的在垂直方向上连续的区域(宽度为1),当该区域的长度 L符合一定条件时,就选取该区域的中点作为基准点,这些基准点就代表了大部分文字的中心点。经过试验分析发现,2<=L<=6时,基准点选取的效果为最佳。既避免了噪声干扰(2<=L),又保证了不受表格或者边线等影响(L<=6)。

为了确定文字行的连线,需要以基准点为中心,分别向左和向右寻找最紧邻点,寻找方法如公式(2)和公式(3)所示:

其中,S为当前的基准点,D为寻找的目标点,k为加权系数,因为中英文的排版基本都是横向排版,文字行都是水平方向,所以此处选取k=10强调水平方向。选取具有最小的正数值的Wleft和Wright的目标点D,则此时D为S的左近邻点或者右近邻点。当两个点D1和D2互为左右近邻点时,则D1和D2组成了一个近邻点对。连接所有的近邻点对,并去掉长度过短的连线(实验中选取近邻点个数小于8个),则可得到的初始的文字行连线,如图8所示。

图8 定位的文字行

文字行的定位完成后,需要用二维曲线来拟合这些文字行。本试验中采用的方法是三次样条曲线拟合[10],保证拟合曲线通过所有的基准点,前后区间的一阶和二阶导数连续,精度较高。

1.3.2 利用文字行的建模

初步的文字行构建完成之后,需要从中挑选出两条最合适的文字行作为基准线来建模[9]。假设共有n条曲线,其中第i条和第j条是最合适的,这意味着利用这两条曲线插值构建出的其余的n-2条曲线,与实际定位的曲线误差累计最小。误差的原理图如图9所示。

图9 建模误差示意图

令左边界为L,右边界为R,第k条文字行曲线的表达式为Ck(*),则以第i条和第j条文字行为基准线,与第k条文字行曲线之间的误差的计算方法如下:

最佳的i*和j*计算公式如下:

1.3.3 复原扭曲文档图像

在我们确定了两条基线之后,就可以构建数学模型来复原图像。假定理想环境下的点位置为(x,y),实际在图片上的反应为 (x0,y0),则有如下的对应关系[9]:

根据公式(8)即可求出原始图像。截取了原始页面图像上变形比较严重的部分,测试效果如图10所示。

图10 (a)(c)为原始页面图像,(b)(d)分别为矫正结果

2 实验结果

实验环境:页面图像采集工具为佳能 A620,图像大小设定为 1600×1200,pc的处理器为 Intel 1.5GHz,内存为1.25G,系统开发环境Visual Studio 2005。

表1 时间测试结果

由表1中可知,所有的图像预处理的步骤需要时间2~3s左右,但是实际上可以在一边朗读这一页文本的同时,处理下一个页面图像,所以时间角度来看是足够的。

表2 识别率测试结果

由表2可以看出,扭曲矫正对识别率的改善还是很明显的。进一步的实验可以发现,当识别率达到85%左右时,读书机器人基本上可以流畅的朗读文本,而不会给人断续感。

3 结论

本文中提出了一套图像预处理流程算法,包括了版面分析,二值化和页面图像的几何形变扭曲矫正,应用于自动读书机器人,并在试验中获得了良好的结果:显著的提高了OCR的识别率,使得读书机器人的阅读更加流畅。但是,在获取的版面图像形变比较严重时,即使经过校正等预处理操作,OCR识别率也很难提高,读书机器人将会读得结结巴巴。通过改进自动翻页机构及其展压书部件,妥善的调整视觉系统及其安装位置,这个问题可以得到极大地改善。

[1]赵群飞,吴心然,唐矫燕.自动翻书机[P].中华人民共和国.发明专利,授权专利: ZL 200410017692.7,2004.4.

[2]冶建科,赵群飞,周毅,张伟业.一种自动翻页扫描机器人的研制[J],技术应用,2009,01: 27-31.

[3]唐矫燕,赵群飞,杨汝清,吴心然.读书机器人机构设计[J],上海交通大学学报,2005,39(12): 2025-2028.

[4]张森,赵群飞,冶建科.一种数字图像几何畸变的自动矫正方法[J],机电一体化,2007,3:60-63.

[5]Niblack W.An Introduction to Digital Image Processing[J],Prentice-Hall,Englewood Cliffs,New Jersey,1986: 115-116.

[6]Zhang L,Tan C L.Wraped image restoration with applications to digital libraries[J].Proc.Eighth Int.Conf.on Document Analysis and Recognition,2005,8:192-196.

[7]Ulges A,C Lampert H,Breuel T M.Document image dewarping using robust estimation of curled text lines[J],In Proc.Eighth Int.Conf.on Document Analysis and Recognition,2005,8: 1001-1005.

[8]Liang J,DeMenthon D F,Doermann D.Flattening curved documents in images[J],In Proc.Computer Vision and Pattern Recognition.2005,6: 338-345.

[9]田学东,马兴杰,韩磊,刘海博.视觉文档图像的几何校正[J],计算机应用,2007,12: 3045-3047.

[10]李庆扬,王能超,易大义.数值分析[M],清华大学出版社,2001.

猜你喜欢
识别率版面页面
刷新生活的页面
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
版面撷英
好版面要有独到的创新技巧
高速公路机电日常维护中车牌识别率分析系统的应用
版面“三评”看得失
新版面 新视角
Web安全问答(3)