基于汉字连通分量的印刷图像版面分割方法

2015-04-11 14:05付芦静钱军浩钟云飞

计算机工程与应用 2015年5期

付芦静，钱军浩，钟云飞

1 引言

文字具有较强的指示性同时也包含重要的语意信息，如书刊封面文字、报纸文字、产品包装上的文字等等，这些文字对于包装产品消费者以及书刊、报纸阅读者具有重要价值，如果存在文字印刷质量缺陷，将对书刊、报纸以及包装产品带来不可估量的损失。然而，传统印刷质量检测以色差作为最主要的检测标准，并没有单独对文字印刷质量进行检测。而在印刷生产过程中，文字经常出现笔画残缺、白点、断笔、边缘不清等缺陷，而色差标准并不能检测出这些缺陷。因此，通过版面分割提取印刷图像中的文字并对文字进行印刷缺陷检测，对于提高和完善文字印刷质量检测以及实现印刷质量在线检测具有理论意义和实用价值。

文字定位方法可以分为基于纹理和基于区域两大类。基于纹理[1-3]的方法将图像中的文字视为一种特殊的纹理，利用Gabor滤波器、Adaboost分类器和小波等纹理分析工具实现文字定位，它受噪声的干扰波动小，具有较好的鲁棒性。但是算法所需的定位时间长，对于大字符和文本较少的区域定位精度不高。基于区域的方法又可以分为基于连通域[4-6]和基于边缘[7]两种。基于连通域的方法是假设文字在同一区域内的颜色和亮度相似，且与背景颜色差较大，通过分析、提取文字的连通分量实现文本定位，算法的定位精度优于纹理方法。但是连通域方法容易将单个字符分割成多个连通分量，尤其是中文字符需要根据连通分量的排列属性合并文本区域，增加了算法的复杂度。同时基于边缘的方法易受噪声干扰，当背景与文本之间的对比度较低时很难实现文本定位。Chen等[8-9]提出一个知识型文本行提取系统，实现了在文本/图形的复合文档图像中提取文字。利用多层分割技术，将文档图像划分成不同的层，使同类对象处于相同层中，再运用以知识为基础的文本行提取方法在各层中获取文本行特性，根据文本行的几何和统计特性编码知识库实现文本行提取。闵华清等[10]和孙巧榆等[11]根据文本在图像中局部区域具有的显著性特点，构建一个视觉显著性模型，并提出一个融合该模型与边缘信息的文本检测方法，但该方法只能对已确定候选文本区域的文本图像进行检测。Jung等[12]针对边缘、角点、纹理等方法不能鲁棒的在视频图像中定位文本，提出利用笔画算子滤波器对文本区域进行定位。通过笔画算子滤波器去除候选文本中具有较强边缘的非文本区域，提高了文本定位算法的鲁棒性。目前，所提出的大部分文字定位算法对文本的多样性都具有一定的鲁棒性，但都是在对文本大小、字体、颜色等特性在不同程度上进行限定和假设取得的，仍没有一个文本定位算法能够不受文本的大小、排列方式、字体、颜色等变化影响。

根据汉字字符特征及其连通分量属性，提出一种基于汉字连通分量的彩色印刷图像版面分割方法。针对单个汉字存在多个连通分量特点，根据汉字结构特征和连通分量属性，合并和重建单个汉字连通分量，提高单个汉字连通分量的完整性，克服连通分量文字分割方法不能准确分割和提取汉字缺点，提高了不同字体、字号、颜色汉字的分割准确率。

2 汉字连通分量

2.1 连通分量属性

在连通域文字分割方法中，主要根据文字连通分量特性筛选、去除非文字连通分量。因此，连通分量的相关特征属性分析和判断成为算法的关键。在各颜色层的图像中，如果相邻两个像素的灰度值相同则它们便是连通的。根据八邻域连通原则对连通分量进行分析，利用连通分量所有边缘点最小外接矩形作为其边界，文字连通分量标记图如图1所示。

图1 连通分量矩形标记图

在每个连通分量中，它都具有一些基本特征和组合特征，连通分量的特征属性[13]如表1所示。

表1 CCi特征属性

在CCi特征属性中，一些非字符CCi是不具备以上属性的，可以依此对连通分量进行筛选。在CCi基本特征中，CCi像素数、面积属性可以用来筛选太小或太大的非字符连通分量。而CCi占空比和长宽比表明字符不可能占有整个连通分量外接矩形区域，依此判断连通分量是否为字符。另外，如果输入图像出现倾斜偏移，由于倾斜会导致CCi属性发生变化，因此需要对图像进行校正处理。

2.2 连通分量规则

根据文字连通分量的特性，单个汉字字符可能包含一个或多个连通分量，而英文字符（除i，j外）和数字则都是一个完整的连通分量，如图1中所示。而在单个汉字包含的连通分量中，有些连通分量只是字符的一部分，其特性与非字符相似，容易将其作为非字符滤除，影响文字分割。同时，连通分量过多会造成文字提取不完整，且影响分割速度和精度。因此，根据汉字结构特性及其使用频率，对汉字连通分量进行合并重建，重建规则如表2所示。

表2 汉字连通分量合并重建规则

汉字连通分量合并的基本思想是通过判断相邻两个连通分量外接矩形是否发生重叠，再根据重叠面积的大小并结合外接矩形的长宽比例和矩形中心距离合并连通分量。overlap，detax，detay，rateWi，rateHi意义如下：

根据以上汉字连通分量重建规则，汉字连通分量重建结果如图2所示。

图2 连通分量重建后标记图

3 版面分割

印刷图像版面分割过程如图3所示。利用金字塔变换逆半调算法对图像进行预处理，去除图像噪声和半色调网点噪声干扰。通过颜色采样得到初步颜色聚类中心，对颜色中心采用有限起始点均值偏移算法进行颜色分割，然后按八邻域连通原则标记像素得到连通分量，根据汉字结构特征和连通分量属性，分析、筛选、重建汉字连通分量。最后分析连通分量连接关系，确定文字排列方向，实现文字分割和提取。

3.1 逆半调预处理

图像在获取、传输过程中，会受到各种干扰产生噪声。同时由于印刷图像是由网点组成的半色调图像，不能对其直接处理，需要进行逆半调预处理，将其恢复成连续调图像。金字塔变换结合中值滤波的逆半调算法对半色调网点噪声具有很强的鲁棒性，利用金字塔变换实现细节图像和近似图像分离，能够在去除网点噪声的同时最大程度保留图像边缘细节信息。金字塔变换逆半调算法[14]如图4所示。

图3 文字分割方法示意图

图4 逆半调算法示意图

算法不会使近似图像受到同等程度滤波处理而使得图像模糊和边缘损失，能够最大程度地还原图像，同时去除网点噪声。

3.2 均值偏移颜色分割

根据彩色印刷图像在色彩空间的特征维数，利用均值偏移（mean shift）方法反复迭代搜索特征空间中样本点最密集区域[15]，实现图像颜色分割。为了减少图像颜色数量和保证被选取颜色为物体内部像素颜色，同时加快mean shift的收敛速度，对图像实施局部梯度最小颜色采样。利用水平方向和垂直方向Sobel算子检测彩色图像边缘强度，根据局部边缘强度值确定候选颜色，形成初步颜色聚类中心。以候选颜色中心作为mean shift起点，采用不同的带宽核函数循环迭代，直到最终收敛[16]。

Mean shift的概率密度函数可以表示为：

其中，和表示色彩和空域窗口带宽系数，C为归一化常数。本文选择高斯核函数作为mean shift的核函数，同时在带宽矩阵计算中，选择自适应带宽计算方法[17]确定均值偏移的带宽。

3.3 汉字连通分量重建

颜色分割后，在各颜色层二值图像中，根据八邻域连通原则标记像素点形成连通分量，以外接矩形作为连通分量的边界。利用连通分量的属性特征，对所有连通分量进行分析、筛选，去除明显的非字符连通分量。在保留下来的连通分量中，计算与其相邻外接矩形边框的重叠值，根据表2汉字连通分量重建规则对连通分量进行合并，进一步减少连通分量数目和提升文字连通分量完整性，加快文字分割速度。

3.4 文字排列方向判定

汉字连通分量重建后，根据连通分量位置关系，判断每个区域连通分量与相邻其他连通分量的连接关系，计算连通分量在水平和垂直方向上的总叠加值，并依据叠加值确定连通分量的排列属性。连通分量位置关系判断式[13]如下：

如果HBD＜0|VBD＜0，则CCi在水平或垂直方向存在重叠。如果相邻连通分量存在重叠，则连接相邻两个连通分量。而部分连通分量既在水平方向上有重叠，在垂直方向也有重叠。为了确定文字排列方向，根据式（11）对文字排列方向进行分析判断：

取T0=2.0，LinkLogcal=1表示文字为水平排列，LinkLogcal=2表示文字为垂直排列。

4 实验及结果分析

为了检验本方法的性能，选择彩色印刷图像集和ICDAR2003数据集对算法进行测试，彩色印刷图像集为自选图像，包含各种书刊封面和药品包装图像。

4.1 均值偏移带宽选择

在均值偏移颜色分割中，需要确定两个带宽参数hs和hr。如果带宽参数过小，则图像分割效果不明显，而如果参数过大，则会出现过分割现象，出现背景颜色覆盖细小文字部分。不同带宽参数的实验结果如表3所示。

表3 均值偏移实验结果

从实验结果可以知道，文字定位时间在很大程度上取决于带宽的大小。因为彩色印刷图像的色彩十分丰富，如果选择小带宽，分割后颜色数量多，而文字定位需要在各颜色层中筛选、定位文字连通分量，导致算法时间消耗大。而如果带宽过大，虽然加快了文字定位速度，但会出现过分割现象，导致细小文字区域丢失，文字定位不完整。因此，在综合算法时间和定位精度后，取hs=32，hr=48。

4.2 判定文字区域

根据3.4节的文字连通分量连接判定规则，连接相邻CCi确定文字排列方向，实验结果如图5所示。

图5 文字CCi连接图

根据判定规则，在CCi的连接中，任何一个有效的CCi连接必须是双向的，即相邻的两个CCi必须出现在对方的CCi连接中，所有的单向CCi连接都是无效连接，依次得到CCi排列方向，实现文字定位分割。

4.3 算法性能评价

在本文算法性能评价中，选择在文本块级别上进行，因为分割后的文本并不用于识别。采用这样评价方法对算法具有更大的宽容度，它允许算法检测到部分的文本行，这对于文本检测而言是可以接受的。评价指标[3，11]如下所示：

其中，R为召回率，P为精确度，f为整体性能指标，MDR为漏检率。ADB表示文档真实文本块，TDB表示检测到文本块，FDB表示检测错误文本块，MDB表示不完整检测文本块。表4为彩色印刷图像集对算法评价结果，表5为利用ICDAR2003数据集与文献[3，11]对比评价结果。

表4 不同类型印刷图像算法性能评价结果%

表5 ICDAR2003数据集性能对比%

从表4结果可以知道，经过汉字连通分量重建后，文字定位效果得到明显提升。同时对比中文和英文图像的文字定位结果发现，算法尽管在一定程度上弥补了汉字存在多个连通分量情况，但定位准确率仍然不及英文，需进一步提升汉字连通分量的完整性。另外，在算法性能方面，根据ICDAR 2003数据集测试结果与近年典型算法对比可知，算法在文字定位上的基本性能都基本接近，只是算法所需定位时间较长。部分文字定位效果实验图像如图6所示。

图6 实验图像

通过实验图像可以看出，算法实现图像中大部分文字定位分割，克服了图像中文字在字号、排列方向、字体和颜色上差异，保证了文字定位准确性。但是，算法依然存在一定的缺陷，如文字定位的速度很大程度上依赖于图像色彩数量，如果图像色彩丰富则所需时间较长，实时性不强。同时，算法易造成单独文字、字距较大以及细小文字丢失，因为判定CCi连接时，字距较大和单独文字作为无效连接去除，而细小文字容易在颜色分割时丢失，如图6（a）、（b）中所示。

5 结论

本文提出一种基于汉字连通分量的彩色印刷图像版面分割方法，通过对汉字连通分量进行重建实现在复杂印刷图像中准确提取和分割文字，为印刷图像质量在线检测中文字印刷质量检测奠定基础，使印刷质量评价更加接近人眼视觉特性。由于本文只选择了使用频率较高的汉字结构进行连通分量合并，因此算法对于一些特殊字体、艺术字等字体不能实现很好的文字定位，同时算法的时间复杂度较高，还难以用于实时检测，下一步应扩大汉字连通分量重建范围，优化和完善算法性能。

[1]Yan J Q，Li J，Gao X B.Chinese text location under complex background using Gaborfilterand SVM[J].Neurocomputing，2011，74：2998-3008.

[2]Lee J J，Lee P H，Lee S W，et al.AdaBoost for text detection in natural scene[C]//Proceedings of the 11th International Conference on Document Analysis and Recognition，Beijing，China，2011：429-434.

[3]Shivakumara P，Phan T Q，Tan C L.A Laplacian approach to multi-oriented text detection in video[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2011，33（2）：412-419.

[4]姚金良，翁璐斌，王小华.一种基于连通分量的文本区域定位方法[J].模式识别与人工智能，2012，25（2）：325-331.

[5]Yi C，Tian Y L.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing，2011，20（9）：2594-2605.

[6]Papavassiliou V，Stafylakis T，Katsouros V，et al.Handwritten documentimage segmentation into textlines and words[J].Pattern Recognition，2010，43：369-377.

[7]Zhang X，Sun F C.Pulse coupled neural network edgebased algorithm for image text locating[J].Tsinghua Science and Technology，2011，16（1）：22-30.

[8]Chen Y L，Hong Z W，Chuang C H.A knowledge-based system for extracting text-lines from mixed and overlapping text/graphics compound document images[J].Expert Systems with Applications，2012，39：494-507.

[9]Chen Y L，Wu B F.A multi-plane approach for text segmentation of complex document images[J].Pattern Recognition，2009，42：1419-1444.

[10]闵华清，郑华强，罗荣华.自然场景图像中基于视觉显著性的文本区域检测[J].华南理工大学学报：自然科学版，2012，40（8）：39-45.

[11]Sun Q Y，Lu Y.Text location in scene images using visual attention model[J].International Journal of Pattern Recognition and Artificial Intelligence，2012，26（4）：1-19.

[12]Jung C，Liu Q F，Kim J.A stroke filter and its application to text localization[J].Pattern Recognition Letters，2009，30：114-122.

[13]Nikolaou N，Badekas E，Papamarkos N，et al.Text localization in color documents[C]//International Conference on Computer Vision Theory and Applications，Setúbal，Portugal，2006：181-188.

[14]Kong Y P，Zeng P，Wu Z L，et al.Inverse halftoning viamedian interpolating pyramid[C]//8th International Conference on Signal Processing，Beijing，China，2006，2：16-20.

[15]周芳芳，樊晓平，叶榛.均值漂移算法的研究与应用[J].控制与决策，2007，22（8）：841-847.

[16]汤杨，潘志庚，汤敏，等.基于分级mean shift的图像分割算法[J].计算机研究与发展，2009，46（9）：1421-1431.

[17]Comaniciu D，Ramesh V，Meer P.The variable bandwidth mean shift and data-driven scale selection[C]//Proceedings of the 8th IEEE International Conference on Computer Vision，Vancouver，Canada，2001：438-445.