基于最大类间方差法的文本图像二值化处理

2020-05-19 03:26刘剑飞石翔宇杜子俊孙源辰王敬烜

科学与财富 2020年7期

刘剑飞　石翔宇　杜子俊　孙源辰　王敬烜

摘要：针对低质量的退化文档存在文字污染、受自然侵蚀等情况，提出一种基于背景估计和最大类间方差法的二值化算法。首先对原图用加权平均值与平均值混合法灰度化进行预处理;然后对灰度化处理后的图像进行两次形态学闭操作估计图像背景，计算背景估计图与灰度图的绝对差值，确定前景像素候选点，取反，再对图像进行对比度增强得到背景删减图;最后利用最大方差类间法进行二值化处理。实验结果表明，本文算法的综合性能优于传统的最大类间方差二值化算法，从视觉效果来看，本文算法的二值分割较为精准，提升了经典算法处理受污染文档图像的精确度。

关键词：文本图像二值化;灰度化;背景估计;最大类间方差法

一绪论

1.1 算法研究背景及意义

文字是人类文明传承的媒介，如今随着科学的飞速发展，信息流通方式不再拘泥于纸张，人们可以通过获取大量数字化的文本信息。古典书籍受外界物理条件或人为因素的影响，使得珍贵文献难以保存，研究机构将书籍电子化，相比于传统文档，具有更环保、传播范围更广以及耐储存的优势。

二值化属于数字图像处理的基础技术，已被应用于医学影像分析、工业缺陷检测、光学字符识别、遥感图像观测以及智能交通管理等领域。图像二值化将关键信息与背景分离，从而达到排除干扰、减少分析量的目的。一种优秀的图像二值化解决方案，在光学字符识别以及复杂背景图像分割领域中均起到关键作用，诸多形态学图像分割算法需要将二值图像的轮廓作为输入，以便分析前景信息，因此二值化准确率对后续的解析与识别有较大关联性。

受到外界或人为因素的影响，文档图像存在多种退化因素，如古籍文档在发掘时遭受到自然的侵蚀，使得文字被模糊与浸染，在拍摄、扫描文档时，现场光照分布不均匀，导致文字信息与背景区分度较小。虽然文档图像二值化已被研究多年，但针对不同类型的退化情况建模难度较大，因此历史文档图像阈值处理方法仍然需要不断地优化改进。

考虑到现有图像二值化算法的局限性，未能适用多种类型的退化情况，因此要找到一种拥有语言通用性更强、鲁棒性更高的文档图像二值化算法，具有重要的实际应用意义。

1.2 二值化国内外研究现状

低质量历史文档图像二值化成为近年来国内外研究的关注热点，目前文档图像二值化依据阈值计算方式不同，大致分全局阈值分割法、局部阈值分割法和混合阈值分割法。由于低质量历史文档图像含有多种退化因素，各种二值化方法都未能较好地解决二值分割问题，因此历史文档图像二值化算法仍是研究的难点。

1.3研究内容及创新点

本文针对退化文本存在污染的问题，提出了一种结合加权平均值与平均值混合法灰度化、背景估计和最大类间方差法的退化文本图像二值化的处理方法。

二算法介绍

2.1 算法框架

2.2 加权平均值与平均值混合法灰度化

数字图像通过颜色空间模型承载图像的信息分布，如一幅彩色的扫描文档图像，如图2.2所示。

灰度化算法能够将高维数据映射至低维空间，并通过单维度图像的梯度特征结构，反映出原始图像的颜色信息，避免依次处理图像各通道分量，从而降低算法冗余度。目前灰度化算法有最大值法、平均值法、加权平均法等，本文采用加权平均与平均值混合法对图像进行灰度化处理。

相较传统的最大值法、平均值法、加权平均值法。图2.3的字符与背景的对比度更加明显，同时经过加权平均值与平均值混合法灰度化处理的图像，在二值化后，字符前景基本保持完整，仅有少量噪声。

所以本文采用加权平均值与平均值混合法对文档图像做灰度化处理。

2.3 背景估计

低质量文档图像由于含有墨迹浸润、字符褪色等复杂情况，造成受污染区域字符与背景之间的灰度值较为接近，在墨迹的边缘处产生较强的灰度突变，从而导致算法将污渍像素点错判为前景，如图2.4所示。

本文通过形态学操作背景估计方法削弱污渍对文档图像的影响。

2.4图像背景移除

图像形态学操作是基于形状的一系列图像处理操作的集合，主要是基于集合论基础上的形态学数学。

本文采用两次形态学闭操作来对图像进行背景估计。笔画结构属于文档图像独有的特征，字符的结构元半径依赖于笔画粗细，因此第一次闭操作需要估计出图像的字符宽度，本文采用笔画宽度变换方法（Stroke Width Transform， SWT）估计字符宽度。

第二次闭操作比第一次闭操作的结构元增加△d。关于△d的选取，本文将2008年至2018

年国际文本图像二值化竞赛的数据，作为训练集，依次对进行取值。依据测试结果，当△d取12时，FM值较高为。所以本文选用12为？d的值。

图像经过两次形态学闭操处理作后，可以大致估计出文档图像的背景，得到原图的背景估计图像fbg，如图2.5所示。计算估计背景图像fbg与灰度图像fgray的绝对差值结果，得到背景删减文档图像fdiff，如图2.6所示，此时图像中白色的点属于前景像素候选点，对图像fdiff取反，得到背景去除图像fnegate，如图2.7所示。最后在对图像fnegate做对比度增强，得到对比度增强图像feq，如图2.8所示。

最大类间方差法二值化处理

最大类间方差法是一种自适应阈值确定的方法，是一种基于全局的二值化算法。它是按图像的灰度特性，将图像分成背景和字符两部分。背景和字符之间的类间方差越大，说明构成图像的两部分的差别越大，当部分字符错分为背景或部分背景错分为字符都会导致两部分差别变小。因此，使类间方差最大的分割意味著错分概率最小。

最大类间方差算法，算法简单，当目标与背景的面积相差不大时，能够有效地对图像进行分割。

三实验结果与分析

本文方法，对比传统的基于最大类间方差法，主要区别在于图像灰度化时，采用了加权平均值与平均值混合法对原图进行灰度化。减小了前景像素间的灰度值差异，增强了对比度。

下图是本文算法与传统算法得到的结果的对比图。

由图3.2可见，左侧为本文算法效果图，右侧为传统最大类间方差算法的效果图。本文算法在处理有污渍的效果图时，文档和图像的分割更为准确。在精确分离文档和图像的同时，又能很好的去除噪声、抑制污染、并保留字符笔画。可见本文算法优于传统的最大类间方差法。

四、结语

本文提出了一个结合加权平均值与平均值混合法灰度化与最大类间方差法的二值化算法，该算法能有效的处理受污染的文本图像，并通过实验比较与视觉对比，该算法要优于传统的最大类间方差法。

参考文献：

[1] 冈萨雷斯.数字图像处理（第三版）[M]，电子工业出版社，2011：479-483.（GONGZALEZ. Digital image processing （third edition）[M]，Publishing House of Electronics Industry，2011：479-483）

[2] Gatos B， Ntirogiannis K， Pratikakis I. ICDAR 2009 document image binarization contest

（DIBCO 2009） [C]// Proceedings of the 10th International Conference on Document Analysis

and Recognition， Barcelona， SPAIN， 2009： 1375-1382.

[3] Pratikakis I， Gatos B， Ntirogiannis K. H-DIBCO 2010 handwritten document image binarization competition[C]// Proceedings of the 12th International Conference on Frontiers in Handwriting Recognition， Kolkata， INDIA， 2010： 727-732.

[4] Pratikakis I， Gatos B， Ntirogiannis K. ICDAR 2011 document image binarization contest （DIBCO 2011） [C]// Proceedings of the 11th International Conference on Document Analysis and Recognition， Beijing， CHINA， 2011： 1506-1510.

[5] Pratikakis I， Gatos B， Ntirogiannis K. ICFHR 2012 competition on handwritten document image binarization （H-DIBCO 2012） [C]// Proceedings of the 13th International Conference on Frontiers in Handwriting Recognition， Monopoli， ITALY， 2012： 817-822.

[6]Pratikakis I， Gatos B， Ntirogiannis K. ICDAR 2013 document image binarization contest

（DIBCO 2013） [C]// Proceedings of the 12th International Conference on Document Analysis

and Recognition， Washington， DC， USA， 2013： 1471-1476.

[7] Ntirogiannis K， Gatos B， Pratikakis I. ICFHR2014 competition on handwritten document image binarization （H-DIBCO 2014） [C]//Proceedings of the 14th International Conference on Frontiers in Handwriting Recognition， Hersonissos， Greece， 2014： 809-813.

[8] Pratikakis I， Zagoris K， Barlas G， et al. ICFHR2016 handwritten document image binarization

contest （H-DIBCO 2016） [C]// Proceedings of the 15th International Conference on Frontiers in Handwriting Recognition， Shenzhen， CHINA， 2016： 619-623.

[9] Pratikakis I， Zagoris K， Barlas G， et al. ICDAR2017 competition on document image binarization （DIBCO 2017） [C]// Proceedings of the 14th International Conference on Document Analysis and Recognition， Kyoto， JAPAN， 2017： 1395-1403.

[10] Pratikakis I， Zagoris K， Kaddas P， et al. ICFHR2018 competition on handwritten document image binarization （H-DIBCO 2018） [C]// Proceedings of the 16th International Conference on Frontiers in Handwriting Recognition， Niagara Falls， USA， 2018： 489-493.

[11] Eskenazi S， Petra G K， Ogier J M. A comprehensive survey of mostly textual document segmentation algorithms since 2008[J]. Pattern Recognition， 2017， 64（1）： 1-14.

[12] 熊煒. 基于背景估计和能量最小化的文档图像处理. 湖北工业大学， 2018.

[13] Ma J， Sheridan R P， Liaw A， et al. Deep neural nets as a method for quantitative structure–activity relationships[J]. Journal of Chemical Information and Modeling， 2015， 55（2）： 263-274.

科学与财富2020年7期

科学与财富的其它文章: 浅谈会计电算化现状与发展趋势; 网络学习平台的发展研究; 地铁综合监控系统的集成模式分析; 基于PPP+EPC模式下造价管理问题的讨论; 论黑龙江地域文化背景下的大众文化消费传承; 股权投资企业反洗钱监管问题的分析