印刷体汉字识别处理技术综述

2014-10-21 19:57柴晨阳

计算机光盘软件与应用 2014年24期

摘要：中国汉字博大精深，拥有着数千年的文化背景与历史积淀，是世界上使用人数最多的文字。汉字与其他文字不同，它具有自己的拼音化系统和独立文字结构，所以在目前以计算机信息技术化为主体的社会里，对印刷体汉字信息的处理也就成了信息化发展的关键。印刷体汉字识别后处理技术OCR的出现就解决了现如今海量文字信息所带来的处理难题，它提高了印刷体文字的处理效率，也推动了信息社会的不断发展。

关键词：汉字识别；OCR；后处理；语言模型；信息社会

中图分类号：TP391.43

由于中文汉字系统比较复杂，涉及到几百种汉字输入编码方法和语言模型。所以中国人在处理汉字输入和识别方面面临多种难题，比如音码或字码重码率过高、输入效率低、学习识别困难、形码不好掌握等等。而对于一些没有标准键盘的通信设备来说，由于汉字信息录入速度慢，更是影响了正常的工作效率。所以为了能够弥补这些不足，汉字识别技术应运而生。

1 印刷体汉字的识别原理

汉字识别也是模式识别领域中所研究的科学。汉字识别技术包罗万象，它涵盖了模式识别、图像处理、人工智能、模糊数学、组合数学和心理学等等学科，是一门综合性很强的信息处理技术。汉字识别技术简单说就是为文字的识别、分类和读取而存在的，传统的汉字识别技术靠对汉字文字的特征识别和匹配来得以实现，但是由于汉字结构复杂且组合较多，所以会存在一定的辨识困难。在大量文字需要识别输入的情况下，还可能出现漏字的现象，而重新检查也是很麻烦的。

目前的汉字识别技术依照汉字输出形式的不同主要分为两类：印刷体汉字识别与手写体汉字识别。其中印刷体汉字识别又可分为单体印刷体汉字识别和多体印刷体汉字识别。

印刷体汉字识别的原理就是将印刷在纸张上的汉字，利用扫描仪或者数码相机等光学拍摄手段输入并得到二值图像和灰度图像，将这些图像通过识别模式计算方法对图像中的汉字进行图像处理分析，从而提取汉字的特征，再将这些提取出来的字体特征与标准汉字进行匹配和判定，最终识别汉字。具体来说，印刷体汉字的识别技术主要分为三个流程。

1.1 预处理。预处理是指利用光学设备作为汉字的输入设备。但是由于光学设备在拍照时容易受到周围环境光的影响，所以拍摄出来的图像可能在明暗程度和色彩上出现偏差，不利于接下来的汉字识别。为了解决这个困扰，在识别处理原始汉字图像之前，应该尽量避免周围环境因素的干扰，这就需要对原始图像进行预处理。预处理的主要手段有二值化、降噪、倾斜校正、平滑、归一化等等。以上都是能提高光学设备对原始图像输出质量的有效方法。

1.2 识别。印刷体汉字的识别过程是整个技术的核心部分。它利用自己独有的计算系统对原始汉字图像进行计算。在经过预处理后，我们会得到原始图像的二值图像。识别的对象就是二值图像，在对二值图像进行计算分析和汉字特征提取后再与标准汉字特征进行匹配，印刷体汉字的识别就基本完成了。

1.3 后处理。为了进一步提高检出汉字的识别率和适应性，降低系统失误率。后处理技术就是对识别后的文章进行再检查处理。通过文章的上下文，系统会识别出一些识别过程中遗漏的误识字和拒识字。最后保证高正确率。

2 后处理

2.1 后处理概述。本文主要分析的就是印刷体汉字识别流程的最后一项——后处理技术。简单讲，后处理技术就是对识别后的汉字文本进行进一步的再处理，最后检索并纠正误识字和拒识字。后处理解决了传统识别系统对文字进行逐一修改识别的繁杂工序，也可以说后处理是传统识别技术的一种进化与完善。

汉字的后处理方法主要可以分为手工处理、计算机自动处理和交互式处理。其中手工处理较为传统，它是依靠人自身对文本的再编辑工作，将文本中出现的误识字进行纠正；交互式处理稍微先进一些，它是将识别后所形成的文本交由处理程序进行再识别，处理程序为文本提供一些候选方案，通过用户与计算机的交互过程而进行的文字识别纠错工作；计算机自动处理最为先进，它仅通过一个设计好的自动处理程序，就能对文本中可能出现的错误进行自动的识别和纠正。

2.2 具体的后处理方法。（1）词匹配。后处理方法从简单的词匹配开始，它是利用文本中上下文的匹配关系和词的使用频率来进行识别纠错的一种方式。一旦处理程序检索到文中的拒识字，就会为它提供一个候选字以便进行调整纠正。后处理能够做到这些，是因为在它的系统程序中有一个汉语词条的数据库。在这个数据库中具有完善的词条存储和维护功能，它能够应对和反映文本中词语文字的不同使用频率，以最快的速度来进行反应从而为文本调出需要的词条，这大大提高了汉字后处理的工作效率。（2）语义分析匹配。汉语不同于其他语言，它的语义深奥且语言法则复杂。每个人对一句话可能都有不同的理解。所以为了能够尽可能的理解文本中语言的内涵，后处理有一套内容量庞大的语言组合法则信息库，它主要为文本的语义和句法的识别纠正给出建议，利用词法和语法的分析来进行适合的匹配工作。目前依靠语法及语义的分析来识别汉字的系统是相对比较智能的，它进一步的提高了文本纠正的精度，更加人性化。（3）人工神经元网络。人工神经元网络是美国在上世纪40年代提出的一种较为智能化的汉字识别后处理技术，在80年代发明了相关语言模型，是一种非线性的文字识别网络系统。人工神经元网络为汉字的识别后处理提供了两种方案：第一种就是将识别过程和后处理过程剥离开来，也就是双层纠错。首先通过网络输入即时纠正一些初级错误，再由网络后处理来纠正一些前期不能确定的汉字或拒识字；相比于分开处理，另一种方法是前期初识别与后期网络识别相结合的综合性处理，初期在发现待识别字时就立刻通过网络进行检索和识别，以双线并行的方式快速找出符合汉语语法和语义的相关答案，最终确定待识别的汉字。这种方法更加高效率和实用。

3 OCR

OCR（Optical Character Recognition）简单地说，对其进行简单定义，即为光学字符自動识别技术。随着我国经济水平的不断进步，我国各行各业都得到了飞速发展，传媒行业的发展推动了印刷识别技术的进步。就目前而言，OCR技术被广泛的应用于我国传媒印刷事业，在此之余，对于税务票据、金融票据等等各方面也应用到这种技术。OCR能够最大程度的确保文字的准确性，能够使其信息传达更加精准。OCR技术中的中心环节即为N-gram语言模型。

3.1 N-gram语言模型。N-gram语言模型在OCR技术应用当中起到至关重要的作用，能够对其后期处理与计算进行整理。N-gram语言模型的本身是一种语言文字处理，其能够对语句中的文字、词组并且还有比较重要的语句进行相应的处理。

目前，一般的统计语言模型都会将文本语句中的概率分解化，将其基本单位的各项条件概率进行乘法计算。

P（s）=P（w1，w2，…Wn）=P（w1|w1，w2，…wi-1）

在此公式中，n是串长度，s是字符串，wi代表模型的基本单位，这些基本单位多为文本中的字和词。

N-gram模型就是利用Markov的假设法，它为了能够进一步解析文本的上下文关系，认为每一个被预测的基本单位的长度为n-1。

P（wi|w1，w2，…wi-1）=P（wi|wi（n-1），wi（n-2）…wi-1）

n是模型阶数。在文本处理过程中，N-gram模型是基于语料集而建立的，它所采用的是最大似然估计法。似然估计法会对文本中的误识字进行条件概率的估计。n的数值越大，则模型的精度就越高。

3.2 基于字节的语言模型。针对于一般性的汉字编码，通常两个编码能够组成一个汉字，但是通过对其不断的深入研究分析发现，如果将语言模型单位一个单位编码来进行表示，其能够最大程度的将语言模型简易化，减少其复杂程度。针对这一问题的探究，人们将一个单位编码作为语言模型的基本单位。

如果将汉字字串设定为S1。由于每两个字节构成一个汉字，那么它对应的单位编码串就是S2。这样就可以建立基于基本编码的长度为2和3的模型。

再根据汉字的编码规律，去掉汉字编码的“无效”汉字标识位，则基于字词的模型空间稀疏问题就会大幅降低。

3.3 具体试验。本次试验主要是针对常用词来进行后期处理与统计评估工作。其工作的主要内容为，将常用词本身的汉字等置于语言模型中，对其进行后期处理，进行文本评估识别工作，确保其准确性。通过对关键词进行OCR技术的系统识别工作之后，其后期处理的识别率得到了较大幅度的提高，具体数值为96.67%以上。

4 结束语

印刷体汉字识别技术是一项极为复杂的信息文本处理技术，特别是后处理技术难度更大。本文分析了一般性的汉字识别过程以及以OCR为背景的N-gram模型，该方法降低了数据处理的复杂程度、提高了数据处理速度，并通过实验验证了该方法的良好性能。

參考文献：

[1]张宏涛，龙翀，朱小燕等.印刷体汉字识别后处理方法的研究[J].中文信息学报，2009（06）.

[2]聂玖星.印刷体汉字识别系统的特征提取和匹配识别研究[D].大连理工大学，2008.

[3]李元祥，刘长松，丁晓青等.一种利用校对信息的汉字识别自适应后处理方法[J].中文信息学报，2001（01）.

[4]梁莹，肖健，李玥.多引擎印刷体汉字识别系统研发[A].广西计算机学会25周年纪念会暨2011年学术年会论文集[C]，2011.

[5]万金娥，袁保社.基于字符归一化双投影互相关性匹配识别算法[J].计算机应用，2013（03）.

[6]朱程辉，曹敏，王建平. 基于过程神经网络的汉字特征提取方法的研究[J].合肥工业大学学报（自然科学版），2013（10）.

[7]訾兴建，王建平.手写体汉字八形态编码识别方法的研究[J].淮北师范大学学报（自然科学版），2012（02）.

[8]金连文，徐秉铮.基于多级神经网络结构的手写体汉字识别[J].通信学报，1997（05）.

[9]王国胤，施鸿宝.汉字识别的并行神经网络方法[J].模式识别与人工智能，1996（01）.

[10]王建平，金铁江，邵威.基于过程神经网络的手写体汉字识别方法研究[J].计算机应用，2009（02）.

作者简介：柴晨阳（1975.12-），讲师，研究生，硕士学位，研究方向：智能信息处理、会计信息化。

作者单位：江西财经大学会计学院，南昌 330013

基金项目：江西省教育厅青年科学基金项目（项目编号：GJJ10121）。