DBN融合模型对脱机手写汉字识别

2018-01-09 23:16刘露孙巍巍丁博
哈尔滨理工大学学报 2017年6期

刘露+孙巍巍+丁博

摘 要:针对脱机手写汉字识别问题,提出一种新的分类器级联识别模型。新模型将修正的二次判别函数(modified quadratic discriminant function,MQDF)与深度置信网络(deep belief network,DBN)相融合,利用MQDF先进行识别并得出结果,同时计算一个该识别结果的可信度,通过这个可信度对识别结果进行判别,若可信度符合要求,则MQDF的识别结果可作为最终结果直接输出,否则再与DBN结合进行二次识别,得到最终的识别结果。实验结果表明,在ETL9B手写汉字数据集上进行的脱机手写汉字识别任务中,使用MQDF与DBN融合模型,可以取得比单独使用MQDF和DBN更好的准确率。

关键词:脱机手写字;二次判别函数;深度置信网;汉字识别

DOI:10.15938/j.jhust.2017.06.016

中图分类号: TP391.412

文献标志码: A

文章编号: 1007-2683(2017)06-0082-05

Abstract:The requirement of the recognition result is also increasing in practical applications. In this paper, a new classifier cascade recognition model is proposed for the problem of offline handwritten Chinese character recognition. New model is the fusion of modified quadratic discriminant function (MQDF) and deep belief network (DBN). First to recognize and get result using MQDF, and calculate the reliability of the recognition result. If the reliability can meet the requirement, MQDF recognition result can be as the final result directly output. Otherwise using the DBN to make recognition again and getting the final recognition result. Experiments show that the MQDF and DBN fusion model proposed in this paper can achieve better accuracy than the single use of MQDF and DBN in the offline handwritten Chinese character recognition task, which is performed on the ETL9B handwritten Chinese character dataset.

Keywords:offline handwritten character; quadratic discriminant function; deep belief network; Chinese character recognition

0 引 言

文字识别作为模式识别中的一个重要领域,一直受到研究人员的广为关注。对于手写数字,手写英文字符已经取得了较好的识别结果,但是在手写汉字的识别任务当中仍然存在着不小的挑战。由于汉字在中国传统文化发展中的重要地位,对于汉字识别的研究自然具有非常重要的意义和价值[1]。最早的汉字识别研究始于IBM的Casey等对印刷汉字的识别。到了20世纪80年代,手写汉字识别成为研究的重点并发展至今,许多方法相继被提出,并且取得了不错的效果。手写汉字识别主要分为联机和脱机两种,联机手写汉字通过手机或者其它电子设备人工输入手写字,因此可直接得到汉字的笔画顺序、书写方向以及提笔、落笔等信息,更容易获得汉字的结构。而脱机手写汉字是通过扫描技术将手写字扫描入计算机,得到扫描图像,再对图像进行识别的过程,其特点是数据量大、结构复杂,不同的人具有不同的书写风格,并且在不同的环境中手写字会不同程度的发生形变,所以脱机手写字识别难度远远大于联机手写汉字。

目前,对于手写汉字识别,研究人员提出了许多种方法,并且都取得了不错的识别效果。文[2]提出了一种代价敏感的修正二次判别函数(CMQDF)分类器,主要针对手写中文地址进行识别;文[3]提出了级联修正二次判别函数分类器来进行手写汉字识别,其是一种基于串行结构的分类器集成算法,在度量的层次上将分类结果进行结合,但是对于手写图像的扭曲变形等复杂情况识别效果不是很理想。文[4]利用MQDF与支持向量机(support vector machine, SVM)结合的方式对相似手写汉字进行识别,该方法相比之前的方式无需提取额外特征,并利用分類混淆矩阵自动得到相似汉字特征集。文[5]引入深度学习技术,将卷积神经网络(convolutional neural network, CNN)融入到手写汉字识别中,并与MQDF相结合,取得了不错的识别结果。文[6]提出自适应判别局部对齐方法(adaptive discriminative locality alignment, ADLA),很大程度上改进了不同群体间的最优参数选择问题,进而提升了对相似汉字识别的准确率。文[7]在当今大数据情况下,采用深度神经网络(DNN)对相似手写汉字进行识别,对大样本取得了好的识别效果。本文针对脱机手写汉字识别问题,提出了一种新的融合模型,该模型将MQDF和DBN相融合,通过定义可信度来协调两个分类器在识别任务中的具体分工情况,从而达到理想的识别效果。通过实验证明,所提出的融合模型在识别任务中,取得了比两种分类器模型单独使用时更好的识别准确率。endprint

1 修正的二次判别函数

MQDF基于统计方法,通过用常量代替小的特征值,补偿了有限样本的估计误差。其次,由于只需要输入特征向量进行计算,简化了复杂度。由于结构简单、便于多类问题的分类、易于实现以及准确率高等优点,被广泛应用于手写文字识别中。但是,在对于有些稍微复杂的手写字图像时,识别能力仍非常有限。

2 深度置信网

深度置信网 (deep belief network, DBN)是Hinton等在2006年提出的一个具有层次特征的概率生成模型[9],通过训练神经元之间的权重,可以让整个神经网络按照最大概率来生成训练数据。同时DBN是一种深层神经网络,采用自底向上的传递,底层的神经元接收原始的特征向量,不断向更高层次抽象,顶层的神经网络形成易于组合的特征向量。通过增加层次就能够使特征向量更高的抽象化,而且,每一层的网络会弱化上一层的错误信息和次要信息,以确保深层网络的精度。DBN结构如图1所示。其是由一系列叠加的受限玻尔兹曼机(restricted boltzmann machine, RBM)[10]和顶层的反向传播(back propagation, BP)网络[11]构成。自提出以来受到了越来越多的关注,并陆续应用于计算机视觉、语音识别、自然语言处理等领域,有着广阔的发展和应用空间。

DBN的训练包含预训练和微调两个步骤。首先,预训练阶段利用大量无类标信息数据,无监督地训练每层RBM,将下层 RBM的隐层输出作为上一层RBM可示层的输人。微调阶段则采用有监督学习方式对顶层的BP网络进行训练,将实际输出与预期输出的误差逐层反向传播,目的是调整网络的权值。DBN这样做克服了BP网络因随机初始化权值而导致的局部最优问题。

2.1 受限玻尔兹曼机介绍

受限玻尔兹曼机(RBM)由隐层v和可示层h两种神经元节点构成。可示层的作用是输入数据,隐层的作用是特征检测。区别于玻尔兹曼机,RBM的特点是可示层和隐层之间采用全连接的方式,而在可示层内神经元之间和隐层内各神经元之间是无连接的,以二分图的形式存在,这样相比玻尔兹曼机更为高效。

2.2 BP网络

BP网络主要是对RBM预训练阶段所得特征向量分类,依据分类结果微调DBN每层参数。训练BP网络包括前向和后向两个过程。将特征向量向前传播,由输出层得到分类结果,将该分类结果与预期结果相比较得到误差值[13]。后向传播是将所得误差值逐层回传,从而调整DBN参数。传播过程中每层需计算一个灵敏度δ,然后将δ向下传递调整网络权值。

3 MQDF与DBN融合模型

修正的二次判别函数MQDF应用于脱机手写汉字识别任务中,通常可以识别出大部分汉字图像,但对一些较复杂汉字图像识别率有所下降。针对这类汉字图像,使用深度模型DBN进行再次识别,即为本文提出的MQDFDBN融合模型。

MQDFDBN整体分成训练、识别和融合三部分,如图2所示。先将汉字图像经过预处理,归一化到统一分辨率,此外还包括去噪、二值化等相关操作,再利用训练数据同时对MQDF和DBN同时训练。在训练阶段,MQDF提取梯度特征,DBN按照之前所介绍方法进行训练。

4 实验与结果分析

为了验证本文提出方法,选择ETL9B手写汉字数据集進行实验。ETL9B数据集由日本电子技术实验室建立的,其中包括120万个数字以及日文、中文、拉丁文的印刷体和手写体样本,其中汉字类别2965个,每个类别包含160或200个样本,部分样本如图3所示。实验选用1500个类别,每个类别包含200个样本,前20个和后20个用来测试,剩余160个用来训练。DBN选择Theano深度学习工具包实现。实验环境为Intel i5 3.2GHz处理器,8GB内存。

在实验过程中,将汉字图像线性归一化到64*64,训练MQDF时,提取588维的梯度特征。深度置信网设置为两层RBM结构,中间隐层点数350个,迭代次数设置为10。实验整体分成两部分。首先通过实验确定最优的阀值T和加权系数α;然后把识别率作为评价标准,将DBN的识别效果与不同截断参数k下的MQDF和MQDFDBN的识别效果进行比较。

在ETL9B数据集中,应用实验所选的汉字图像样本,在不同的阀值T和加权系数α情况下对MQDFDBN模型进行实验,记录两个值不同组合情况下的识别准确率信息。设置T值分为0.08,0.10,0.12,0.15,0.20,0.30,1.00,然后在α值由0.1到0.9时记录识别准确率,实验结果如图4所示。可以看出MQDFDBN融合模型在T值和α值不同时,识别效果有明显不同,当T值在0.20跟0.30之间,α落在[0.4,0.6]区间中时识别效果最好。

表1给出了在实验所用数据集下DBN分类器的识别准确率,以及截断参数不同时,单独的MQDF分类器,和融合分类器MQDFDBN的识别表现。从实验结果可以看出,随着截断参数k值的增加,MQDF和MQDFDBN的识别准确率都有所提高,而后者要明显高于前者,同样MQDFDBN的识别准确率也高于DBN单独使用时的识别准确率。

5 结 语

本文针对脱机手写汉字识别问题,提出了一种修正二次判别函数和深度置信网融合模型,为该方面研究提供了新的思路。二次修正判别函数分类器识别较简单的汉字图像,而较为复杂的汉字图像则交给深度模型DBN来处理识别,并且在得出最后结果时结合了MQDF的中间识别结果。最后的实验表明,两种模型结合使用能很好地形成互补,取得了不错的识别效果。在接下来的工作中,我们会将工作重心放在实际应用价值更大的相似手写汉字识别研究当中,探索并改进MQDFDBN模型,力求取得新的突破。

参 考 文 献:

[1] 丁晓青. 汉字识别研究的回顾[J]. 电子学报, 2002, 30(9): 1364-1368.endprint

[2] LU S, WEI X, LU Y. Costsensitive MQDF Classifier for Handwritten Chinese Address Recognition. ICDAR[C]// 2015 13th International Conference on. IEEE, 2015: 76-80.

[3] 付强, 丁晓青, 刘长松. 用于手写汉字识别的级联 MQDF 分类器[J]. 清华大学学报(自然科学版), 2008, 48(10): 1609-1612.

[4] 姚超, 卢朝阳, 李静, 等. 一种分类器级联的手写相似汉字识别方法[J]. 西安电子科技大学学报, 2015, 42(5): 26-32.

[5] WANG Y, LI X, LIU C, et al. An MQDFCNN Hybrid Model for Offline Handwritten Chinese Character Recognition. Frontiers in Handwriting Recognition. (ICFHR)[C]// 2014 14th International Conference on. IEEE, 2014: 246-249.

[6] QU X, XU N, WANG W, et al. Similar Handwritten Chinese Character Recognition Based on Adaptive Discriminative Locality Alignment. Machine Vision Applications (MVA)[C]// 2015 14th IAPR International Conference on. IEEE, 2015: 130-133.

[7] 楊钊, 陶大鹏, 张树业, 等. 大数据下的基于深度神经网的相似汉字识别[J]. 通信学报, 2014, 35(9): 184-189.

[8] 周明辉, 刘辉, 曹刚. 基于 MQDF 的车牌字符识别[J]. 信息技术, 2013 (7): 121-123.

[9] HINTON G. E., OSINDERO, S., Teh, Y.A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006(18): 1527-1554.

[10]SALAKHUTDINOV R, MNIH A, HINTON G. Restricted Boltzmann Machines for Collaborative Filtering[C]// Proceedings of the 24th international conference on Machine learning. ACM, 2007: 791-798.

[11]王洋, 曾雪琴, 范剑英. 汽车牌照字符识别系统设计[J]. 哈尔滨理工大学学报, 2012, 17(1): 90-95.

[12]HINTON G E.Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2002, 14(8): 1771-1800.

[13]何春香, 刘泊. 小波与 BP 神经网络在零件识别应用中的研究[J]. 哈尔滨理工大学学报, 2008, 13(5): 50-53.

[14]LIU C.L., MASAKI N. Precise Candidate Selection for Large Character Set Recognition by Confidence Evaluation[C]// IEEE Trans. on Pattern Analysis and Machine Intelligence, 2000: 636-642.

[15]HUANG Y.S., SUEN C.Y. A Method of Combining Multiple Experts for the Recognition of Unconstrained Handwritten Numerals[J]. IEEE Trans Pattern Recognition and Machine Intelligence, 1995(17): 90-94.

(编辑:关 毅)endprint