基于深度卷积神经网络的手写哈萨克文字母识别方法

2017-10-12 02:16贺建军刘文鹏
大连民族大学学报 2017年5期
关键词:哈萨克手写识别率

张 晶,吴 磊,贺建军,刘文鹏

(大连民族大学 信息与通信工程学院,辽宁 大连 116605)

基于深度卷积神经网络的手写哈萨克文字母识别方法

张 晶,吴 磊,贺建军,刘文鹏

(大连民族大学 信息与通信工程学院,辽宁 大连 116605)

利用卷积神经网络在图像识别方面的优势,提出了一种基于深度卷积神经网的哈萨克手写字母识别方法(DCNN-KLR),成功建立了一种哈萨克手写文字识别模型。 与传统的方法(SVM+HOG)相比,不仅训练方便、速度快,而且提高了哈萨克手写文字的识别率。在5708个数据样本上进行训练和测试,将样本分为33类和100类,正确识别率分别达到93.29%和92.38%。

卷积神经网络;哈萨克文字母;字符识别

Abstract:This paper proposes a handwritten Kazakh letter recognition method based on deep convolutional neural network (DCNN-KLR). We exploit the advantages of the convolutional neural network in image recognition to build a model for handwritten Kazakh letter recognition. Compared to traditional method (SVM+HOG), this method is not only convenient and fast in training but also achieves a higher recognition accuracy. We use 5708 data samples for training and testing. The data is divided into 33 classes with 100 categories, and the highest recognition rate can be up to 93.29% and 92.38%.

Keywords:convolutional neural network; handuritten Kazakh letters; letter recognition

近年来,随着智能手机的普及,手写输入法得到人们的高度重视,并在日常生活中得到广泛应用,对手写文字识别的要求也越来越严格,西方文字和汉字的识别技术在印刷、脱机和联机手写体等方面的研究已取得显著进展,而对手写少数民族文字识别的研究还很少。特别是新疆的西部与北部地区(即伊犁哈萨卡自治州)使用的语言—哈萨克语的文字识别研究相对滞后,对哈萨克文字母识别技术的研究更少。目前对于手写哈萨克文字母识别的研究主要有基于ANN的方法[1],基于HMM的方法[2]以及达吾勒·阿布都哈依尔使用改进的PCA方法和K-W校验法[3]来识别哈萨克文字母,这些方法的识别率都降低,而且这些传统的识别方法都是采用特征提取和特征匹配[4]的策略建立的,普遍存在着抗干扰性差、预处理复杂等问题。近年来机器学习技术的发展为少数民族文字识别提供了新的解决途径,特别是深度卷积神经网络在汉字、英文等文字的识别问题上取得了较好的效果,因此本文基于深度卷积神经网络建立一种新的哈萨克文字母识别方法。

1 哈萨克文字母的特点

哈萨克语文字是一种拼音文字,它借用阿拉伯文字母来表示。哈萨克文字母由33个字母组成,每个字母根据它在词语中的位置不同,有1-4种不同的字符形式,所以33个字母一共有106(常用100)个不同的字符形式。其书写方向为从右往左,每个词中各个字符在基线附近相互连接的。哈萨克文字母的标准字体见表1。

表1哈萨克文字母

目前,关于哈萨克文字母识别的研究还处在萌芽阶段,虽有一些初步研究,但由于特征提取不完善以及算法效率不高,离实际应用还有一定的距离。由于哈萨克文和阿拉伯文字符集上的相似性,因此可以借鉴阿拉伯文在这方面的一些研究成果[5]。本文用深度卷积神经网络构建了一种手写哈萨克文字母识别模型DCNN-KLR。

2 图片的预处理

使用深度卷积神经网络进行字母识别之前需要对原图像进行预处理。预处理的目的是除去图像中的噪音等信息,以便从字符图像中提取准确有效的结构特征。一般彩色图像包含红,绿,蓝三个不同的颜色分量,叫做三通道图像。在对彩色图像进行卷积操作时,需要对三个通道依次进行处理,这样计算量很大,会增加卷积神经网络模型的训练时间。因此,为了提升整个模型的计算速度,把有三通道数据的彩色图像变换为单通道灰度图像。再对图像进行反相处理,即:255减去每一个点的像素值,再将结果赋予其点。现实中的图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响减弱了有用信息,需要进行去噪处理来增强图像的特征。图像预处理步骤如图1,预处理前后的效果如图2。

图1 图像预处理步骤

(a)处理前 (b)处理后

3 深度卷积神经网络结构

深度卷积神经网络(DCNN)是一种包含多个卷积层的卷积神经网络(CNN)即:将人工神经网络与图像处理中的二维离散卷积运算相结合。 这个技术已经成为现在语音分析和图像识别领域最好的工具。 DCNN采用了基于局部感知区域、共享权值和空间下采样等技术[6],对输入信号的平移、比例缩放、倾斜等变形具有高度不变性。其次,其多层次的滤波结构和分类器的紧密结合,能够对输入信号进行“端到端”的处理,避免了传统识别算法中复杂的特征提取和数据重建过程。

3.1 深度卷积神经网络(DCNN)的结构

DCNN模型输入层一般采用二维像素点矩阵表示原始图像。 如果图像是彩色图像,对应的三个颜色通道,分解为三个二维像素点矩阵。对于灰度图像,则只需一个二维像素点矩阵表示。 模型的隐含层一般包括两种类型,第一种类型的层由一对互连的卷积层(Cn)和池化层(Pn)双层网络构成(也可以是一个单独的卷积层),一般来说第一类隐含层可以有多层;第二类隐含层是靠近输出层的那一层,它实际上是CNN模型中的全连接层。 在模型的输出层中,每个神经元对应着不同的图像类别。 模型DCNN-KLR的网络结构如图3。

图3 DCNN-KLR网络结构

本深度网络将28×28像素的灰度图作为输入。 首先对图像重复地做一些卷积和采样操作生成整个图像的特征映射,卷积层都将ReLU作为激活函数,下采样层都把sigmoid作为激活函数,到Flatten层将前一层输出的2维矩阵展平为1维的向量,到全连接层(激活函数为ReLU)进行分类。 因33个哈萨克字母一共有106(常用100)个不同的字符形,分类结果也是33种和100种,图3网络结构为以33类为例,最后输出层(激活函数为softmax)有33个神经元,输出一个总长度为33的一维向量。

3.2 局部连接

一般来说,人对外界的认识是从局部到全局的,图像的空间关系也使局部像素之间的联系更加紧密,远处像素的联系就相对较弱。 因此,每个神经元不需要感知整个图像的所有像素点,只需要感知图像的部分区域,然后在更高的层次将部分信息相结合来获得总体信息[7]。 因此在卷积网络中,层之间的神经元节点不再处于完全连接的状态,而是使用局部连接模式,在相邻两层中利用图像的局部特性。m层的神经元仅仅连接m-1层的神经元的局部区域,m-1层的这些局部区域被称为空间上连续的接受域,如图4。 卷积神经网络使用这样的连接方式可以大大降低网络的参数规模,解决了CNN全连接方式时,由于网络参数数目过多导致的神经网络模型学习速率慢的问题。 可以看到,第m层的每一个神经元节点只与第m-1层的3个神经元相连接,早期的感知器就是使用这种局部连接的方式,并且和Hubel与Wiesel从猫科动物的视觉系统中发现的具有局部感知和方向选择性的神经元相一致[7]。 多个这样的层叠加起来,可以使过滤器覆盖更多的图像区域,如图4。

图4 局部连接示意图

3.3 权值共享

权值共享的原理是:图像的统计分布特征是均匀的,也就是说图像的某一部分的统计特性与其他部分的统计特征是一样的。这里可以把在图像某一部分学习到的特征用在其它的位置上,因此可以使用相同的特征来对图像的所有的位置进行学习。 例如,当从原28×28大小的图像中选取一小块(这块的大小由卷积核的大小来确定),3×3作为一个样本,并且神经网络从这个3×3的样本中学习到了某些特征,这个时候就可以把从这个3×3大小的样本中学习到的特征应用到这个图像的所有的位置中去。最重要的是,可以用这个特征跟原本的大尺寸图像作卷积运算,这样对于不同的特征,都可以在这个大尺寸图像的每一位置获得一个激活值,将这些激活值放在一起就组成了这一层的特征映射m+1。 第m+1层的3个神经元的输出组成一个特征图像如图5,颜色相同的连接线表示相连的神经元之间的权值相同。第m+1层的3个神经元使用相同的权值对第m层的全局进行学习。 共享权值的好处是在神经网络对图像进行特征提取时不需要考虑图像局部特征的位置,而且权值共享为减少卷积神经网络的学习参数提供了一种很有效的方式。

图5 权值共享示意图

3.4 空间下采样(池化)

卷积层是对图像的一个邻域进行卷积得到图像的邻域特征,池化层就是使用pooling技术将小邻域内的特征点整合得到新的特征,这是一种非线性的降采样方法[8],通常是将输入特征图中每一个不同的 区域的元素作聚合操作,目前最常用的是最大值聚合,平均值聚合以及随机聚合等几种。 由于通过卷积运算得到的图像特征比较多,会产生很大的计算量,因此在获取到图像的卷积特征后,需要用空间下采样的方法来对卷积特征进行降维处理。 这里,使用最大值聚合来对卷积特征降维。 池化层的每一个神经元节点对应卷积层2×2的感受野,如图6。它的值为对应的感受野中最大的那个值,通过最大值聚合可以使统计特征具有非常低的维度(与使用所有的卷积特征进行计算相比),这样做同时可以改善结果(用来防止卷积神经网络出现过拟合现象)。

图6 最大值池化示意图

4 深度卷积神经网络的训练

深度卷积神经网络与全连接深度网络一样训练也用梯度下降算法来进行训练,利用改进的随机梯度下降算法(Adadelta)训练网络。 因为深度卷积网络应用了局部连接,权值共享,下采样等技术比全连接神经网络计算量减少了很多,卷积层用ReLU做激活函数提升了网络训练的效率,明显提高了网络的训练速度。本系统使用的样本一共有5708张手写哈萨克文字母图像,收集完整的33个字母的单立式手写字符,以及67种变形字体。先将样本分为两部分——训练集和验证集(训练集占总数据的9/10,验证集占总数据的1/10),再进行网络的训练和验证。训练数据分别分为33类和100类,以增强网络的识别能力。 模型中的batch_size大小设定为33,在每一批的集合中,网络在样本参与训练结束后才会对参数进行更新,当所有批次的数据都训练完成后,将学习到的模型保存为h5文件,然后把模型应用在测试集上进行测试。

5 实验结果与分析

本系统中主要的步骤是先将原始数据进行处理,使每个样本为28×28大小的灰度图片再用卷积神经网络来对图像进行特征提取,然后再根据提取到的特征对所有的字符进行分类。 所以该系统必须要提取到较好的特征才能保证系统正确地识别出每一个字符。 为了能让网络提取到较好的特征,使用两种不同深度的卷积神经网络来训练样本,并且通过在卷积层后添加Dropout层以防止过拟合。 首先使用6层的卷积神经网络来训练,将数据分为33类,结果见表2。

表2 6层33类深度网络的实验结果

从表2可以看出,在不使用Dropout层时,卷积神经网络明显过拟合,训练集的识别率高出验证集的识别率16%左右,在加了Dropout层后验证集的识别率明显提高,但网络并没有很好地学习到图像的特征。这里增加了卷积神经网络的深度,以学习到更深层的特征,即使用9层的卷积神经网络来训练,同样将数据分为33类,结果见表3。

表3 9层33类深度网络的实验结果

从表3可以看出,在增加了卷积层后,识别率有了明显的提高。通过以上两个表,可以知道,想要卷积神经网络能较好地识别图像,需要一定深度的网络,并且需要加上Dropout层来防止网络过拟合,以提高验证集的识别率。接下来本文使用这个9层的神经网络将数据分为100类,结果见表4。

表4 9层100类深度网络的实验结果

从表4可以看到,本文的神经网络将数据分为100类也可以得到不错的识别率,这证明该神经网络有很好的识别能力.在这之后,为了得到神经网络对每一类的识别精度,从33类中每一类选取20个样本作为验证集,其他的数据作为训练集,使用表3中第三个网络结构来训练,将数据分为33类,得到一个训练集识别率为96.91%,验证集的识别率为93.33%的网络模型,然后使用这个模型来测试每一个类别的识别率,结果见表5。

表5 测试每一类的识别率

从表5可以看出该网络对一些字母的识别率较低,第25个字母的识别率只达到75%,造成这些字母的识别率不高的原因是多方面的,比如由于扫描得到的图像有较大的噪声干扰,因此限制了单字识别率的提升,所以如何提取更有效的特征以及优化图像来提升识别率是需要继续改进的地方。最后,本文基于DCNN-KLR的数据集提取HOG特征向量,使用目前比较流行的机器学习方法支持向量机(SVM)来对手写哈萨克字符的识别,分别使用两种算法将数据分为33类,识别结果见表6。

表6 对比DCNN-KLR算法和SVM+HOG算法

从表6可以看出,本文提出的DCNN-KLR算法在相同的手写字符数据集上的识别率远高于支持向量机算法的识别率,可以提取到图片更深层的特征,因此可以获得更好的识别率。

6 总 结

本文提出了一种基于深度卷积神经网络的手写哈萨克文字母的识别方法,并且介绍了图像预处理的方法以及神经网络结构与一些特性。深度卷积神经网络用ReLU为激活函数提高了训练效率。通过强有能力的正则化技术Dropout提升了网络的识别率。 以上的实验结果可以看出该模型要比传统的方法对手写哈萨克文手写字母有更高的识别正确率。

[1] 达吾勒·阿布都哈依尔,古孵拉·阿冬别克.基于ANN的哈萨克文手写文字识别系统的研究[J].计算机工程与应用,2008,44(1):225-228.

[2] 达吾勒·阿布都哈依尔,古丽拉·阿东别克.基于HMM的联机手写哈萨克文字的识别研究[J].计算机工程与应用,2014,50(1):145-148.[3] 达吾勒·阿布都哈依尔,海拉提·克孜尔别克.哈萨克文脱机手写字符识别系统的研究与实现[J].计算机工程,2011,37(8):186-191.

[4] 庄园. 手写体字符识别的特征提取和分类器研究[D]. 南京: 南京理工大学, 2012.

[5] 郭鹏.深度卷积神经网络及其在手写体汉字识别中的应用研究[D].成都:四川师范大学,2016.

[6] 张重生. 深度学习原理与应用实战 [M] .北京: 电子工业出版社, 2016.

[7] 常欢.基于卷积神经网络的孤立手写体汉字识别研究[D].合肥:安徽大学,2015.

[8] 陈先昌.基于卷积神经网络的深度学习算法与应用研究[D].杭州:浙江工商大学,2013.

(责任编辑 王楠楠)

AHandwrittenKazakhLetterRecognitionMethodBasedonDeepConvolutionalNeuralNetwork

ZHANGJing,WULei,HEJian-jun,LIUWen-peng

(School of Information and Communication Engineering, Dalian Minzu University,Dalian Liaoning 116605, China)

TP391

A

2017-06-05;

2017-07-23

国家自然科学基金项目(61503058);辽宁省自然科学基金项目(201602190, 2015020099);大连市青年科技之星项目(2016RQ072); 中央高校基本科研业务费专项资金资助项目(DC201501055,DC201501060401)。

张晶(1993-),女,内蒙古包头人,大连民族大学信息与通信工程学院硕士研究生,主要从事图像处理、智能信息处理研究。

刘文鹏(1982-) ,男,黑龙江大庆人, 讲师,博士,主要从事神经网络、软件技术的研究。

2096-1383(2017)05-0503-06

猜你喜欢
哈萨克手写识别率
我手写我心
阿依努尔——献给一位哈萨克支教女孩
抓住身边事吾手写吾心
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于集成学习的MINIST手写数字识别
一件与卫拉特人有关的清代哈萨克文档案文书研究(哈萨克文)
提升高速公路MTC二次抓拍车牌识别率方案研究
高速公路机电日常维护中车牌识别率分析系统的应用
哈萨克民族医学校企合作教学模式初探