基于CNN与RoELM的图像分类算法研究∗

2019-03-26 08:44王攀

计算机与数字工程 2019年3期

王攀

（南昌航空大学信息工程学院南昌 330063）

1 引言

极限学习机（ELM）最初由黄建华等提出［1］。由于其高效和快速的学习速度而越来越受到广泛的关注。但ELM是在经验风险最小化思想的基础上所构建的模型，所以容易发生过拟合现象［2］。此外，ELM并没计算权重偏差，所以当数据集出现异常值时，ELM算法便会出现较大的偏差。为克服这些缺点，邓等［3］将加权最小二乘算法和风险最小化理论相结合，提出正则化极限学习机（RELM）。然后黄等［4］提出带内核的极限学习机（KELM）将内核功能引入ELM，并取得了更好的效果。ELM，RELM和KELM都是单独隐层网络结构，所以它们在提取图像特征方面存在不足。但是，特征提取是图像识别的核心部分，所以我们试图找到一种不仅可以提取精确提取图像特征，同时也包含ELM高效易用等优点的方法。

深度学习（DL）是一种通过建立和模仿人类大脑的分层结构来提取外部输入数据特征的多层网络结构，所以DL在提取特征方面很适用。其中，卷积神经网络（CNN）作为一种典型的DL方法，能够自动从图像提取重要特征，已经广泛应用于图像识别领域中并取得了很好的效果。在训练CNN网络过程时，采用BP算法调整参数浪费了大量时间。研究表明，网络的效果主要是由其模型结构所决定［5］。所以我们需要根据不同的数据库选择对应最优的模型。

为解决上述问题，本文提出了一个基于DL和ELM的新型卷积混合模型极限学习机（CNN-Ro-ELM）。在改进算法中，我们使用CNN提取特征；在训练CNN时，使用随机权重来减少特征提取时间；然后在RoELM中引入加权值最小二乘法概念计算输出权值，从而实现图像分类。CNN-RoELM不但改善了RoELM在提取特征方面的不足，并且也有效解决了DL的学习时间过长的问题，并具有很好的分类效果以及稳健性。

2 相关理论知识

2.1 极限学习机

极限学习机（ELM）的模型包含输入层，隐含层和输出层，如图1所示。ELM只需初始设置模型隐层节点的个数即可，在计算过程中不用调整模型的隐元的偏置以及输入权值，并且产生唯一的全局最优解，所以具有高效简便，良好泛化性等优点［6］。

图1 ELM结构图

对于N个不同的学习样本（xi，yi）∈Rn×Rm，（i=1，2，3，…，N），隐层的输出如式（1）所示，输出层的神经元输出如式（2）所示。

其中g（x）表示ELM隐层激活函数，β表示输出权值，w表示输入权重，b是隐层节点所对应的偏置。

使用矩阵H表示隐层的输出结果，Y表示训练数据的目标矩阵，则式（2）可以简写为

2.2 稳健回归理论

当待估参数存在大量随机误差或奇异值时，可以通过稳健回归理论方法来进行处理。稳健估计法的基本思想是充分利用有效数据，选择利用一般性数据，同时尽量避免受到有害性数据的影响。当误差数据呈现正态分布时，则稳健回归法和最小二乘估计法（LSE）的估计精度相似，但当误差数据呈现非正态分布时，稳健估计法的估计精度要比最小二乘法好［9］。本文采用M估计作为稳健估计，它的线性回归模型如下式：

式中：ρ是影响函数，令ψ=ρ′表示 ρ的求导数，由目标函数对β求偏导得

此时参数β就变成了加权最小二乘估计。根据实际情况，对于异常数据赋予较小的权重，而正常数据则赋予较大的权重，从而构建出加权最小二乘法模型。然后再进行重复迭代计算更改各部分权重系数，直到权重系数变化在允许范围内。这样就降低了误差数据干扰，提高了模型鲁棒性［10］。

2.3 鲁棒极限学习机

鲁棒极限学习机（RoELM）将ELM和加权最小二乘法相结合，通过加权最小二乘法来处理输出权重，可有效抑制异常数据的影响，提高模型的鲁棒性。本文采用的稳健估计影响函数如下：

将式（4）代入式（7）中求得

其中：k表示调和常数，默认值取k=1.345。

此时残差的目标函数为

式中：H表示一个N×L型的矩阵；β表示一个L×1型的矩阵；N表示样本个数；ei表示残差，此时用目标函数对参数β求取偏导，并令偏导数为零，则：

式中：ψ（x）为 ρ（x）的导函数。为了提高M估计的稳健性，将稳健尺度估计s引入，使权重函数的残差标准化，即eis。其中s=med（ ||ei）/0.6745，得到标准化残差为

ui=ei/s=0.6745ei/med（ ||ei），式中med代表中位数计算。则由式（12）可得

于是，鲁棒极限学习机的算法步骤为

2）随机选取输入权值w与隐层节点的偏置b。

3）求出隐层节点的输出矩阵H。

5）标准化残差得到u，由式Wi=求出各样本的权重矩阵的初值。

7）返回5）中，依次迭代，求出稳健估计值 β̑。当迭代步数达到最大次数或者相邻两次回归系数的差值取绝对值小于预设标准误差时，迭代结束，即

2.4 卷积神经网络

卷积神经网络（CNN）是一种在多层感知器基础上演变来的人工神经网络，其机构如图2所示。CNN通常用于二维图像识别，并且具有对倾斜、平移、比例放缩及其它变形保持高度不变的特性［11］。现在，CNN在图像识别领域，以及人脸识别、文字识别等方向具有广阔运用。

图2 CNN结构图

其中，Ci表示卷积层，Si表示降采样层。CNN采用卷积层与降采样层相互反复交替来实现特征提取目的，并通过BP神经网络算法来调整网络结构，最后采用多次迭代训练的方法使网络达到收敛状态以提高泛化性能。

3CNN-RoELM模型

ELM是根据经验风险最小化理论所构建的模型，导致易出现鲁棒性差，过拟合等现象。本文结合CNN和RoELM模型，提出一种CNN-RoELM混合深度模型。与传统的ELM模型相比，新模型可以有效地提图像高分类精度，防止陷入局部最小化，具有更好的逼近能力，高效的学习速率以及优秀的抗差性能。如图3所示，我们采用卷积神经网络最常见的结构（包含2个卷积层，2个子采样层，卷积核大小为5×5，池化层特征核尺寸为2×2）来进行介绍。简单来说，CNN-RoELM和ELM的结构类似，都由输入层，隐含层以及输出层构成，区别在于CNN-RoELM的隐含层不是单层，而是添加了卷积层和子采样层。

传统CNN在训练时多使用梯度下降法进行调参，由于梯度下降法本身的缺陷也使CNN的发展具有局限性。例如1）训练过程容易陷入局部最小化。2）训练速度慢。3）对学习率的选择敏感［12］。学习率较高会导致整个训练过程不稳定，学习率较小会减慢收敛速度，增加训练时间。而CNN-Ro-ELM则不需要调整网络权值参数，只需要一次学习就能获得最优解，所以CNN-RoELM具有学习速率快的优点。

图3 CNN-RoELM结构图

特征提取是图像识别的关键环节，由于Ro-ELM采用一个单隐层网络结构，所以它在图像显著特征提取方面存在缺陷。本文提出的CNN-Ro-ELM模型利用CNN的卷积层和子采样层提取特征，再将特征值传给RoELM，弥补了RoELM在特征提取方面存在的缺陷。CNN-RoELM混合模型不但解决了梯度算法训练时间过长，学习率选择敏感等问题，又结合了RBEIM高效便捷，抗差能力强的优点，所以有很好的使用前景。

4 实验结果与分析

为了评估CNN-RoELM混合模型的性能，本文采用在MNIST数据库上进行实验，并分别与ELM，RoELM和RELM等算法进行对比。实验环境为Intel Corei7 3.6 GHz处理器，16G内存，Matlab 2012b。

4.1 MNIST数据集

手写数字MNIST数据集包含有6万个用于训练的图像，1万个测试图像，它是NIST数据集的子集。MNIST中的图像已经处理成了固定大小为28×28像素值。实验时，从训练样本中随机选择6000个样本做训练，从测试样本图像中随机选1000个样本做测试。

由于采用随机权值的网络结构，所以我们要选择对应于MNIST数据库最优的网络结构。为了保证最优分类性能，卷积层，池化尺寸和各卷积层过滤器个数都必须选取最优值。经过多次实验，最终确定的最优网络结构采用2个卷积层，2个降采样层，池化尺寸2×2，卷积核5×5，卷积层过滤器的个数为n1=10，n2=20。

图4给出了CNN-RoELM算法精度和各参数之间的关系图。其中k是调和参数，其受到样本目，影响函数形式，待估样本分布的影响。由图可知，最优隐层节点数为2500，最优调和参数k取2.5。

图4 CNN-RoELM算法在MINST数据集上实验结果图

表1列出了各算法在MNIST数据库上所得实验结果精度对比。由表可知CNN-RoELM的准确率为98.83%，显著高于其他方法。实验结果证明CNN-RoELM混合模型在MNIST数据库上分类的有效性。

表1 MNIST数据集实验结果对比

表2 MNIST数据集时间对比

表2列出了MNIST数据库上的时间对比，由表可知，CNN-RoELM的训练时长远小于ELM和RELM。由于CNN-RoELM增加了隐层，所以训练时间相比于RoELM有所增加。

4.2 比较结果

为了使本文算法更具有说服力，我们与其他基于ELM的算法（如SVM-ELM［13］和 PCA-ELM［14］）进行比较。此外，考虑到CNN-RoELM是基于深度模型的算法，所以我们也加入一些经典深度学习算法作比较，如深度置信网 DBN［15～16］，堆叠自动编码器SAE等。同样在MNIST数据库上进行实验，在6万张图像中随机抽取6000张作为训练，从1万张图像中随机抽取1000张作为测试。实验对比结果如表3所示。

表3 各种算法在MNIST子集的对比结果

从以上的实验可知，CNN-RoELM算法在MNIST数据集上的识别精确度要高于ELM，RELM，RoELM等算法，并且相比SVM-ELM，PCA-ELM等算法精度也提升不少，证明CNN-Ro-ELM模型的有效性。另外，由于我们采用了随机权值网络结构，所以相比于深度学习算法，能节约大量时间。

5 结语

本文提结合传统CNN和RoELM模型，提出一种CNN-RoELM混合深度模型。该算法使用卷积神经网络提取特征，通过把多个卷积层与降采样层作为隐层来实现图像特征提取，并采用随机权值，从而极大地减少了提取特征过程中的时间；然后利用加权最小二乘法来计算鲁棒极限学习机的输出权值，有效抑制异常值的影响提高模型鲁棒性，实现图像快速分类。实验表明，与传统的ELM模型相比，新模型可以有效地提高图像分类精度，防止陷入局部最小化，具有更好的逼近能力，更高效的学习速率以及良好的抗差性能。