基于块对角投影表示的人脸识别

2021-04-13 01:59刘保龙王勇李丹萍王磊

北京航空航天大学学报 2021年3期

刘保龙，王勇，李丹萍，王磊

（1.西安电子科技大学青岛计算技术研究院，青岛266000；2.上海交通大学海洋智能装备与系统教育部重点实验室，上海200240；3.西安电子科技大学电子工程学院，西安710071； 4.中国电子科技集团公司第27研究所，郑州450047；5.西安电子科技大学通信工程学院，西安710071）

近年来，随着计算机技术的迅速发展，人脸识别技术得到广泛研究与应用，人脸识别成为近30年里模式识别和图像处理中最热门的研究主题之一。人脸识别的目的是从人脸图像中抽取人的个性化特征，并以此来识别人的身份。

随着人们获取数据能力提高的同时，数据维数的增加引起了“维数灾难”问题，限制了人脸识别的准确度和识别效率，因此对数据进行降维预处理变得尤为必要。其中，主成分分析（PCA）［1］和线性判别分析（LDA）［2］是最早的降维方法，有效缓解了维数灾难问题，提高了实验的精确度，在目标识别、图像分割［3］和信号处理［4］等领域有着广泛的应用。为了增强投影的判别力，He等［5］考虑样本的局部信息，提出局部保持投影（LPP），进一步，根据重构误差的最小，其提出了近邻保持嵌入（NPE）［6］，但是该算法并没有考虑样本的全局结构；Sugiyama［7］将LPP算法与LDA算法结合，提出了局部费舍尔判别分析（LFDA），通过最大化类间可分性和保持类内局部结构来适当地降低多聚类结构数据的维数；2007年，Yan等［8］提出了图嵌入框架，定义了本征图和惩罚图来描述数据的特征，并提出了边界费舍尔分析（MFA）。上述算法被广泛应用于维数约简，具有良好的降维效果。

随着进一步的研究，基于表示的分类在机器学习和模式识别等领域备受关注［9］，常见的有稀疏表示、协作表示、低秩表示等。稀疏表示技术起源于压缩感知理论，最初应用于信号处理领域，对信号起压缩作用［10］。2009年，Wright等［11］首次将稀疏表示应用于图像分类中，提出基于稀疏表示的分类（Sparse Representation based Classification，SRC），其主要思想是：在l1范数的约束下，将测试样本表示为训练样本的一个线性组合，通过重建误差最小对测试样本进行分类，强调样本表示系数的稀疏性。鉴于SRC的成功，许多基于稀疏表示的降维方法相继出现。Qiao等［12］提出了一种基于SRC的稀疏保持投影（SPP）来保持数据的稀疏构造关系。Ly等［13］提出了基于图的稀疏判别分析（SGDA）算法，并应用于遥感图像的特征降维，该算法与SPP思想相近，不同的是SGDA是有监督的算法，利用了数据的判别信息。但是解决l1范数最小化问题往往需要较大的计算量，这使得基于稀疏表示的方法（无论是原始的SRC还是降维的SPP等）均具有很高的计算复杂度。

虽然SRC强调了表示系数稀疏性的重要，但是Zhang等［14］证明了真正提高人脸识别精度的机制可能来自协作表示，而非l1范数稀疏性约束，进而提出了基于协作表示的分类（Collaborative Representation based Classification，CRC），其采用l2范数约束，不仅提高了运算效率，而且通过理论证明了CRC同样具有稀疏分类的效果。但是严格来说，与SRC一样，CRC并不算有监督分类方法并且作用于数据的原始空间。为了充分利用样本的标签信息，将CRC的思想与有监督投影算法相结合产生了一系列工作。2014年，Ly等［15］提出了基于图的协作判别分析（CGDA）方法，其通过同类样本之间的协作表示来构造类内权值矩阵，使样本映射到低维空间后能够保持样本之间的局部信息。2016年，Yang等［16］提出了基于判别投影的正则化最小回归（RLSDP），首先利用所有训练样本用l2范数正则化最小二乘法重构每个训练样本，通过最大化LDA的类间散射和最小化同一类的重构残差，寻找一个判别子空间。除上述算法外，许多学者在协作表示基础上，不断地推出了新的方法和应用场景［17-18］。

尽管上述算法在图像分类上取得了不错的效果，但是它们主要从最小化重构误差角度出发，无法保证采用组系数约束得到相同类别样本的编码系数间是否相似。另一方面，上述算法均为两阶段模型，实际上分类器的更新反馈对于算法的优化过程具有引导作用，将两者整合到同一框架下，通过联合优化，可获得更优的编码系数、判别投影矩阵以及更适合当前任务的分类器，从而有助于模型识别性能的提升。

基于此，本文提出了一种基于块对角投影表示（BDPR）学习方法，其主要优势如下：

1）充分利用了同类样本之间的相似性，通过同类样本间的距离构造系数约束项，增强相同类别样本表示系数的相似性，同时使个别受噪声污染严重的样本在数据重构中的贡献最小化，以加强干净特征在联合表示中的作用。

2）构造编码系数块对角化判别逼近项来学习判别投影，实现数据与编码系数相关联，使得判别投影具有提取数据相关表示的能力，同时使近似编码系数与标签信息相关联，确保近似编码系数尽可能具有块对角化结构。

3）通过提取的具有块对角化结构的近似编码系数训练线性分类器，利用分类器的迭代反馈更新算法的优化过程以提升模型的最终分类性能。

在多个公开人脸数据集上测试的结果表明，本文所提BDPR方法的分类性能优于目前基于协作表示的分类方法和多个主流的子空间学习方法。

值得一提的是，上述子空间投影方法可以归纳入一种特殊的度量学习框架［19］，随着深度学习的方兴未艾，以深度度量学习为代表的系列方法在图像分类中取得了瞩目的效果［20］，构建了一系列度量函数，驱动各类深度模型在人脸识别［21］、车辆识别［22］、故障诊断［23］等领域展现出卓越的性能。

1 基于块对角化结构的投影表示

1.1 方法描述

1）基于编码系数块对角化结构的重构误差项

本文BDPR方法的首要目标是单独地学习每一类人脸图像数据的编码系数，以信息损失最少为代价重构原始图像数据，同时获得判别投影矩阵P用于从每个人的图像数据中提取具有判别性的编码系数，从而达到区分人脸图像的作用。因此，重构误差项可设计为

为避免编码系数为负，以及样本被自己表示的极端情况，进一步约束Zi非负，并强制其对角元素为0。同时为了避免平凡解，即一些样本在线性表示中不被选择，约束Zi每一行的和为1。

2）基于编码系数块对角化结构的分类误差项

为了训练更适合于有监督人脸识别任务的分类器，在式（1）的基础上，进一步引入人脸图像数据的标签信息进行分类器学习，在最小化样本重构误差的同时将分类器的分类误差作为反馈指导编码系数的优化，提升编码系数的表示能力。假设引入每个样本x对应的标签向量为y=［0，…，1，…，0］T∈Rc×1，1所在的位置对应x的标签。假设可将近似编码系数PX投影到标签矩阵上来学习一个线性分类器，那么分类误差项可写为

其中：lj表示xj所属的类别。例如对于上述x1～x6构成的数据，其B矩阵构造为

通过结合式（1）和式（3），可以得到所提BDPR方法的最终目标函数为

为了验证BDPR提取的近似编码系数PX为块对角化结构，在AR人脸数据集上进行测试。采用CRC作为对比方法，实验结果如图1所示。图1（a）为CRC所提取编码系数，图1（b）为BDPR所提取近似编码系数PX。可以看出，CRC方法提取的编码系数块对角结构不明显，且主要分量集中于对角线元素，即样本重构过程中存在自我表示问题；BDPR所提取的编码系数则具有较为明显的块对角化结构，表现出更明确的样本关系信息。

1.2 优化过程

首先初始化P和W 为随机矩阵。为了便于求解，引入一个辅助变量A，式（6）可转化为如下的等价问题：

式中：A的结构为

可以构建如下拉格朗日函数：

1.3 测试过程

给定测试样本xtest，首先利用最终学习到的投影矩阵计算xtest的近似编码系数Pxtest，然后使用学习到的线性分类器W 得到xtest的软标签向量ftest，其具体形式为

最后找到ftest最大元素所处的索引值，并将其作为xtest的预测类别标签。

将BDPR的方流程总结如下。

算法1 BDPR方法。

输入：训练集X，距离度量矩阵R，类标签矩阵Y，调节参数λ、α、β、τ。

输出：编码系数Z，投影矩阵P，线性分类器W。

初始化：Ci=0（i=1，2，…，c），μ=0.2，μmax=108，ρ=1.1，Z=I。

训练：

1.按照式（13）更新A。

2.按照式（19）更新Z。

3.按照式（23）更新P。

4.按照式（25）更新W。

5.按照式（29）更新H。

6.按照下式更新Ci和μ：

7.检查式（6）函数值是否满足收敛条件，若满足或者方法达到最大迭代次数，迭代停止，否则跳到步骤1继续执行。

测试：

1.根据式（30）计算测试样例的软标签向量ftest。

2.将ftest中最大元素的位置索引作为测试样例的预测类别标签。

2 实验结果与分析

本节对所提BDPR方法在3个不同的人脸数据集（BANCA、AR、YaleB）进行实验，BANCA为小样本数据集，AR和YaleB为中等样本数据集，具体数据集信息如表1所示。对比方法为标准的协作表示分类CRC［14］和经典的子空间投影算法，包括 PCA［1］、LPP［5］、MFA［8］、CGDA［15］、RLSDP［16］、RLSL［25］等。在预处理阶段，统一先采用PCA方法保留样本99%的能量对样本进行初步降维。在训练阶段，本文在｛10-4，10-3，…，104｝区间内采用网格式搜索的方式寻找各方法最优参数组合。所有实验均在软件环境为MATLAB R2019a、硬件环境为8.00 GB RAM、2.40 GHz CPU、64位Windows操作系统的计算机上进行。

表1 实验采用的数据集信息Table 1 Information of dataset used in experiment

2.1 实验结果对比

本节将详细介绍实验中所采用的人脸数据集（BANCA、AR、YaleB）及各方法的实验结果。

BANCA数据集［26］：包含208人共2 496幅图像，这些图像包含不同图像质量、不同时间段、不同光照等变化条件。实验中选取了52个人，每人包含10幅图像，共520幅图像组成数据集。将原始数据图像裁剪为56×46。实验中每类选取4、5、6幅图像为训练样本，其余样本构建测试集。

AR数据集：包含4 000多种人脸图像，分别对应126人的面部，包含不同的面部表情、照明条件和遮挡的情况。实验中，选取50个人，每人包含26幅图像，共1 300幅图像组成数据集。将原始数据图像裁剪为55×40。实验中，每类分别选取5、10、15幅图像作为训练样本，其余样本构建测试集。

YaleB数据集［27］：包含38个人共2 414幅图像、9种姿态和64种光照的变化。每幅图像剪裁为32×32。实验中，每类随机选取20、30、40幅图像作为训练集，其余样本构建测试集。

实验中，对数据进行10次随机划分，表2为3个数据集上各方法在最优参数下的平均正确率，加粗数据表示同一实验条件下的最高分类正确率。

表2 各方法在不同数据集的最优分类正确率Table 2 Highest classification accuracy of each method on different datasets %

从实验结果可以得出以下结论：

1）PCA和LPP算法没有利用样本的标签信息，属于无监督算法，因此其分类性能明显低于有监督算法。

2）MFA、CGDA和RLSDP虽然都是有监督算法，但仅考虑了样本的类内和类间特性，而BDPR不仅利用标签信息构建了样本间的协作表示，而且考虑了相同类样本编码系数的相似性构造了编码系数局部约束项，并且该项可降低野值点样本对其他同类样本的重构贡献，因而编码系数具有更鲁棒的数据关系表征能力。

3）上述对比方法的分类器是不参与训练的，BDPR则将系数学习和分类器学习整合到一个联合框架下，利用分类过程的反馈信息引导算法优化，学习到的分类器更适合当前样本特点且可直接用来分类，无需另外选择分类算法，避免了两阶段方法带来的系统误差。

2.2 方法收敛性

为了考察方法的收敛性，分别在上述3个数据集上记录了方法在整个训练过程中目标函数值的变化。图2给出BDPR在各数据集上（前述实验各最高训练数目下）方法的收敛性能曲线。可知BDPR在各数据集上均具有良好的收敛性能，并且从第3次迭代开始，收敛曲线均趋于平缓，说明BDPR具有较快的收敛速度。

2.3 参数敏感性

图2 不同数据集上BDPR的函数收敛曲线Fig.2 Function convergence curves of BDPR method on different datasets

为了衡量不同的参数（λ、α、β和τ）对BDPR分类性能的影响，考察其在不同的参数组合情况下、10次随机实验的平均分类正确率。选取AR人脸数据库，每类随机选取10个样例作为训练样本，其余设置和2.1节一致，参数选取范围为｛10-3，10-2，…，103｝。鉴于BDPR中包含4个重要参数，因此采取固定2个参数调整另外2个参数的组合遍历测试。图3为BDPR分类正确率随参数变化的三维柱状图。可知，BDPR对参数的选择并不敏感。

3 结论

本文提出了一种基于块对角结构的投影表示（BDPR）学习方法，通过与经典的基于协作表示分类和子空间学习方法相比，可以得到以下结论：

1）BDPR在传统协作表示的基础上，构造了编码系数约束项，在增强了编码系数表征数据关系能力的同时，使得噪声和异常值对数据重构的影响最小。

2）本文方法通过构造编码系数判别逼近项来学习一个判别投影，利用该投影将数据与编码系数相关联，实现了子空间里的最优判别表示。实验结果表明，相比于经典的CRC算法，BDPR所提取的编码系数具有更加明显的块对角化结构，有助于为后续的分类决策过程提供更加丰富的判别信息。

3）BDPR构建了投影表示学习和分类器学习联合优化的算法框架，学习更适合当前分类任务的线性分类器，避免了传统的两阶段模型在分类阶段的分类器抉择困难和在现实应用中其级联性能可能会下降的问题。

在多个人脸数据集上的测试结果表明，相比于现有的协作表示分类和子空间学习方法，本文方法具有更优的识别效果。

未来工作中，本文方法可以与深度网络相结合，对深度模型输出的高维特征向量进行子空间学习，不仅可以有效降低深度特征的维度，去除冗余信息，而且可以寻找更具判别力的投影表示向量，提升最终分类性能，这也是笔者未来的研究重点。