基于自适应相关滤波器的人眼定位改进方法

2014-02-01 08:49张金焕

电讯技术 2014年11期

张金焕，吴进，宋骁，尚骁

(西安邮电大学电子工程学院，西安 710121)

1 引言

面部特征点的定位是人脸识别、视觉跟踪和表情分析中的关键步骤，眼睛因为几何特征对称、两眼间距受光照和表情变化影响最小和瞳孔灰度值较低的特点，一直受到研究人员的极大关注。人眼定位为后续人脸研究提供基础数据，常被应用于疲劳驾驶状态检测、人脸校正、眨眼检测、人脸归一化中。定位的准确度直接影响到人脸识别系统[1]、视觉跟踪系统的性能[2]。

目前人眼定位采用的算法主要有3类[3-4]：一是基于几何特征的方法，如灰度投影法、霍夫曼变换；二是基于统计的方法，如利用神经网络的方法、支持向量机、模板匹配法；三是基于知识的方法，采用大量先验知识进行人眼定位。文献[5]先通过积分投影变换法进行人脸定位，然后对定位的矩形框中黑色像素进行计数，当达到某个比例将其标记为人眼位置候选区域，最后用Canny算子计算人眼边缘轮廓，在候选区域进一步确定人眼位置。基于灰度投影法虽然算法简单，但是对背景较复杂、光照影响较大、浓眉、戴眼镜的人脸图像定位效果不好。文献[6]提出在YCbCr空间用肤色模型粗定位人脸区域，然后用平均眼模板作基于金字塔结构的模板匹配定位眼睛位置。模板匹配法对人脸旋转、遮挡情况下定位受到一定影响，定位精度较差。文献[7]将样本灰度均衡化及小波变换的结果表示成向量形式，运用序贯最小优化算法进行训练得到一组支持向量，然后利用支持向量所构成的分类器进行人眼初检，最后根据先验知识完成信息融合，最终定位人眼。基于统计的方法虽然对复杂环境及光照、人脸不同姿态有一定的适用性，检测精度有所提高，但是需要采集大量的样本来训练分类器，过程较复杂，实时性较差。基于几何特征和基于知识的方法，通用性不高，在人眼检测中，只能辅助其他方法进行检测定位。

由于相关滤波器算法简单、检测效率高，近几年来，越来越多的学者开始研究利用该理论检测目标图像的特征点。2009年，Bolme等[8]提出平均合成精确滤波器(Average Synthetic Exact Filter，ASEF)，其原理是：在训练阶段，对输入的每一副图像得到期望的一个高斯型合成输出，利用输入图像和高斯型合成输出，在频率域构造输入图像的精确滤波器，然后将所有精确滤波器进行平均，得到最终的相关滤波器。因为采用了平均滤波器，避免了一般相关滤波器过度拟合的问题。为了解决训练样本较少时ASEF算法定位精度下降的问题，2010年，Bolme等[9]又提出最小输出平方误差和(Minimum Output Sum of Squared Error，MOSSE)滤波器，与ASEF算法原理不同，MOSSE算法是最小化输入图像的实际输出与期望的合成输出之差的平方和，求解一个优化问题，得到最终的相关滤波器。ASEF滤波器和MOSSE滤波器不同于一般的相关滤波器，运用卷积定理，大大简化了输入的训练图像与合成输出之间的映射。ASEF滤波器和MOSSE滤波器直接将基于高斯模型的合成输出作为训练图像的期望输出，这样会降低强度信息，而且可能造成滤波器扭曲。为了进一步提高定位精度，2013年，Zhou等[10]提出自适应合成相关滤波器(Adaptive Synthetic Correlation Filter，ASCF)，原理是通过迭代的方法更新滤波器，更加突出目标定位点尖峰的位置，而且抑制可能出现的错误尖峰值，减少目标定位点出现偏差，提高定位精度。

本文通过实验发现，ASEF、MOSSE、ASCF算法定位不准确的点主要都分布在离瞳孔不远的位置，而且很多是因为人脸的旋转造成,原始算法并未考虑人脸旋转及未对瞳孔附近定位不准确的点做进一步处理。针对这些问题，本文提出两点改进：一是训练阶段，将得到的相关滤波器在[-0.2,-0.1,0,0.1,0.2]的角度范围内旋转4次，得到5个相关滤波器，然后得到测试图像的5个输出，分别找出每个输出中最大的灰度值，最后选择这5个灰度值中最大值对应的位置为初始目标定位点，如果5个灰度值中有两个值相等且为最大值，则以滤波器偏转角度最小的像素对应的位置作为初始目标定位点，实验表明这样改进有助于提高人脸偏转图像的定位准确度；二是测试阶段，在初始目标定位点5×5的邻域内分别做水平和垂直积分投影，然后选择积分最小值的位置作为最终目标定位点，实验表明这样改进可以将离瞳孔距离不远的点定位到准确位置。最终实验结果表明，以ASEF、MOSSE、ASCF 3种算法为基础的改进方法，在定位的准确度和定位误差的稳定性方面更优于原始算法，而且更适应人脸偏转的情况。

2 基本原理

2.1 相关滤波器

ASEF和MOSSE滤波器是通过在手工标定训练图像的目标点位置产生尖峰值，而在其他位置产生低灰度值，最终训练得到相关滤波器[9，11]。首先根据输入的n幅训练图像f1,f2,…,fn，建立对应的期望输出g1,g2,…,gn。第i幅训练图像fi对应的合成输出gi表示成中心在图像目标点(xi,yi)处的一个二维高斯函数：

(1)

(2)

其中，ε表示很小的正常数，避免分母为零。ASEF滤波器是对所有输入的训练样本得到的精确滤波器进行平均来构造相关滤波器，表示为

(3)

MOSSE滤波器是构造一个相关滤波器，使得输入训练样本的实际输出与期望的合成输出之差的平方和最小，即求解以下最小化问题：

(4)

求解这个最优化问题，可得到MOSSE滤波器：

(5)

对比表达式(3)和式(5)可以看出，在训练样本较少的情况下，当一幅图像的频率域能量较低时，ASEF因为某一项的分母接近于零而使得滤波器不稳定，而MOSSE分母是对所有样本能量求和，所以MOSSE滤波器在训练样本较少时仍然很稳定。

(6)

更新第t次迭代后，第i幅样本图像的合成相关输出为

(7)

最终得到第t次迭代后新的相关滤波器分别为

(8)

或者

(9)

其中，Gt,i=Γ(gt,i)，Γ表示傅里叶变换。

2.2 本文改进的方法

积分投影常与其他算法结合用于人眼瞳孔定位。设I(x,y)表示图像(x,y)处的像素灰度值，在区间[x1,x2]和[y1,y2]上水平积分投影和垂直积分投影分别表示为

(10)

以ASCF算法为基础说明本文改进的方法，如图1所示。

图1 本文算法流程图Fig.1 The algorithm flowchart of this paper

(1) 训练阶段

Step 1:输入n幅训练样本f1,f2,…,fn，并手工标定期望的人眼准确位置M1(x1,y1),…,Mn(xn,yn)；

Step 2:为了降低阴影和光照影响，对训练样本进行对数(lg(v+1))处理，并归一化到[0,1]之间；

Step 3:根据公式(3)或者公式(5)训练得到ASEF滤波器或者MOSSE滤波器；

Step 4:根据训练得到的初始滤波器Hasef,0或Hmosse,0，依次将所有样本重新经过滤波后得到训练样本的实际输出，然后将实际输出归一化到[0,1]之间，设置阈值α，根据公式(6)得到所有训练样本新的输出，根据公式(7)得到新的合成相关输出，进而得到新的相关滤波器，最终得到T次迭代后的相关滤波器Hasef,T或者Hmosse,T；

Step 5:将Step 4训练得到的相关滤波器Hasef,T或者Hmosse,T在[-0.2,-0.1,0,0.1,0.2]之间旋转4次得到5个相关滤波器HT,1,…,HT,5。

(2) 测试阶段

Step 1:输入测试样本f1,f2,…,fm；

Step 2:测试样本的图像预处理，与训练阶段的Step 2同样；

Step 3:每一个测试样本分别经过训练阶段Step 5产生的5个相关滤波器，可以得到5个实际的相关合成输出，分别找出每个输出中像素值最大的点，再找出这5个像素值中最大的值(如果至少有两个值相等且为最大值，则选择滤波器旋转角度最小的像素值)，则该像素值对应的位置作为初始定位点；

Step 4:在以该初始定位点为中心的5×5邻域内做水平和垂直积分，找出积分值最小的位置作为最终的目标定位点。

3 实验结果及分析

为了验证本文改进算法的性能，我们在Window系统平台采用Matlab7.0软件仿真实现。采用FERET数据库，随机选取其中的1 374张图片，其中1 064张作为训练样本，310张作为测试样本，人眼的定位误差采用归一化距离测量[12]，定义为实际定位坐标与手工标定坐标的误差与两眼距离之比，采用欧式距离度量，表示为

Di=‖Pi-MLi‖/‖MLi-MRi‖

(11)

其中，Di为第i张测试样本左眼的定位误差，Pi为左眼实际定位坐标，MLi和MRi分别为左眼和右眼手工标定的坐标。对测试图像需要手工标定坐标，所以手工标定的精确度会影响最终的定位精度。D越小表明定位越准确。采用平均绝对误差MAE(Mean Absolute Error)[13]和标准差(Standard Deviation)δ评价算法的性能，表示为

(12)

为了增加训练集样本的数量以提高抗噪性能，对每个样本都在[-π/16,π/16]范围内进行两次角度旋转,在[0.9,1.1]的灰度变换范围内进行两次灰度拉伸,在[-4,4]像素位置范围内的水平和垂直方向分别做平移，经过仿射变换得到共9 576张训练样本。本文以定位误差小于0.1表示定位正确来计算定位精度P，P表示为定位正确的测试样本数量与总测试样本数量的比值。

表1和图2为本文算法ASCF-A-RI和ASCF-M-RI与原始算法ASEF、MOSSE、ASCF-A、ASCF-M的实验结果对比。从表1可以看出，在定位误差为0.1时，本文算法的定位精度相比原始算法最大提高2.9%，平均绝对误差和标准差均低于其他4种算法，表明本文算法不仅可以提高定位精度，而且稳定性好。从图2可以看出，定位误差在0～0.1之间，不同定位误差下，改进算法的定位精度都高于原始算法。

表1 6种定位方法的性能比较Table 1 The location performance comparison among six methods

图2 6种方法在不同定位误差下的定位精度Fig.2 The location accuracy of six methods under different location error

为了进一步验证本文改进算法的优越性，我们将改进的方法同样应用于ASEF和MOSSE算法中，表2和图3为原始算法ASEF、MOSSE与本文改进后算法ASEF-RI、MOSSE-RI的实验对比结果，同样可以看出改进后的算法优于原始算法。

表2 4种定位方法的性能比较Table 2 The location performance comparison among four methods

图3 4种方法在不同定位误差下的定位精度Fig.3 The location accuracy of four methods under different location error

图4给出了6种方法下采用不同滤波器后实际人眼定位的结果，实验结果可以看出，本文方法相比于原始算法定位准确度提高。

图4 不同方法人眼定位结果Fig.4 The eye location results of different methods

4 结论

本文在原始算法的基础上提出两点改进：训练阶段增加相关滤波器旋转；检测阶段增加积分投影，最终精确定位人眼位置。增加滤波器的旋转，对人脸位置的偏转有一定的适应性。增加积分投影，使得离瞳孔位置不远的点，可以定位到更准确的位置。实验表明与原始算法相比，本文改进的方法不仅在定位精度上有明显提高，而且稳定性较好,可以为后续人脸识别系统和视觉跟踪系统提供更加精确的参考数据。下一步拟将该方法与人脸肤色信息结合应用于人脸识别和目标跟踪领域。

[1] 李晶,范九伦,张雁冰.基于卡尔曼滤波的人脸跟踪算法[J].西安邮电学院学报,2010,15(3):101-104.

LI Jing,FAN Jiu-lun,ZHANG Yan-bing.Auto face tracking base on kalman filter[J].Journal of Xi′an University of Posts and Telecommunications,2010,15(3):101-104.(in Chinese)

[2] 向志炎,曹铁勇,潘竟峰.基于粒子滤波框架联合仿射和外貌模型的目标跟踪[J].电讯技术,2012,52(8):1291-1297.

XIANG Zhi-yan,CAO Tie-yong,PAN Jing-feng.Object Tracking Based on Particle Filtering Framework Joint Affine Model and Appearance Model[J].Telecommunication Engineering,2012,52(8):1291-1297.(in Chinese)

[3] 吴青,赵雄.一类新样条光滑支持向量机[J].西安邮电大学学报,2013,18(6):68-74.

WU Qing,ZHAO Xiong.A New Spline smooth Support VectorMachine[J].Journal of Xi′an University of Posts and Telecommunications,2013,18(6):68-74.(in Chinese)

[4] 刘振,姜晖,徐海峰.基于二维非参数特征分析的SAR图像目标识别[J].电讯技术,2012,52(12):1490-1495.

LIU Zhen,JIANG Hui,XU Hai-feng.SAR Image Target Recognition Based on Two Dimensional Nonparametric Feature Analysis[J].Telecommunication Engineering,2012,52(12):1490-1495.(in Chinese)

[5] 李帆,秦肖臻.一种基于积分投影的人眼定位方法[J].计算机与数字工程,2011,39(9):125-127.

LI Fan,QIN Xiao-zhen.Eye Location method based on integral projection[J].Computer and Digital Engineering,2011,39(9):125-127.(in Chinese)

[6] 舒梅,董秀成.基于肤色和模板匹配的人眼定位[J].计算机工程与应用,2009,45(2):237-239.

SHU Mei,DONG Xiu-cheng.Based on skin color and template matching eye location[J].Computer Engineering and Applications,2009,45(2):237-239.(in Chinese)

[7] 胡涛,王家乐.基于支持向量机的人眼检测[J].计算机工程与应用,2008,44(24):188-190.

HU Tao,WANG Jia-le.Eye detection based on support vector machines[J].Computer Engineering and Applications,2008,44(24):188-190.(in Chinese)

[8] Bolme D S,Draper B A,Beveridge J R.Average of synthetic exact filters[C]//Proceedings of 2009 IEEE International Conference on Computer Vision and Pattern Recognition.Miami,FL:IEEE,2009:2105-2112.

[9] Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking using adaptive correlation filters[C]//Proceedings of 2010 IEEE International Conference on Computer Vision and Pattern Recognition.San Francisco,CA:IEEE,2010:2544-2550.

[10] Zhou Lubing,Wang Han.Facial landmark localization via boosted and adaptive filters[C] //Proceedings of 2013 IEEE International Conference on Image Processing.Melbourne,VIC:IEEE,2013:519-523.

[11] Blome D S,Lui Y M,Draper B A,et al.Simple Real-Time Human Detection Using a Single Correlation Filter[C]//Proceedings of 2009 Twelfth IEEE International Workshop on Performance Evaluation of Tracking and Surveillance,Snowbird,UT:IEEE,2009:1-8.

[12] Vazquez-Fernandez E,Gonzalez-Jimenez D,Yu L L.Improved average of synthetic exact filters for precise eye localization under realistic conditions [J].IET Biometrics,2013,2(1):10-20.

[13] 陈明.Matlab神经网络原理与实例精解[M].北京:清华大学出版社,2013:119-120.

CHEN Ming.Matlab neural network principle and essence of instance[M].Beijing:Tsinghua University Press,2013:119-120.(in Chinese)