基于多特征融合的手势识别研究∗

2020-11-02 09:00卢梦圆
计算机与数字工程 2020年9期
关键词:识别率分类器手势

卢梦圆 官 巍 马 力

(西安邮电大学计算机学院 西安 710061)

1 引言

随着计算机视觉技术的飞速发展,人机交互的日益普及已经在手势识别领域引起了巨大改革。人机交互技术分为两类:基于传感器和基于视觉的方法。基于传感器的方法依靠机电设备收集手势数据,这种方法使用附在手上的传感器设备提供手掌位置、动作、手掌的准确坐标和手指的位置和方向,如数据手套,但缺点是设备昂贵,并且限制了手势的自然表达。因此为了克服这些困难,基于视觉的手势识别技术应运而生。

基于视觉的手势识别主要包括三个基本步骤:手势分割、手势的特征提取、手势识别。其中,特征的提取和分类器的选取对手势识别的准确率和效率起着至关重要的作用。手势的特征可以总结为颜色、形状、纹理等。基于颜色的特征有:颜色直方图[8~10],基于形状的特征有梯度方向直方图(Histo⁃gram of Oriented Gradients,HOG)[1,11]和Haar-like特征[12]。基于纹理的特征有:局部二值图(Local Binary Pattern,LBP)[13]和Gabor[8]。这些特征已经被应用到基于视觉的手势识别中。HOG 特征具有几何和光照不变性优点,在特征提取中被广泛应用。Misra[3]和Zhao[4]等使用HOG 特征构建SVM 模型用于手势识别,在一定程度上,该算法可以解决光照变化和手势旋转对识别结果的影响。然而它仅适用于单个手势在简单背景下的识别。文献[5]提取了HOG特征,结合SVM分类器,实验结果表明识别率高达92.5%,在光照上具有很好的鲁棒性,但是不适用于复杂环境。孙等采用基于Hu不变矩的轮廓匹配算法[6,16],得到较好的手势识别结果。文献[7]中作者使用HOG 特征结合SVM,进行70-30 的交叉验证,实验结果实现了能够很好区分手势和非手势。文献[7]中比较了常用的两种特征提取方法:SIFT 和SURF,使用包含10 种手势的数据库,将SVM 作为分类器。SURF 方法的识别率是82.8%,SIFT 方法的识别率为81.2%。手势识别的另一关键技术是选择好的分类算法用于训练手势分类模型,常见分类器包括:支持向量机(SVM)[9~10,13,17],期望最大化(EM)[13],贝叶斯模型[10],隐马尔科夫模型[15]等。

考虑到单一特征的局限性,本文提出一种基于HOG 和LBP 特征融合的支持向量机识别方法,实验结果表明,多特征融合算法相比于单一特征,有较高的识别率。

2 特征提取与融合

2.1 HOG

方向梯度直方图(Histogram of Oriented Gradi⁃ent,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。最早是由法国研究人员Dalal[1]在2005 的CVPR 上提出用于行人检测,并且获得了极大的成功。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。它的基本思想是把图像分成若干重叠的块(block),每个block 进一步划分为非重叠区域叫做cell。计算每个像素的梯度幅值和方向,这样就得到了每个cell 的梯度方向直方图。每个block 内所有的cell特征向量串联起来就得到该block 的HOG 特征。将图像内的所有block 的HOG 特征串联起来就可以得到该图像的HOG特征了。

2.2 LBP

LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子;它具有旋转不变性和灰度不变性等显著的优点。它是首先由Ojala 和Harwood[2]在1994 年提出,用于纹理特征提取。LBP 算子定义为在3×3 的窗口内,以窗口中心像素为阈值,将相邻的8 个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3×3邻域内的8个点经比较可产生8 位二进制数(通常转换为十进制数即LBP 码,共256 种),即得到该窗口中心像素点的LBP值。

2.3 特征融合

HOG 特征已经被证明是用于获取边缘和局部形状信息的最好特征之一,在目标检测和识别上取得了极大的成功。然而它们对图像的旋转不具鲁棒性,并且相同指向的梯度可能对应不同的结构。事实上,图像背景的边缘信息通常都很复杂,会导致识别准确率下降。LBP 特征在提取纹理特征方面非常有效,并且可以描述图像的细节,对灰度级变化和旋转变化具有鲁棒性。

因此,本文提出融合HOG 特征与LBP 特征的算法来实现手势识别,采用简单的串联连接对两种特征进行融合,将融合后的特征向量作为分类器的输入,以期获得较高的识别率。

3 SVM

SVM 是一种用于分类问题的有监督机器学习算法,SVM的主要原理是在训练集上建立一个最优分类超平面,使得正类训练样本和负类训练样本不仅能够准确分开,而且保证两类训练样本点之间的分类间隔达到最大,并且分类间隔越大,最优分类超平面对测试样本点的正确分类能力越高。SVM最初被用作二分类,后来逐渐被应用到多分类问题中。本文选取线性SVM作为分类器,将融合后的特征向量输入线性SVM分类器完成手势的分类识别。

4 实验结果与分析

4.1 数据集

图1 American Sign Language数据库部分样例示意图

实验所使用的数据库是American Sign Lan⁃guage(ASL)手势数据库,数据库共有24 种手势,分别表示除了J 和Z 以外的24 个英文字母。每个手势分别由5 个人在不同背景下完成,每个手势样本1000 张图片,RGB 和深度图像各500 张。共有24×5×1000=120000 张图像。本文主要通过对ASL 数据库中的手势图片进行分类识别,从而验证提出的特征融合算法的可行性。本实验只选取24 种手势的RGB 图像进行实验。实验包含训练集(48000个),测试集(12000个)。ASL的字母如图1所示。

4.2 实验结果

为了进行对比,我们分别使用HOG 特征,LBP特征,HOG+LBP特征训练和测试手势分类模型,并且比较每一种特征在它的最佳模型中的识别率。

4.2.1 基于HOG+SVM的实验结果

实验首先单独提取了手势的HOG 特征,为了减少HOG 特征向量的维数,将手势图像归一化到64×128,每个block由2×2个cell组成,bin的个数是9,block 的移动步长为一个cell,cell 大小N1×N1个block的特征维数为2×2×9=36。

特征维数的计算公式如下:

在HOG 特征的提取中,本文采用线性SVM,对不同区域块大小进行手势识别,从而获得最优的特征提取参数。表1 是选取不同区域块,采用线性SVM分类器的实验结果。

表1 不同区域块划分的HOG特征识别结果

由上述实验可知,区域块大小的不同直接影响HOG 特征的分类结果准确率。当区域块尺寸过小,HOG 的维度就会很高,识别率反而低,这说明HOG 特征中存在过多的冗余信息,干扰了线性SVM 的识别。因此对于线性SVM 分类器来说,HOG特征的最佳区域块划分为8×8。

图2 基于HOG特征的24种手势识别结果

特征维度太大会引起训练和识别时间过长,对电脑的内存需求也会增大,为了减少维度同时保持高识别率,本文采用线性SVM 作为分类器,采取识别效果最佳的3780 维HOG 特征,对ASL 数据集的24种手势进行识别。结果如下:

由图2可知,有7种手势识别率在90%以上,有12 种手势识别率在80%~90%之间,有4 种手势识别率在70%~80%之间,只有一种手势识别率为63.2%,总体来说HOG特征结合SVM分类器能够较好用于手势识别。

4.2.2 基于LBP+SVM的实验结果

原始的LBP 算子,由于直接利用灰度比较,所以其具有灰度不变性;但是,有两个很明显的缺点:一是产生的二进值模式过多,二是不具备旋转不变性。为了解决二进制模式过多的问题,提高统计性,本文采用均值模式或等价模式LBP(Uniform LBP)进行降维,“等价模式”定义为:当某个LBP 所对应的循环二进制数从0 到1 或从1 到0 最多有两次跳变时,该LBP所对应的二进制就称为一个等价模式类。如00000000(0 次跳变),00000111(只含一次从0 到1 的跳变),10001111(先由1 跳到0,再由0跳到1,共两次跳变)都是等价模式类。除等价模式类以外的模式都归为另一类,称为混合模式类,例如10010111(共四次跳变)。通过这样的改进,二进制模式的种类大大减少,而不会丢失任何信息。模式数量由原来的2p种减少为P(P-1)+2种,其中P 表示邻域集内的采样点数。对于3×3 邻域内8 个采样点来说,二进制模式由原始的256 种减少为58 种,即:它把值分为59 类,58 个等价模式为一类,其他的所有值为第59 类。这样直方图从原来的256 维变成59 维。这使得数据量减少的情况下能最好的表示图像的信息,并且可以减少高频噪声带来的影响。

输入图像的尺寸为64×128,cell 大小N1×N1,LBP的特征维数V计算公式如下:

表2 不同区域块划分的LBP特征识别结果

在LBP 特征的提取中,本文采用线性SVM,对不同区域块大小进行手势识别,从而获得最优的特征提取参数。表2 是选取不同区域块,采用线性SVM分类器的实验结果。

由表2 可知:对于线性SVM 分类器来说,LBP特征的最佳区域块划分为8×8。因此采取识别效果最佳的7552 维LBP 特征,对ASL 数据集的24 种手势进行识别。结果如下:

图3 基于LBP特征的24种手势识别结果

由图3 实验结果可知,有14 种手势识别率在90%以上,9 种手势识别率在80%~90%之间,仅有一种识别率为62.2%,总体识别效果较好。

4.2.3 本文算法

通过上面的算法可知,HOG 特征和LBP 特征都能对手势有较好的识别结果,为了进一步提高手势的分类准确率,本文分别提取了手势的HOG 和LBP 特征向量,见式(3)和(4),之后将两种特征进行简单串联融合,最终形成11332维的特征向量。

其中,d=3780,为HOG 特征的维数,f=7552,为LBP特征的维数。则融合后的特征F为

最后我们把融合得到的特征向量作为线性SVM的输入,具体的识别流程如下:

基于本文提出的多特征融合+SVM,对ASL 数据集的24 种手势进行分类识别,最终得到24 个手势类别的分类结果,计算出了24 个类别的识别率。如图折线图4所示。

由图5对测试集中的24种手势分类结果可知:有14 类手势识别率在80%~90%之间,有9 类手势在80%~90%之间,剩余一种识别率别为71%。这24类手势中最高识别率达98%。由此可见,基于多特征融合的算法对手势具有较好的识别率。

图4 测试样本各类别分类精确度

4.2.4 单一特征与本文算法比较

为了验证本文算法的优越性,将两种单一特征与本文的多特征融合算法的分类准确率进行比较,24种手势识别结果对比见图5。

图5 测试样本各类别分类精确度单一特征与融合特征对比

24种手势的平均识别率见表3。

表3 单一特征算法与本文算法准确率对比分析

由上表可知:当使用单一特征时,识别率在85%~87%左右,而本文使用的算法识别率达90%实验表明,在基于单特征的识别中,HOG 特征的识别率高于LBP 特征。而本文使用的多特征融合算法识别率达90%,因此,本文使用的多特征融合算法要优于单一特征。这也验证了HOG 特征与LBP特征具有互补性,多特征融合方算法要优于以提高识别率。

5 结语

本文采取多特征融合的方法提取手势特征,先后提取手势图像的HOG 和LBP 特征,将两种特征按一定的权重融合后通过SVM 分类器进行分类识别。并且实验选取的ASL 数据集是在不同复杂背景下拍摄的图像,通过以上的实验表明,该方法具有较高的识别率。在未来的工作中,希望可以将多特征融合算法与深度学习相结合,对网络模型进行优化,为研究更高识别率的手势图像分类算法做进一步的努力。

猜你喜欢
识别率分类器手势
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
挑战!神秘手势
基于AdaBoost算法的在线连续极限学习机集成算法
胜利的手势
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展