手势识别研究发展现状综述

2013-10-17 08:45许艳旭

电子科技 2013年6期

武霞，张崎，许艳旭

(1.北京科技大学计算机与通信工程学院，北京 100083;2.北京科技大学自动化学院，北京 100083)

随着计算机的广泛应用，人机交互(Human Computer Interaction，HCI)已成为人们日常生活中的重要部分。人机交互的最终目标是实现人与机器自然地交流，因此手势识别研究顺应了发展需要。然而由于手势本身具有多样性、多义性以及时间和空间上的差异性等特点，加之人手是复杂变形体以及视觉本身的不适定性，所以手势识别成为多学科交叉的研究课题。

再者由于文化背景和应用环境的不同，使得手势识别研究无法整合到一个完整的框架当中，理论及技术未形成一个完整的体系。研究者多是根据特定的项目要求实现某些特定的功能，而不能将其应用到普遍的系统或研究当中。因此迫切需要对手势识别研究领域中的一些普遍难题进行解决，使其更具通用性。

1 手势识别研究的发展

最初的手势识别主要是利用机器设备直接检测手、胳膊各关节的角度和空间位置。这些设备多是通过有线技术将计算机系统与用户相互连接，使用户的手势信息完整无误地传送至识别系统中，其典型设备如数据手套［1］等。数据手套是由多个传感器件组成，通过这些传感器可将用户手的位置、手指的方向等信息传送到计算机系统中。数据手套虽可提供良好的检测效果，但将其应用在常用领域则价格昂贵［2］。

其后，光学标记方法取代了数据手套。将光学标记戴在人手上，通过红外线可将人手位置和手指的变化传送到系统屏幕上，该方法也可提供良好的效果，但仍需较为复杂的设备。

外部设备的介入虽使得手势识别的准确度和稳定性得以提高，但却掩盖了手势自然的表达方式。为此，基于视觉的手势识别方式应运而生。视觉手势识别是指对视频采集设备拍摄到的包含手势的图像序列，通过计算机视觉技术进行处理，进而对手势加以识别。清华大学任海兵［3］等人从手势建模、手势分析和手势识别等3个方面综述了基于视觉手势识别的研究现状及其应用。

1.1 国外手势识别研究现状

目前，手势识别已被广泛研究，尤其是基于视觉的手势识别。韩国Inda大学和Korea Polytechnic大学的JongShill Lee、YoungJoo Lee等人用熵分析法从背景复杂的视频流中分割出手势区域并进行手势识别［4］。使用链码的方法检测手势区域的轮廓，最后计算出从手势区域的质心到轮廓边界的距离。该系统可识别6种手势，平均识别率超过95%;6个人分别做每个手势的识别率平均达到90%-100%。印度研究者Meenakshi Panwar在视觉手势识别的基础上提出了一种基于结构特征的手势识别算法，通过背景去除、方向检测、拇指检测和手指数量检测，来最终识别手势。Chenglong Yu等人［5］采用基于视觉的组合特征进行手势识别，将手的面积、周长、重心、面积比和长宽比等特征结合，使得识别率得以提高。上海大学 DING Youdong、PANG Haibo［6］等人运用改进的 LBP 算法，利用AdaBoost分类器进行手势识别，建立了多种手势数据集，其中包括一些大角度变化的手势图像。实验表明该方法可较好地对手势特征进行分割和分类。

此外，许多大型电子企业也将手势识别研究列入其开发项目中，并且成果显著。2012年，三星推出智能电视新品ES8000，该款电视机将面部识别，手势识别和语言识别结合，无论是通过语音还是简单的手势，用户不仅可完成开关机、调节音量、换台等基本操作，还可实现上网浏览或关键字搜索等复杂功能。微软研发机构的微软研究院(Microsoft Research，MSR)与华盛顿大学合作，开发出一种可利用笔记本电脑内置麦克风和扬声器进行手势识别的技术;该项技术被称为Sound Wave，利用了多普勒效应识别接近计算机的任何动作和手势。

1.2 国内手势识别研究现状

国内的手势识别研究主要集中在各大高校和研究院等。清华大学计算机科学与技术系祝远新等人提出了一种新的基于表观的手势识别技术［7-9］。提出一种基于运动分割的帧间图像运动估计方法，并指出了一条如何将运动、形状、颜色和纹理等信息统一起来进行手势识别的途径;且实现了对12种手势进行在线识别的实验系统，识别率超过90%。王凯等人［10］提出了基于AdaBoost算法和光流匹配的实时手势识别方案:只需连接计算机的摄像头读取二维手势视频片段便可对手势作出较为准确的识别。其中，采用AdaBoost算法遍历图像，完成静态手势的识别工作。而在动态手势的识别过程中，运用了光流法结合模板匹配的方法。中国科学技术大学和哈尔滨工业大学的滕达［11］，刘岩等人研究了基于“大小手”的徒手手势实时识别，将双手划分成大手和小手，双手重叠按照一只手处理。应用背景差分法将背景去除，利用文中的大小手特征提取算法检测出手势，最终利用动态时间进行手势识别，该系统对17个常用手势试验识别率可达94.1%。

2 手势识别关键技术

手势无论是静态或动态，其识别顺序首先需进行图像的获取、手的检测和分割、手势的分析，然后进行静态或动态的手势识别。具体流程如图1所示。

图1 手势识别流程

文中从手势检测和分割，手势分析及手势识别3个方面分别介绍手势识别的研究和应用，并同时给出了结论。

目前，对手势进行检测分割、分析以及识别的方法较多。图2给出了每个流程中常用的一些方法。

图2 手势识别方法一览

2.1 手势分割

手势分割是手势识别过程中关键的一步，手势分割的效果直接影响到下一步手势分析及最终的手势识别。目前最常用的手势分割法主要包括基于单目视觉的手势分割和基于立体视觉的手势分割。

单目视觉是利用一个图像采集设备获得手势，得到手势的平面模型。常用的方法主要有:(1)基于徒手的表观特征识别(徒手的表观特征指手的肤色、纹理、指尖、手的轮廓、手型和手的大小等)，通常都利用肤色信息在YUV、HSV或YCbCr等颜色空间下建模对手势进行分割［12-14］。(2)人为增加限制的方法，如使用黑色和白色的墙壁、深色的服装等简化背景或要求人手佩戴特殊的手套等强调前景，以简化手区域与背景区域的划分［15］。(3)建立手势形状数据库的方法，如密西根州立大学计算机系Cui Yuntao建立了一种数据库，其中包括各种手势类在不同时刻、不同位置、不同比例时的手型图像，作为基于模板匹配识别方法的模板［16］。

基于单目视觉的手势分割方法中，常用的是基于徒手的表观特征分割，如手的肤色、纹理等。该种表观不受手势形状变化的影响，但受外界环境的干扰较大，如光照影响，类肤色的干扰等。而人为增加限制的方法虽可解决类肤色的干扰，但却限定了环境因素，对环境要求较为苛刻，使系统的实时性和手势识别的自然性大幅降低。建立手势形状数据库的方法是将能够考虑的所有手势建立起来，利于手势的模版匹配，但其计算量随之增加，不利于系统的快速识别。综上所述，无论使用哪一种单一方法，手势分割均无法克服所有外界因素的影响，因此可考虑将多种方法相结合，在不同环境下自适应地选择其中一种方法将手势准确地进行分割。

而立体视觉是利用多个图像采集设备得到手势的不同图像，转换成立体模型。主要方法有立体匹配和三维重构。张凯［17］等人利用立体视觉的方法求得手势的正面图像，然后与预定义的模版进行匹配从而识别手势。马栋林使用双摄像头，在手势的三维几何模型基本框架下，将得到的几何体旋转角度作为提取出的手势特征［18］。三维模型可最大程度地接近真实手势。

基于立体视觉的手势分割需建立手势的三维模型，相比二维模型其所需设备较多，需要两个或多个图像采集设备获得手势图像。立体匹配的方法与单目视觉中的模板匹配方法类似，也要建立大量的手势库;而三维重构则需建立手势的三维模型，计算量将增加，但分割效果较好。

2.2 手势分析

手势分析是完成手势识别系统的关键技术之一。通过手势分析，可获得手势的形状特征或运动轨迹。手势的形状和运动轨迹是动态手势识别中的重要特征，与手势所表达意义有直接的关系。手势分析的主要方法有以下几类:边缘轮廓提取法、质心手指等多特征结合法以及指关节式跟踪法等。边缘轮廓提取法是手势分析常用的方法之一，手型因其特有的外形而与其他物体区分;何阳青［19］采用结合几何矩和边缘检测的手势识别算法，通过设定两个特征的权重来计算图像间的距离，实现对字母手势的识别。多特征结合法则是根据手的物理特性分析手势的姿势或轨迹;Meenakshi Panwar将手势形状和手指指尖特征相结合来实现手势的识别。指关节式跟踪法主要是构建手的二维或三维模型，再根据人手关节点的位置变化来进行跟踪，其主要应用于动态轨迹跟踪。

2.3 手势识别

手势识别是将模型参数空间里的轨迹(或点)分类到该空间里某个子集的过程，其包括静态手势识别和动态手势识别，动态手势识别最终可转化为静态手势识别。从手势识别的技术实现来看，常见手势识别方法主要有:模板匹配法、神经网络法和隐马尔可夫模型法。

模板匹配法是将手势的动作看成是一个由静态手势图像所组成的序列，然后将待识别的手势模板序列与已知的手势模板序列进行比较，从而识别出手势。基于模板的方法不仅是指相互对应的模板匹配算法(Template Matching)，也包括对时间、空间进行规整后的模板匹配算法，如动态时空规整算法和动态规划算法。由于动作的快慢不同，图像序列中的每幅图像较难做到相互对应，因此进行时间上的规整是模板匹配的重要步骤。代表性的模版匹配法是动态时间规整(Dynamic Time Warping，DTW)。DTW是将观测到的轨迹和学到的固定长度的局部线型模板进行匹配，得出识别结果;该算法无需对手势进行时间上的分割来确定手势的起点和终点［20］。神经网络法:该方法具有分类特性及抗干扰性，具有自组织及自学习能力，具有分布性特点，能有效抗噪声并处理不完整模式，还具备模式推广能力。然而由于其处理时间序列的能力不强，目前广泛应用于静态手势的识别。赵新龙等人设计出一套符合用户设计习惯的编辑手势，采用基于BP神经网络的方法对其进行识别，以实现计算机对草绘设计行为的准确理解和对草图的快速编辑与修改［21］。

隐马尔可夫模型法(Hidden Markov Model，HMM):是一种统计模型，用隐马尔可夫建模的系统具有双重随机过程，其包括状态转移和观察值输出的随机过程。其中状态转移的随机过程是隐性的，其通过观察序列的随机过程所表现。许杏［22］设计的识别系统对HMM进行初始化及参数训练，实现了对阿拉伯数字(0～9)的手势轨迹的识别;最终，可使手势识别系统具有较好的实时性和互动性。该方法具有较强的描述手语信号的时空变化能力，在动态手势识别领域始终占有主导地位，但其拓扑结构的一般性，导致该模型在分手手语信号时过于复杂，使得HMM训练和识别计算量过大。

3 展望与总结

手势识别作为人机交互的重要组成部分，其研究发展影响着人机交互的自然性和灵活性。目前大多数研究者均将注意力集中在手势的最终识别方面，通常会将手势背景简化，并在单一背景下利用所研究的算法将手势进行分割，然后采用常用的识别方法将手势表达的含义通过系统分析出来。但在现实应用中，手势通常处于复杂的环境下，例如:光线过亮或过暗、有较多手势存在、手势距采集设备距离不同等各种复杂背景因素。这些方面的难题目前尚未得到解决，且将来也难以解决。因此需要研究人员就目前所预想到的难题在特定环境下加以解决，进而通过多种方法的结合来实现适于不同复杂环境下的手势识别，由此对手势识别研究及未来人性化的人机交互做出贡献。

［1］MEENAKSHI P.Hand gesture recognition based on shape parameters［C］.Computing，Communication and Applications(ICCCA)，2012 International Conference on，2012.

［2］吴文琴，高文，庞博，等.中国手语手势词识别的一种快速方法［J］.高技术通讯，2001(6):23-27.

［3］任海兵，祝远新，徐光祐，等.基于视觉手势识别的研究综述［J］.电子学报，2000(2):118-121.

［4］LEE J S，LEE Y J，LEE E H，et al.Hand region extraction and Gesture recognition from video stream with complex background through entropy analysis［C］.San Francisco，CA，USA:Proceedings of the 26th Annual International Conference of the IEEE EMBS，2004.

［5］YU Chenglong，WANG Xuan，HUANG Hejiao.Visionbased hand gesture recognition using combinational features［C］.2010 6th International Conference on Intelligent Information Hiding and Multimedia Signal Processing，2010.

［6］DING Youdong，PANG Haibo，WU Xuechun.Recoginton of hand-gesture using improved local binary pattern［C］.2011 International Conference on，Multimedia Technology(ICMT)，2011.

［7］祝远新，徐光祐，黄浴.基于表观的动态孤立手势识别［J］.软件学报，2000，11(1):54-61.

［8］任海兵，祝远新，徐光祐，等.复杂背景下的手势分割与识别［J］.自动化学报，2002，28(2):256-261.

［9］任海兵，祝远新，徐光祐，等.连续动态手势的时空表观建模及识别［J］.计算机学报，2000，23(8):824-828.

［10］王凯，于鸿洋，张萍.基于Adaboost算法和光流匹配的实时手势识别［J］.微电子学与计算机，2012，29(4):138-141.

［11］滕达，杨寿保，刘岩，等.基于“大小手”的徒手手势实时识别［J］.计算机应用，2006，26(9):2041-2043.

［12］刘昌盛，厉树忠，赵姝颖，等.一种复杂背景下的手部图像分割方法［J］.河北科技示范学院学报，2007，21(3):46-49.

［13］郭志敏.基于双目视觉的人手定位与手势识别系统研究［D］.河南:郑州大学，2011.

［14］马凯，张崎.基于结构分析的手势识别算法研究［J］.信息技术，2012(4):81-83.

［15］李清水，方志刚，沈模卫，等.手势识别技术及其在人机交互中的应用［J］.人类工效学，2002，8(1):27-29.

［16］刘俊梅，阮秋琦.一种复杂背景写的手势分割新方法［J］.北京电子科技学院学报，2002，8(1):27-29.

［17］张凯，葛文兵，汪国平，等.基于立体视觉的自然手势识别［C］.昆明:第一届建立和谐人机环境联合学术会议，2005.

［18］马栋林，高玮军.基于三维模型的双目手势特征提取［J］.兰州理工大学学报，2011，37(5):104-107.

［19］何阳青.基于几何特征的手势识别算法研究［D］.上海:上海海事大学，2004.

［20］荆雷，马文君，常丹华.基于动态时间规整的手势加速度信号识别［J］.传感技术学报，2012，25(1):72-76.

［21］赵新龙，方贵盛，沈莉芳.基于BP神经网络的草图编辑手势识别［J］.浙江水利水电专科学校校报，2006，18(4):31-33.

［22］许杏.基于隐马尔科夫模型手势识别研究［D］.广东:华南理工大学，2011.