基于肤色采样点筛选的视频手势分割算法*

2014-02-11 02:48张若愚戴知圣

机电工程技术 2014年9期

关键词：肤色手势高斯

张若愚，潘晴，周舟，戴知圣

（广东工业大学信息工程学院，广东广州 510006）

基于肤色采样点筛选的视频手势分割算法*

张若愚1，潘晴2，周舟3，戴知圣4

（广东工业大学信息工程学院，广东广州 510006）

为了实现视频手势的实时分割与定位，提出一种基于肤色采样点筛选的视频手势分割算法对视频中的运动手势进行实时分割与定位。首先，对视频的每一帧通过图像预处理获取肤色采样点；其次，融合运动信息对肤色采样点进行初步筛选；然后，通过区域生长法再次筛选肤色采样点提取特征点；最后，通过特征点实现视频手势的分割与定位。实验结果表明，该方法具有良好的手势分割效果和较高的定位准确度。

视频手势；手势分割；手势定位；肤色分割；肤色采样点；特征点提取

0 引言

手势是人与人之间交流的一种重要方式，它是指手和手臂的一系列动作的集合[1]。目前，手势识别技术已经成为了计算机视觉领域的一个重要课题。其中，基于视觉的手势识别越来越受到研发人员的关注。

一般而言，基于视觉的手势识别算法主要包括手势分割、手势定位、手势分析和手势识别四部分。其中，手势分割与手势定位是整个算法的关键；良好的分割和准确的定位是识别的前提和保证。为了更好的分割视频手势，有效使用各种信息包括肤色、运动以及几何信息是这项研究的关键[2]。在文献[3]中，采用在HSI和YCbCr颜色空间建立肤色模型，然后利用多种形态学及密度图等方式提取分割结果，该方法虽然对于静态手势识别性能较高，但无法应对类肤色区域的干扰而且实时性不够。在文献[4]中，采用HSL颜色空间下的手势阈值分割，利用中值滤波和数学形态学操作滤除噪音，然后运用曲线拟合法提取手势轮廓，由于算法复杂，且面对复杂背景其分割性能急剧下降，因而其实用性不强。在文献[5]中，采用RGB和YCbCr空间进行阈值分割，然后利用多种形态学操作进行处理再结合单高斯背景模型对手势进行分割，虽然文中考虑复杂背景的影响，但应对大面积的类肤色干扰效果仍然不好而且实时性还有待提高；在文献[6]中，为了标定肤色动态手势区域，文中利用相邻帧间差分法与肤色模型相结合对动态手势区域进行标定，然而，当视频中相邻两帧运动量较小时，该方法并不能有效的对动态手势区域进行标定，而且其肤色模型利用的是单高斯模型，肤色效果比不上混合高斯模型。

为了应对大量类肤色区域、肤色区域干扰，本文提出了一种简单、鲁棒、有效的算法，相对于现有算法，本文提出的算法主要有两个优点：1)鲁棒性强，能应对大量类肤色区域的干扰；2)算法简单，容易实现，在保证准确率的情况下对视频手势实时分割与定位。实验结果表明，该方法具有良好的手势分割效果和较高的定位准确度。

1 算法原理

本节将详细描述本文所提出的算法细节，该算法主要由三个部分构成：（1）图像预处理；（2）特征点提取；（3）运动手势分割与定位。

具体算法流程：1）获取间隔N的两帧图像——第K帧和第K+N帧，N＞1；2）对第K帧与第K+N帧图像进行分别采样；3）利用肤色模型和手势两帧相对运动信息进行采样点筛选，提取特征点；4）通过特征点实现视频手势分割与定位。

1.1 图像预处理

1.1.1 定点采样

肤色是手势的重要信息，因此常用肤色信息进行手势分割；但是研究表明最能影响肤色信息的是光照因素，虽然不同人的肤色相差很大，但去除亮度的色度空间中肤色具有良好的聚类性[7]。因此，本文在HSI颜色空间中的HS空间建立混合高斯模型进行肤色分割；为了降低混合高斯模型复杂度，首先对第K帧与第K+N帧图像进行定点采样，然后对定点采样后的两帧图像进行肤色分割。

定点采样算法依赖于最近兴起的CS理论[8]，其基本思想是利用降采样后的图像对图像进行紧凑表示是可行的。本文通过定点采样算法获取采样点，然后对采样点进行肤色分割。

1.1.2 颜色空间与肤色模型

在HSI颜色空间中，H表示色度信息，S是色饱和度信息，I表示强度信息[9]。从RGB颜色空间到HSI颜色空间的常用转换公式[9]如下：

肤色模型按像素级进行分类可分为阈值化模型、参数模型和非参数模型[10]。本文采取的是高斯混合参数模型，其参数模型表示为[11]：

其中：K为高斯密度函数的个数；权值wi是每个高斯密度函数对混合高斯模型的贡献大小；ui为均值向量；Ci为协方差矩阵；x为肤色像素在HSI颜色空间中H分量和S分量的值。

1.2 筛选采样点，提取运动手势特征点

特征点是由采样点经过肤色模型和运动信息筛选获得；其中通过肤色模型可以获取间隔N的两帧图像在肤色区域中的采样点；而利用手势的相对运动信息可以滤除间隔N的两帧图像中非运动手势区域的肤色采样点，然后通过区域生长法消除噪音，提取特征点，最终通过特征点实现视频手势的分割与定位。

区域生长法是根据预先定义的生长准则把像素或子区域集合成较大区域的处理方法[9]；本文通过区域生长法分别对第K帧与第K+N帧消除噪音，提取特征点，最后通过特征点实现视频手势的分割与定位。

2 实验对比

本文算法在MATLAB R2012b上实现并进行仿真，仿真视频来源于数码相机拍摄，图像分辨率640×360，实验硬件测试平台为Windows XP环境下的AMD Athlon处理器，CPU2.1 GHz，内存1 GB的PC机。

为了验证算法的鲁棒性与实时性，本文利用了一些不同复杂背景下的视频对运动手势进行分割与标定。经过大量实验验证，手势标定测试结果及效率如表1所示。本文将与文献[2]提出的高斯背景模型和文献[6]提出的运动肤色模型进行对比。对比实验所采用的视频为人脸和手臂的肤色干扰及类肤色的背景干扰。

表1 手势标定结果及效率比较

图1 高斯背景模型

图2 运动肤色模型

图3 本文算法

图4 高斯背景模型

图1～6是视频中的第2、5、11、13帧手势标定结果，从图中可以看到高斯背景模型和运动肤色模型在肤色与类肤色背景的干扰下，无法准确分割定位手势，而本文提出的算法即使有大量类肤色背景干扰及静态肤色区域的干扰下，仍能够有很好的定位手势。

3 结论

本文算法主要是利用手势的运动信息与肤色信息相结合，通过筛选肤色采样点，提取特征点实现视频手势的实时分割与定位；通过大量实验表明，本文提出的算法简单、可靠、鲁棒性强、易于实现，即使在大量类肤色区域与静态肤色区域干扰的情况下，仍能够准确实时地对视频手势进行分割与定位。为了实现最终的视频手势识别，希望在今后的工作中，能改善并优化分割算法，提高处理速度。

图5 运动肤色模型

图6 本文算法

［1］Rautaray S S，Agrawal A.Design of gesture recognition system for dynamic user interface［A］.Technology En⁃hanced Education（ICTEE），2012 IEEE International Conference on.IEEE［C］，2012：1-6.

［2］Hong B，Xinggui Z.Study on Hand Gesture Segmentation［A］.Multimedia Technology（ICMT），2010 Interna⁃tional Conference on.IEEE［C］，2010：1-4.

［3］Ghosh D K，Ari S.Color Hand Gesture Segmentation for Images with Complex Background［A］.International Conference on Circuits，Power and Computing Technolo⁃gies［C］，2013：1127-1131.

［4］Xu Y，Gu J，Tao Z，et al.Bare Hand Gesture Recogni⁃tion with a Single Color Camera［A］.Image and Signal Processing，2009.CISP'09.2nd International Congress on.IEEE［C］，2009：1-4.

［5］王先军，白国振，杨勇明.复杂背景下BP神经网络的手势识别方法［J］.计算机应用与软件，2013，30（3）：247-249.

［6］于华平，艾矫燕.基于肤色动态手势区域的标定［J］.计算技术与自动化，2010，29（002）：86-88.

［7］Yang J，Waibel A.A real-time face tracker［A］. Applications of Computer Vision，1996.WACV'96.，Proceedings 3rd IEEE Workshop on.IEEE［C］，1996：142-147.

［8］Candès E J.Compressive sampling［A］.Proceedings oh the International Congress of Mathematicians：Madrid［C］.2006：1433-1452.

［9］冈萨雷斯.数字图像处理［M］.北京：电子工业出版社，2007.

［10］曹昕燕，赵继印，李敏.基于肤色和运动检测技术的单目视觉手势分割［J］.湖南大学学报：自然科学版，2011，38（001）：78-83.

［11］陈锻生，刘振凯.肤色检测技术综述［J］.计算机学报，2006，39（2）：194-207.

Video Gesture Segmentation Algorithm Based on Screening Skin Color Sample Points

ZHANG Ruo-Yu1，PAN Qing2，ZHOU Zhou3，DAI Zhi-sheng4
（School of Information Engineering，Guangdong University of Technology，Guangzhou 510006，China）

In order to realize real-time segmentation of video gestures and location，in this paper a method of the segmentation and location of motion gestures in real-time video is presented based on screening skin color sample points.Firstly，in each frame of videos，obtaining color sample points by Image preprocessing.Secondly，the color sample points are screened for the first time with the movement information.Then，feature points are acquired by screening the color sample points for the second time by using region growing method. Last but not least，realizing segmentation of the video gesture and location with the feature points.It is proved that the method has good segmentation effect and higher positioning accuracy.

video gesture；gesture segmentation；gesture location；skin color segmentation；skin color sample points；feature points extraction

TP242.6+3

1009－9492(2014)09－0001－04

10.3969/j.issn.1009-9492.2014.09.001

张若愚，男，1988年生，湖南娄底人，硕士研究生。研究领域：图像处理、模式识别。

(编辑：阮毅)

*国家自然科学基金（编号：61001179）

2014－03－24