基于landmark算法的唇语采集系统设计

2019-07-24 10:33冯彦婕李思潼杜帅朱从亮
智富时代 2019年6期

冯彦婕 李思潼 杜帅 朱从亮

【摘 要】唇部是人脸重要特征之一,一般通过唇形的动态变化来进行唇语识别,而在唇语识别之前,最为重要的就是唇语采集系统。本文所提出的唇语采集系统可以自动识别人脸,并对唇语进行采集,以及对采集到的视频数据进行处理。

【关键词】唇语采集系统;Dlib算法;唇语识别

随着社会经济的发展,人工智能越来越受到人们的关注,繁重的科学和工程计算与识别已经超出了人脑的承受范围,人们必须借助机器来进行计算分析。80年代末90年代初,语音识别技术得到迅速发展,自动语音识别系有了长足进步,但是这类系统在噪声和干扰的条件下识别率显著下降,原因是它只单纯从语音信道获取信息,而忽略了视觉信息,一旦应用于真实环境中其性能就会大大下降。特别是在噪声干扰的情况下,与语音识别技术相比,唇语识别的准确性更高。而唇语识别的前期工作,最为主要便是进行唇语采集。

一、landmark算法

Dlib库是机器学习的开源库,包含了大量的机器学习、图像处理算法,如:深度学习、基于SVM的分类和递归算法、针对大规模分类和递归的降维方法、相关向量机等。其中有人脸检测器,有训练好的人脸关键点检测器,也有训练好的人脸识别模型。

landmark算法便是Dlib库中的一种,它是一种人脸部特征点提取的技术,Dlib库中为人脸68点标记,如图1。

当获得一张图片后,算法会生成一个initial shape,即先估计一个大致的特征点位置,然后采用gradient boosting算法减小initial shape 和 ground truth 的平方误差总和。用最小二乘法来最小化误差,得到每一级的级联回归因子。核心公式如下:

二、特征信息点的标注

利用landmark算法标注出的人脸的特征信息点如图2、图3所示。接下来就通过唇部特征信息点,裁剪出唇部图像,构成数据集。

三、唇語采集系统

这里我们使用python语言,通过Dlib库中的图像处理语句,启动摄像头,获取一个25帧的视频,再进行预处理功能,将视频转换为图像,做好分类。通过如此的获取并分类,我们可以得到一个数据库,这个数据库将为我们之后模型训练提供训练唇部模型的数据集,以便于能够检测不同发音的嘴型。采集到的视频数据如图2,对其进行处理,处理后得到的有关唇语的数据集如图3。

四、结束语

本文提出了一种利用Dlib库中的landmark算法进行唇语采集系统的设计,通过Dlib库中的图像处理语句,捕获25帧的视频,再对视频进行处理:进行人脸检测,检测面部信息点,再通过唇部信息点确定唇部位置,并切割成64×64×3的唇部图像,从而达到唇语采集的目的。经证明,该方法采集到的数据集准确率较高,更加简便,为后续模型的训练做足了准备。

【参考文献】

[1]M, Hunke, A, Waibel. Face Locating And Tracking For Human-Computer Interaction [J]. Interaction.Proceedings of Twenty-eight asilomar Cofeence on Signals, Systens&Computers, Monnterey, 1994, 2(5): 77-81

[2]K, Mase, A, Pentland. Automatic lipreading by optical‐flow analysis [J]. 《Systems & Computers inJapan》,USA, 2015, 22(6): 67-76

[3]张枝令.Python实现基于深度学习的人脸识别[J].电子商务,2018(05):47+96.