基于嵌入式隐马尔科夫模型的人眼注视方向识别

2019-10-09 05:49梁铭炬

电子技术与软件工程 2019年17期

文/梁铭炬

眼动特征及人眼注视方向映射模型是视线跟踪技术的关键问题，目前这方面已经开展了一些有意义的研究,例如Morimoto等利用二次多项式方程来关联瞳孔移动矢量和眼睛注视点，此方法只适合于佩戴式设备。A.sugioka结合普尔钦斑点法并考虑头动影响以解决视线方向的映射难题，难以应用于实际；T.ohno提出头部自由的人眼注视方向识别算法，用三个摄像机来获得眼睛的三维坐标，算法复杂耗时。

本文提出基于2D-DCT 及EHMM的眼动状态识别方法。首先利用2D-DCT变换提取眼睛的低频信号组成观察序列，采用EHMM模型训练眼动状态观察序列，得到判别眼动状态的分类器，最后利用该分类器对眼睛实时状态进行检验和分析就可以得到视线方向。

1 EHMM模型

嵌入式隐马尔科夫模型(EHMM)是多维HMM（Hidden Markov Model）模型，EHMM包含一个主状态序列，每个主序列包含一组嵌入状态序列，主序列用于建模二维数据，而嵌入状态序列则用于建模一维数据，因此EHMM是二维的HMM模型，训练及识别的效率更高，其初始模型参数估计值更准确。

2 二维离散余弦变换（2D-DCT）

EHMM在图像处理的应用上存在一定的缺陷，假如一幅眼睛灰度图片为90x60的像素大小，按照其原理（X=3，Y=4）所对应的子HMM观察序列大小约为22x15，对应的观察序列就有256330种不同序列，无论是在训练模型以及应用模型，都会产生天文级的计算量，因此本文利用2D-DCT对眼睛灰度图片进行像素压缩，提取其低频特征序列作为观察序列，以减少EHMM模型的复杂度和计算量。

3 基于EHMM的视线方向识别模型

3.1 视线方向识别的EHMM模型训练

通过EHMM模型训练确定眼动状态对应的EHMM模型序列，每组序列参数用多幅不同使用者的不同亮度、不同姿态的图片，按照以下步骤进行训练：

表1：准确率实验结果列表

图1：不同方向视线的人眼图像的2D-DCT变换图像

（1）对图像进行灰度归一化预处理。

（2）对图像进行2D-DCT变换，构建其低频观察序列。

（3）设定EHMM的主状态序列为3和其子嵌入状态序列为4，通过Viterbi算法，对人眼图像进行分割。

（4）以Baum-welch算法进行模型参数重估训练，重复多次此步骤得到收敛的EHMM模型。

3.2 视线方向识别的EHMM模型应用

进行视线方向识别的时候，首先通过2D-DCT变换获取眼动图像的低频观察序列，通过各个训练模型获取眼动状态的似然值，对应的眼动状态具有最大似然值，公式（1）表示如下：

4 实验结果分析

4.1 2D-DCT变换结果分析

根据设计的EHMM模型构造（3个主状态序列，4个子嵌入状态序列，(4，4，4)共12个隐马尔可夫模型状态）进行人眼图像2D-DCT变化及划分为图像块，形成观察向量序列如图1所示。

4.2 EHMM模型的结果分析

本实验采集20人在不同姿态和不同的光照下的2000多幅图片进行2D-DCT变换数据提取及EHMM训练。对2D-DCT变换的数据进行分析，然后对另外采集图像进行实验验证。本论文采用多种方法验证对视线方向识别的可行性，如HMM算法、普尔钦斑点法，从结果（表1所示）可以看出EHMM具有更高准确率。

5 总结

本文创新地提出将EHMM的模式识别方法应用于视线跟踪技术，在准确率上有理想效果，通过处理人眼的图像，寻找不同视线方向的人眼图像的2D-DCT特征，通过训练得到基于EHMM的人眼注视方向分类器，来检测和判断出人眼视线注视方向。通过对各种外界情况下拍摄的眼动图片进行视线方向识别的准确率来看，本方法检测眼睛注视方向的精度高、稳定性好、鲁棒性强，同时无需任何标定过程及设计个体使用者的参数，经简单训练过程，得到的视线方向识模型别即可用于普通人群，适用于实际应用领域。