专注度识别研究综述

2021-05-19 06:09孙帅成刘瑞明

科技资讯 2021年4期

孙帅成　刘瑞明

摘要：效率是工作者最关心的问题之一，而专注度是影响效率高低的关键因素。近年来，人们对个人的专注度的重视程度大大提升，提出了很多针对专注度的判断方法，例如人工观察、问卷调查、访谈等。这些方法可信度不高、客观程度不够、效率低下、浪费资源等，在机器视觉快速发展的情况下，将机器视觉和专注度识别相结合，更加智能和高效地进行专注度识别。该文对国内外的研究历程和进展进行了回顾，并从基于人脸表情的专注度识别和基于行为的专注度识别两个方面对人脸专注度识别技术进行了阐述。最后探讨了专注度识别的发展趋势，为后来者提供借鉴。

关键词：专注度机器视觉人脸表情识别行为识别

中图分类号：TP18 文献标识码：A 文章编号：1672-3791（2021）02（a）-0006-04

A Review of Research on Attentiveness Recognition

SUN Shuaicheng1 LIU Ruiming2*

（1.School of Mechanical and Marine Engineering， Jiangsu Ocean University; 2.School of Electronic Engineering， Jiangsu Ocean University， Lianyungang， Jiangsu Province， 222005 China）

Abstract：Efficiency is one of the concerns of workers and concentration is a key factor affecting efficiency. In recent years， our emphasis on personal concentration has greatly increased and many judgments on concentration methods such as manual observation， questionnaire surveys， interviews， etc. These methods have low credibility， insufficient objectivity， low efficiency and waste of resources. In the case of rapid development of machine vision， machine vision and concentration recognition are combined to more intelligently and efficiently recognize concentration. This article reviews the research history and progress at home and abroad， and explains the facial recognition technology from two aspects： facial expression-based concentration recognition and behavior-based concentration recognition. Finally， it discusses the development trend of concentration recognition and provides a reference for the latecomers.

Key Words：Attentiveness; Machine vision; Face expression recognition;Behavior recognition

专注度识别有多种方法，例如，基于人脸表情识别的专注度识别和基于行为的专注度识别，其中基于面部表情的专注度识别是一个研究热点。人的情感是一个相当复杂的心理过程，每个人的情感表达也有很多方式，我们将情感的表达分成3类：表情、语言、动作。这3类中，语言和动作的欺诈行为的易操作性远远比人脸表情高，依靠表情表现出的信息更为可靠。基于面部表情的专注度识别就是利用摄像头来获取面部的表情特征信息，并通过计算机来进行解析，然后对解析结果进行专注度判别。此类技术具有非常巨大的应用前景，例如教育教学、安全驾驶、市场调查、产品评估、装备智能化等。

1 基于面部表情的专注度识别方法

情绪是一种主观认知经验的统称，会对人的记忆、感知、思维等活动产生影响，不同的情感状态会对专注度产生不同的影响，而不同的情感状态表现在不同的面部表情上，通过对表情的判断可以判别专注度的状态。随着科技的进步，数据的重要性越来越高，表情识别的数据库越来越丰富，各种研究机构也越来越多进入这一领域。

何秀玲等人[1]提出基于深度学习模型的自发学习表情识别，将课堂中的情绪分为5类，分别为困惑、快乐、疲倦、惊讶和中性。文中提出了一种融合局部几何特征、全局CLBP特征和CNN深度特征的特征提取方法;并构建了自發学习表情数据库，包含22名被测者共979张表情图像。文中算法在自建库中识别率为95.6%，并在中国化情绪图片系统和CK+库中分别达到了86.7%和96.3%，提高了识别率。

唐康[2]基于深度学习，将表情识别与课堂教学评价相结合，通过对人眼与头部姿态、唇部姿态等特征研究，定义了倾听、疑惑、理解、抗拒、不屑5种表情。通过对学习者表情的识别结合抬头率，实现对学生专注度的分析。

郭晓旭[3]将微表情技术与专注度相结合，提出了基于微表情识别的学生课堂专注度分析系统，采用了综合深度学习框架FATAUVA-Net[4]，将动作单元与效价唤醒空间相结合，通过学习者在愉快维的情感状态结合唤醒维和兴趣维的强度，实现对学习者的情绪识别，更全面地对学习者的学习状态进行评价，并分为注意力非常集中、集中、不集中、非常不集中4种状态。

徐振国[5]将学习者的情感表情分为常态、高兴、悲伤、惊恐、愤怒、专注、走神7种类型并采用卷积神经网络进行表情识别，同时同步采集与学习者情感对应的学习画面，建立学习画面情感图像库，探究了不同的画面和情感对学习者的影响。

2 基于行为的专注度识别

除了上述基于面部表情的专注度识别，基于行为的专注度也是研究热潮。通过对人的眼睛张合、哈欠、低头抬头、身体朝向等行为作为判断基准来判断专注度。以教育教学为例，主要列举了3种方法，一是以抬头低头为判断基准的专注度判别方法;二是以人眼张合度为判断基准的方法;三是结合面部和身体特征为判断基准的方法。

2.1 以抬头低头为判断基准的方法

学生课堂中的专注度识别是相当复杂的，这里取其中抬头低头作为识别专注度的一个标准，将大多数人的行为意向作为专注意向，当大多数人抬头的时候，低头的人专注度较低。

孙亚丽[6]将文献法、观察法统计法等相结合，在C++和OpenCV环境下编写了人脸检测程序，每50帧检测一次课堂中学生的抬头低头的情况，并适合学生成绩进行综合考虑，研究了不同同学的专注度差异和课堂中高专注度的时间段的分布。研究表明，在70～90分的分数段的学生的专注度最高，50～60分的分数段专注度最低，而90～100分的学生专注程度略低于70～90分的学生。这是由于90～100分的学生的学习能力和接受程度都偏高，通过较少的专注时间就接受了老师传授的知识，并且还总结出了每节课的专注度高峰期有3个，主要分布在课堂的前10 min、中段21～30 min和下课前的5 min。老师可以根据上述数据对不同层次的学生因材施教，使每个学生都得到最大程度的发展，提高教育的有效性。

但是这种判断基准仍然存在明显的缺点，光凭借抬头、低头对于学生的专注度识别来说还是不够准确，抬头的学生也有存在发呆走神的情况。

2.2 以人眼张合度为判断基准的方法

为弥补上述缺陷，在以抬头、低头为判断基准的基础上，段巨力[7]进行了改进，增加了在大多数同学抬头的情况下对于抬头的学生的人脸检测，在都是抬头无法判断是否有人专注度下降时，再通过眼睛张合度来判断每个学生的专注度。

在人脸定位之后进行对人眼的定位，通过矩形定位将不规则的人眼睛化为矩形，得到了矩形的长度和宽度，提高了算法效率，为计算人眼张合度提供便利。人眼的张合度就是指人眼张开程度[8]，眼睛睁得越大，眼球露出的面积就越大，人的专注度就越高，在人脸识别中，将人眼部分用矩形标识出来，用来计算张合度，其数学公式可以表示为：

（1）

式中，ZHD为人眼张合度，H为眼睛的高度，W为眼睛的宽度。

计算出人眼张合度后，将被测目标的人眼张合度与最大人眼张合度相比，得到的就是专注度（ZZD）。

通过对ZZD（专注度）值的判断来确认专注度的高低。在实验样本为一个班60人的情况下，这种算法对于专注度的准确率达到了92%，而传统的FB（特征绑定）专注度算法的準确率只有80%，大大提高了识别的准确率。但是仍然存在着问题，每个学生的数据过于庞大，需要逐帧分析学生的抬头、低头的有效次数;并且每个学生的眼睛大小不同，需要对每个学生建立数据库存储各自的数据，计算量巨大;同时对于图像的质量要求也很高，图像越清晰监测的效果就越好。

2.3 结合面部和身体特征为判断基准的方法

Janez Zaletelj与Andrej Ko?ir[9]使用Kinect One传感器获取数据特征，将面部特征与身体特征相结合，并设计训练了7个简单到复杂的分类器来判断注意状态，具体关系见图1。

实验人员为斯洛文尼亚一所公立大学的22名本科生。对于身体特征，Janez Zaletelj等人使用Kinect传感器在授课过程中记录了学生的视频和3D数据，并使用Matlab中的脚本Kin2 Toolbox for Matlab，实时特征提取了视频中的骨骼，并以矢量标记表示（以传感器为原点建立的坐标系）。对于面部特征，使用了Kinect SDK 2.0人脸跟踪引擎，并以教室左上角为原点建立坐标系来表示各个测试人的凝视点的位置，通过关系图对数据进行训练。

该方法的测试结果显示在短时间的专注度下降情况下，检测效果好，准确率达到0.753，但是在长时间的维持低专注度姿势时检测准确度只有0.55。

3 结论

在教育方面，前人的研究大多只是专注于提高学生的学习效率，而没有更多地将注意力集中于识别学生的专注度，将人脸专注度识别技术与教育相结合，将课堂上学生是否认真判断从老师主观判断中解放出来，将专注程度数据化、直观化、客观化，这是一种新型的创新领域。这种专注度的研究让老师更加了解学生的学情，能更高效地利用教师资源，更容易达到因材施教的目的，让每个学生都能得到最符合自身情况的教学，让老师可以更科学地授课，调动每个学生上课的积极性，提高学习效率。

人脸专注度识别是建立在人脸表情识别的基础上的，高速发展的人脸表情识别技术带动了专注度识别的发展，尽管经过几十年的努力，在人脸专注度识别方面已经取得了许多成果，但是各种算法仍还在摸索当中，还有许多需要改进的地方值得我们深究。

3.1 对于表情分辨的准确度和精细程度有待提高

人脸表情识别区别于人脸识别的地方是人脸识别注重于区别不同人脸的不同特征，面部表情是作为干扰信号存在，而人脸表情识别则是分辨一张人脸上的不同情绪导致面部的细微区别，个体差异反而变成了干扰因素。专注度是在表情识别的基础上再结合实际情况，对每个人的认真程度进行区分，这对于表情的分辨要求更高。对于人脸的情绪特征表示方法还需要进一步改进。

（2）降低外界对于图像识别准确率的干扰。在拍摄图像时，很难保证每张脸都是正对摄像头，总会存在偏转、被遮挡、光线干扰、与背景相似度过高等问题，需要在对图像进行预处理之前就先进行筛选，选出有效的图像进行识别，以降低计算机的计算量。

本文对人脸专注度识别进行了归纳与探讨，阐述了专注度识别中各步骤所采用的方法、原理和特点。研究了课堂情况下的学生的专注程度，介绍了几种不同基准下的识别学生专注程度的方法，并分析了几种方法的优缺点，为该领域的研究人员继续研究提供参考。

参考文献

[1] 何秀玲，高倩，李洋洋，等.基于深度学习模型的自发学习表情识别方法研究[J].计算机应用与软件，2019，36（3）：180-186.

[2] 唐康.人脸检测和表情识别研究及其在课堂教学评价中的应用[D].重庆师范大学，2019.

[3] 郭晓旭. 基于微表情识别的学生课堂专注度分析系统研究[D].云南师范大学，2019.

[4] Chang W Y， Hsu S H， Chien J H.Fatauva-net： An integrated deep learning framework for facial attribute recognition， action unit （au） detection， and valence-arousal estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop.2017.

[5] 徐振國.智慧学习环境中学习画面的情感识别及其应用[D].山东师范大学，2019.

[6] 孙亚丽.基于人脸检测的小学生课堂专注度研究[D].湖北师范大学，2016.

[7] 段巨力.基于机器视觉的学生上课专注度的分析评测系统[D].浙江工商大学，2018.

[8] 左国才，王海东，陈林书，等.基于人脸识别技术的现代学徒制学习效果评价研究[J].智能计算机与应用， 2019，9（2）：116-118.

[9] Zaletelj J ， Koir A . Predicting students' attention in the classroom from Kinect facial and body features[J]. Eurasip Journal on Image & Video Processing， 2017， 2017（1）：80.

①作者简介：孙帅成（1995—），男，硕士在读，研究方向为模式识别。

通信作者：刘瑞明（1975—），男，博士，教授，研究方向为模式识别与智能系统、智能控制、图像处理等方面， E-mail：raymondrmliu@126.com。