考虑噪声标签影响的驾驶员精神负荷状态评价*

2022-06-08 02:09彭晓燕

汽车工程 2022年5期

黄晶，彭扬，黄烨，彭晓燕

（湖南大学机械与运载工程学院，长沙 410082）

前言

驾驶车辆是一项复杂的任务，涉及到视觉、听觉、记忆和决策等多方面的因素，而这些因素都会对驾驶员的精神负荷产生影响。每位驾驶员能承受的精神负荷都是有极限的，适当的精神负荷对驾驶安全十分重要，精神负荷过高或过低，车辆驾驶绩效指标都会下降。有研究表明，精神负荷与工作绩效之间的关系呈“倒U”型。精神负荷一般可分为低负荷区、最佳负荷区和高负荷区。通常在最佳负荷区下，工作绩效表现最为良好，进入高精神负荷区后，工作绩效则开始下降，并对安全产生影响。而当精神负荷处于低负荷区时，则容易出现注意力不集中、警惕性降低等现象，同样影响工作绩效。

目前的研究中，常用的驾驶员精神负荷评价方法有主观评价法、驾驶员生理数据评价法和车辆行驶数据评价法等。主观评价法常使用主观工作量评估技术表（SWAT）和美国航空航天局任务负荷表（NASA-TLX）。NASA-TLX 表将负荷划分为6 个维度：精神需求、体力需求、时间需求、自身绩效、努力程度和挫败感。NASA-TLX 相比于SWAT 更具有优势，一方面是评价负荷的维度更多，另一方面是使用的场景更加广泛，也是最常用的主观评价方法。已经有很多研究使用了NASA-TLX 表，并证实了其有效性。驾驶员生理数据评价法是通过生理信号采集设备采集驾驶员生理信号，从中提取相关特征进行分析。常用的生理信号主要有脑电信号EEG、心电信号ECG、眼电信号EOG等，也有研究使用多种生理信号来进行精神负荷评价。车辆行驶数据评价法则是使用车速、加速度、横向位置和换道信息等数据对驾驶员的精神负荷进行评价。3 种评价方法各有其优缺点。主观评价法易于测试，实现成本较低，但一般需要驾驶员完成驾驶后再填写问卷，实时性较差，且容易受到驾驶员的主观感受的影响。生理数据和车辆行驶数据评价法可以在驾驶过程中采集数据，实时性好，但因不同驾驶员的生理特性具有差异，故采用生理数据评价法时，须谨慎设定精神负荷的界定阈值，而车辆行驶数据评价方法则容易受车型和道路状况的影响。

使用机器学习算法构建的驾驶员精神负荷评价模型性能的好坏，不仅与所使用的算法有关，也与制作的数据集有关。一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。其中，数据集噪声标签的检测与处理对机器学习模型的训练具有十分重要的工程应用价值。以往的研究通常直接以驾驶场景中有无次任务来定义精神负荷的分类标签，但是实验过程中，志愿者在正常驾驶情景下也可能会陷入自我思维中而导致自身精神负荷增加，且同一次任务对不同驾驶员精神负荷的影响也不尽相同。因此，完全根据驾驶场景来给定数据集标签可能会产生误差，即存在噪声标签。

本研究针对传统方法所制作的数据集可能存在噪声标签从而影响精神负荷评价模型训练效果的问题，设计并开展了驾驶模拟实验，采集驾驶志愿者的多维客观测量数据（心电信号、脑电信号、皮电信号），基于置信学习的方法，对驾驶员的精神负荷分类标签进行噪声检测，并修剪噪声标签数据，最后使用支持向量机、随机森林、K 近邻、多层感知机、决策树和逻辑回归等算法构建驾驶员精神负荷评价模型，分析噪声标签处理对各驾驶员精神负荷评价模型性能的提升效果。

1 数据采集与处理

1.1 实验设计

实验招募了20 名驾驶志愿者，年龄分布在22～25 岁之间，以减少年龄差异对实验结果的影响。所有驾驶志愿者都持有有效C1 驾驶证，视力正常，身体健康，无疾病史，并且在实验前一晚休息充分。实验中，使用的驾驶模拟设备为罗技G29驾驶模拟器，并通过UC-win/Road 建模软件生成所设定的驾驶环境和交通状况。通过该模拟器和软件，可以采集速度、加速度、横向偏差和转向盘转角等多种车辆运行数据。驾驶员生理信号采集设备选用的是BIOPAC公司的MP150-BioNomadix 型多导无线生理分析记录系统，可采集驾驶志愿者的心电、脑电、呼吸等生理信号，该采集设备为穿戴式，不会影响驾驶志愿者的驾驶操作。

本实验设置了两种典型的跟车驾驶场景，一种是直道跟车驾驶场景，另一种是弯道跟车驾驶场景，均为宽度为3.5 m的双向4车道，交通状况设置为自由流，交通密度大约为7 辆/km。前方的车辆速度保持在55 km/h 左右，距前车的初始距离为50 m。在直道和弯道场景下又都分别设置了有次任务驾驶场景和无次任务驾驶场景，因此共有4 种驾驶场景。驾驶过程中的次任务选择的是1-back 任务。选用NASA-TLX 主观负荷评价表，在每阶段实验结束后，让驾驶员填写评价表，对精神需求、体力需求、时间需求、自身绩效、努力程度、挫败感6 个维度进行评价，并取6 个维度评价的算术平均值作为最后主观负荷评价的结果。驾驶模拟实验设计如图1所示。

图1 驾驶模拟实验设计

实验可分为3 个主要阶段。首先向驾驶志愿者说明实验的步骤与要求，并让志愿者佩戴好生理信号采集设备，熟悉驾驶模拟器；然后让驾驶志愿者进行5 min 的静息调整，开始驾驶模拟实验；在每个场景下的驾驶结束后，填写NASA-TLX 主观负荷评价表，并保存相关的实验数据。

1.2 主观负荷评价分析

驾驶志愿者在直道正常驾驶、弯道正常驾驶、直道有次任务驾驶、弯道有次任务驾驶4 个场景下的NASA-TLX 主观负荷评价分数如表1 所示。由表可见，直道次任务驾驶场景下的平均评分比直道正常驾驶场景下的平均评分高1.87 倍；弯道次任务驾驶场景下的平均评分比弯道正常驾驶场景下的平均评分高1.99倍。

表1 NASA-TLX主观负荷评分（平均值±标准差）

考虑到主观负荷评分不符合正态分布，对不同驾驶场景下的主观评分进行Kruskal-wallis 非参数检验，结果如表2 所示。由表可见，次任务驾驶场景下的主观负荷评价分数与正常驾驶场景下的主观负荷评价分数相比，具有显著性差异（＜0.05），实验设计的次任务较为合理，能够有效地诱导驾驶员产生较高的精神负荷。

表2 不同驾驶场景下主观负荷评分的非参数检验

1.3 信号预处理与特征提取

实验中采集了驾驶员的脑电信号EEG、心电信号ECG 和皮电信号EDA 数据，由于生理信号比较微弱，容易受到外界因素的干扰。因此，本研究针对心电信号ECG 的基线漂移和工频噪声，分别采用带陷滤波器和零相位数字滤波器进行预处理：采用频率为50 Hz 的陷波滤波器对脑电信号EEG 进行滤波降噪处理，并基于离散小波变换DWT 与经验模态分解EMD 集合的方法去除脑电信号中的眼电伪迹；采用低通滤波器对皮电信号进行滤波处理。

考虑到生理信号的非线性，利用非线性动力学方法分析生理信号可以得到更完整的信息。本文在提取各信号的时域、频域特征的同时，使用混沌理论提取生理信号的非线性特征，包括微分熵、样本熵、近似熵、Higuchi 分形维数、L-Z 复杂度和Poincaré散点图等，如表3所示。

表3 初始提取的生理信号特征表

为了消除不同特征之间数量级和量纲的影响，对特征进行归一化处理，其计算公式为

式中：min()代表特征值的最小值；max()代表特征值的最大值。

1.4 特征选择

为消除冗余特征，降低模型计算成本，对初始提取的60 维特征进行卡方检验，消除与分类任务无关的特征。文中以0.05 作为显著水平，当卡方检验的值小于0.05 时，表明两组数据具有显著相关性。以心电信号为例，心电特征的卡方检验结果如表4所示，通过特征选择，最终去除了以下19 维不显著相关的特征：心电信号AVNN，RMSSD，SDSD，Mean_HR，Max_HR，LF_HF，SD1，SD1_SD2，CSI；脑电信号EEG_δ，EEG_mean，EEG_cv，EEG_LZCn；皮电信号EDA_min，EDA_cv，EDA_FD1，EDA_DE，EDA_HFD，EDA_LZCn等。

表4 心电特征的卡方检验结果

2 噪声标签检测与处理

在有监督学习中，训练数据标签质量的好坏对于模型的训练效果至关重要，如果用于模型训练的标签数据是错误的，就很难训练出一个有效的模型。数据标签的给定工作很多时候都需要人工参与，标签质量在某种程度上会受到人为主观因素的影响，甚至许多广泛使用的公开数据集中都包含有一定数量的噪声标签，因此在进行机器学习模型训练时，有必要考虑数据集噪声标签的影响。在制作驾驶员精神负荷数据集时，现有研究多以驾驶场景中有无次任务来给定驾驶员的精神负荷分类标签，这种方法没有考虑到驾驶员在正常驾驶情景下也有可能会陷入自我思维中而导致自身精神负荷增加的情况；此外，由于个体差异的影响，驾驶次任务对不同驾驶员精神负荷的影响并不相同，由传统方法所制作的数据集标签并不完全准确。

本文中置信学习（confidence learning，CL）表征、识别数据集中噪声标签，这种方法属于弱监督学习，它利用预测的概率和噪声标签来对未归一化置信联合中的样本进行计数，进而估计噪声标签与真实标签的联合分布，并据此结合所得类别标签的置信度高低进行排序，最终选择出噪声标签。

使用置信学习处理噪声标签主要包括以下3 个步骤：估计噪声标签和真实标签的联合分布；找出并过滤掉错误样本；重新训练。本文中使用支持向量机模型来对各类别进行预测，其噪声标签处理的工作流程如图2所示。

图2 使用置信学习处理噪声标签的工作流程

3 模型效果分析

为了验证噪声标签处理对各类驾驶员精神负荷评价模型性能的提升效果，本文中使用了驾驶员精神负荷研究方面常用的几种机器学习算法，如：支持向量机（SVM）、K 近邻（KNN）、多层感知机（MLP）、决策树（DT）、随机森林（RF）和逻辑回归（LR）等来构建评价模型。使用噪声标签处理前后的数据集分别进行模型的训练，对比各模型的性能表现。将数据集随机划分为训练集和测试集，其中训练集占80%，测试集占20%，然后再在训练集中划分出验证集和新的训练集，采用5 折交叉验证来进行评估，模型调参使用网格搜索和学习曲线。

对于机器学习分类模型，常用的模型评价指标为：准确率、查全率、查准率、分数和特异度等。其中，查准率表示所有被驾驶员精神负荷分类模型预测为高精神负荷的样本中，真正的高精神负荷样本所占的比例；查全率表示所有真实为高精神负荷的样本中，被预测正确的样本所占的比例；查准率和查全率两者此消彼长。分数是基于查全率和查准率的调和平均定义，可以同时兼顾查全率和查准率，分数的计算公式为

式中：为查准率；为查全率。分数在［0，1］之间分布，越接近于1，表示模型效果越好。文中使用准确率和分数作为模型性能的评价指标。

表5 为不同特征组合下，噪声标签处理前后驾驶员精神负荷分类模型的准确率和分数对比表，其中all 代表：ECG+EEG+EDA。由于实验制作的驾驶员精神负荷数据集的样本分布较为均衡，模型训练任务为二分类任务，故计算得到的分数与准确率较为相近。

对表5 进行横向对比可见，以单一类型特征作为模型输入的情况下，使用脑电信号时，模型的准确率和分数最高，其中，又以RF 算法模型的性能最好，噪声标签处理前其最高准确率和分数均为83.32%，处理后均为88.06%；使用两种特征组合作为模型输入时，模型的性能皆有提高，而将心电、脑电、皮电3 种特征融合所构建的驾驶员精神负荷模型的性能效果最好，其中，又以RF 算法模型的性能最好，噪声标签处理前其最高准确率和分数均为88.61%，处理后两者均为93.80%。可见使用多源信息特征作为模型的输入，有助于提高驾驶员精神负荷分类模型的性能。

对表5 进行纵向对比可见，使用置信学习进行噪声标签数据处理后，基于多种算法所构建的驾驶员精神负荷模型的准确率和分数均得到了一定的提高。图3 以性能最好的心电、脑电、皮电3 种特征融合所构建的驾驶员精神负荷分类模型为例，示出噪声标签处理后模型的准确率和分数的提升效果。从图中可以看出，在各类模型中，支持向量机模型的提升效果最好，其后依次为：逻辑回归模型、K近邻模型、多层感知机模型、随机森林模型、决策树模型。

表5 不同类型特征组合下噪声标签处理前后驾驶员精神负荷分类模型的准确率和F1分数对比 %

图3 心电、脑电、皮电特征组合下噪声标签处理后模型的准确率和F1分数提升效果图

4 结论

本文中通过实验设计诱导驾驶员在不同驾驶场景下产生不同的精神负荷，并采集驾驶员的多源生理信号。在此基础上构建了驾驶员精神负荷评价数据集，并使用置信学习方法对驾驶员精神负荷数据集中的噪声标签进行检测和修剪。最后采用驾驶员精神负荷研究领域常用的几种机器学习算法构建评价模型，对比分析噪声标签处理前后对提升各类模型性能的效果，得出结论如下。

（1）与使用单一类型的特征进行驾驶员精神负荷评价相比，使用多源信息特征后显著改善了驾驶员精神负荷分类模型的性能。

（2）对驾驶员精神负荷数据集的噪声标签进行处理后，基于各种机器算法构建的模型性能得到明显提升。其中支持向量机模型的提升效果最大，最高准确率和分数皆从87.05%提升到了93.13%，两者皆升高了6.08个百分点。

（3）目前驾驶员精神负荷评价实质上是对驾驶员的精神负荷状态进行分类，但是驾驶员的精神负荷本身并不是离散值，而是连续值，后续工作中将尝试寻找合适的指标来实现对驾驶员精神负荷的量化分析。