利用卷积网络的高速列车主观声品质预测*

2022-09-16 09:12贾尚帅潘德阔阮沛霖
应用声学 2022年4期
关键词:响度主观受试者

贾尚帅 潘德阔 阮沛霖 郑 旭

(1 中车唐山机车车辆有限公司技术研究中心 唐山 063035)

(2 浙江大学能源工程学院 杭州 310027)

0 引言

随着高速列车速度的提升,车内噪声问题日益突出,这不仅会影响乘客的乘车体验,甚至会损害人体健康。高速列车车内噪声是多种复杂激励源共同作用下的宽频带噪声,且以中低频为主[1]。传统的A 计权声压级评价会对车内噪声水平造成一定的低估,导致结果与人的主观感受不相符。因此,国内外学者针对车内包括响度、尖锐度、粗糙度和抖动度等客观声品质参数开展了大量研究。Luo 等[2]针对高速列车车内声品质提出了一种自适应Moore响度算法(AMLA),该算法有效提升了计算的精度和效率。鞠龙华等[3]定量分析了车内强声环境下的语言清晰度,研究了运行速度与语言清晰度之间的关系。Park 等[4]研究了车内瞬态变化噪声的声品质参数,得出响度值不能充分评价瞬态噪声的结论。Li 等[5]通过语义细分方法,利用主成分分析对14个客观指标进行降维,获得了变电站噪声的主要噪声成分,并以此建立了主观评价预测回归模型。

为了进一步提升车内噪声评价的准确率,近年来支持向量机或人工智能算法结合主观评价的方法先后被运用到车内噪声的主客观预测研究中。申秀敏等[6]采用基于小样本理论的支持向量机回归方法建立了声品质客观参量与主观评价结果的预测模型。Fang 等[7]基于支持向量机方法,通过客观声品质和主观评价来研究电动车动力总成的声品质。Liu 等[8]将支持向量机和遗传算法结合,选择了5 个心理声学参数,以综合满意度指数作为主观评价标准,分析柴油机的噪声质量。Xing 等[9]采用小波包变换提取的加速特征作为输入,使用神经网络模型建立了响度和尖锐度的预测模型。Pietila等[10]比较了多元线性回归和神经网络方法的优缺点,探讨了鲁棒方法对提高声品质评价模型精确度的影响。Zhang 等[11]结合神经网络和粒子群优化算法提出了声品质的预测模型,解决了主观评价结果和客观声品质参数之间复杂的非线性问题。近年来,深度卷积神经网络(Convolutional neural network,CNN)在语声识别和计算机视觉领域取得了相当大的成功,因此Cao 等[12]将CNN 应用于城市噪声识别,其识别效果比传统的支持向量机更好。Huang 等[13]使用具有自适应学习速率树的深度卷积神经网络(ALRT-CNNs)进行纯电动汽车的非平稳车内噪声的主观评价预测,避免了固定学习率下的造成的局部最优解,从而反映非平稳噪声对人主观评价的影响。

高速列车车内噪声的时-频特性是动态变化的。然而现有的客观品质指标或者预测模型通常旨在通过单独考虑时域或频域来评价,很少能同时考虑声音的时-频变化特性,而声学主观评价的过程又会消耗大量的人力,因此,本文拟采用深度学习中的CNN 技术,研究建立预测精度高,且节省人力的高速列车车内声学主观声品质的预测模型。

1 高速列车车内噪声样本采集

为了获取高速列车在350 km/h 速度下的车内噪声样本,本文首先开展了高速列车车内噪声搭载实验研究。实验在我国徐州至南京的高速铁路上进行,测试车辆型号为CRH400BF。实验采用德国Head Acoustics 公司的声学人工头设备(HMS IV,以下简称人工头)。人工头考虑了人体肩膀、头部、耳廓等对声场造成的影响,能模拟双耳信号采集,从而使得采集的声音更加符合人耳的听觉感受。

车内噪声测点及人工头的布置根据ISO 3381:2005《铁路应用-声学-轨道车辆内部噪声测量》来进行。坐姿情况下,人工头的双耳高度放置在座椅的垂直坐标,即座椅表面与靠背表面交线以上0.75 m 的位置。站姿情况下,人工头人耳的垂直坐标在地面以上1.5 m 处。图1 为一等座和二等座车厢内人工头测点。本次实验采集了车内19 个测点的噪声数据,19个测点的位置如表1 所示,其中1~2为1 车,3~5为3车,6~8为4 车,9~11为4车与5车连接处,12~19为5车。每个测点记录时间为30 s。

图1 人工头及测点布置示意图Fig.1 Artificial head and measuring points

图2(a)为高速列车车内各测点的总声压级值,可以看出车内噪声强度较高,声压级普遍在65 dB(A)以上,其中10 号点风挡区域幅值最大,7号点二等座中部幅值最小。上述两点的声压级1/3倍频程频谱如图2(b)所示,可以看出高速列车车内不同区域的噪声特性相差较大,在80 Hz以上,风挡区域的噪声均高于二等座噪声。主要的原因是风挡区域位于车厢的连接处,容易受到两端转向架噪声的叠加影响,其高频噪声主要来源于转向架区域噪声。而车内低频噪声主要来源于地板的结构振动,因此7号点与10号点在低频80 Hz以下噪声幅值相差不大。

图2 高速列车车内噪声特性Fig.2 Noise characteristics of high-speed train

2 高速列车车内噪声主观评价实验

主观评价实验的主要步骤如图3所示。

图3 主观评价实验主要步骤Fig.3 Key steps of subjective evaluation

(1)噪声回放

从实验采集到的车厢内各测点声音信号中截取有代表性的样本进行主观评价实验和客观声品质分析。每段声音样本持续时间不宜过长,否则会引起被试者听声疲劳;也不宜太短,否则听声被试需要反复播放声音样本,影响主观评价的准确性。因此,本文主观评价声音样本时长定为5 s,并保证实验过程中的人为噪声不在所选的样本中。声音样本的截取在Head Artemis 软件中进行,以保证无损转换。

实验在专业听声室中进行,使用Head LabP2均衡器进行回放, 并搭配一对一标定过的Sennheiser HD600 型头戴式耳机,能够补偿听声设备在回放过程中的频响失真情况,并避免听声环境对评价结果产生影响。

(2)选择受试者及评价方法

本次评价实验征集了26名受试者,其中男女比例1:1,年龄在20~60 周岁之间,体重在50~90 kg之间,全部为听力正常者。因为受试者都有过较多乘坐火车和从事振动噪声研究工作的经验,主观评价方法采用语义辅助的等级评分法,相关介绍可参考文献[14]。舒适度评价等级表如表2所示。

表2 声品质主观评价等级评分表Table 2 Subjective evaluation scores with explanation

评价实验由每位受试者在消声室内单独进行。实验开始前,首先对每位受试者说明实验的目的,以及操作设备的方法。然后让每位受试者先进行试听并进行打分练习,熟悉打分过程。待受试者准备充分之后,对受试者播放19 个噪声样本(随机顺序),由受试者做出舒适度评价并记录。待19 个噪声样本播放完毕,获得第一组评分,再重复进行一次播放,然后获得第二组评分。

(3)评价结果分析

每位评价者对19个样本都进行了两次评价,针对每个评价者两次打分结果可以采用Spearman相关系数进行分析[15],其计算方法如下所示:

其中,r为Spearman相关系数,n是样本数,Xi和Yi分别是两变量的秩。

表3 为每位受试者的Spearman 相关系数。理想条件下,一个评价标准不变的受试者对同一样本应当做出相同评价,从而每位受试者两次评价之间的相关系数应当为1。根据相关文献[15],一般相关系数高于0.6就被认为具有比较强的相关性。其中5号、15号和22号受试者得出的评价结果相关系数低于0.6,说明其对同一样本得出评价的结果一致性较差,其主观评价稳定程度不够高,因此予以剔除。

表3 评价者Spearman 主观评价相关系数Table 3 Spearman correlation coefficients of each listener

主观评分结果如图4(a)所示,评价较低的区域主要集中在车厢之间连接处区域,其中10号点正好位于风挡区域,评分最低,临近的9 号和11 号点评价也较差;评价最高的区域则位于7 号点,位于二等座车厢中部。图4(b)展示了部分测点的统计结果,可以看出大部分评价者的评价分数都比较集中,如7 号点和10 号点。评价者的评分均较为集中,说明评价者对舒适性的评价标准较一致,但是1 号点司机室也存在评价相差较大的情况。对比主观评价结果和车内噪声A 计权声压级的结果可以看出,A 计权声压级最大的位置的评价最差,A 计权声压级最小的位置评价最好,说明A 计权方法在一定程度上能够预测主观评价的极值。但是对于车厢内的(如3 号点)二等座这样的位置却没有很好的预测效果,3 号点的A 计权声级比1 号点和2 号点都高,但是其评价却不是最低,甚至与1 号点评价相近。其主要原因可能在于3 号点的噪声频率分布特性以及动态时-频特性影响了受试者的评价,因此导致A 计权声压级不能取得较好的评价效果。

图4 主观评价结果Fig.4 Results of subjective evaluation

3 基于声品质客观参数的车内声学舒适性预测建模

3.1 客观声品质参数分析

客观声品质参数有很多,但是目前有国际统一标准的只有响度,而尖锐度则有德国标准,另外较常用的客观参数还有粗糙度和抖动度。为了研究声品质参数和声学舒适性主观评价的相关性,本文选取了响度(Moore-Glasberg 法)、尖锐度(DIN45692法)、粗糙度(Aures法)和抖动度(Fastl方法)这4 个声品质客观参数对车内噪声样本进行分析。响度计算使用Moore-Glasberg 方法可以直接利用快速傅里叶变换的结果,将每一个频率点都用于特征响度计算,响度结果更准确。尖锐度的计算需要考虑响度,因此为了减少指标之间的相互影响,尖锐度选择德国标准DIN45692 中的计算方法,其默认使用Zwicker 响度进行尖锐度计算。粗糙度和抖动度的计算方法没有统一标准,因此分别选择较为权威的Aures 方法和Fastl 的方法以减少影响。部分样本的声品质客观参数值如表4 所示。绘制出各声品质客观参数与主观评价结果的相关散点图,结果如图5所示。

表4 部分测点的客观声品质参数Table 4 Sound quality objective parameters of some measuring points

图5 主观评价与声品质客观参数散点回归图Fig.5 Scatterplots of subjective evaluation and sound quality objective parameters

基于Spearman 相关系数进行分析,进一步分析声品质主观评价与客观声品质参量之间的相关性,结果如表5 所示。从表5 可以看出,响度与车内噪声主观舒适性的负相关值最大,达到了-0.88,说明响度对主观评价影响较大,尖锐度和粗糙度次之,抖动度的负相关性最小。

表5 主观评价与各客观指标之间的相关性Table 5 Correlation between subjective evaluation results and sound quality objective parameters

3.2 BP神经网络预测模型

为了建立起客观声品质参数与主观声品质之间的映射关系,本文采用BP 神经网络,根据Spearman相关性分析的结果,选择响度、尖锐度、粗糙度、抖动度作为网络输入,以主观评价结果作为输出,研究建立基于声品质客观参数的车内声学舒适性预测模型。

图6 主观评价结果与BP 神经网络预测值Fig.6 Subjective evaluation results and BP neural network model prediction value

4 基于CNN的声品质预测模型研究

4.1 CNN

由于响度、尖锐度等心理声学参数只能表征噪声品质某个方面的特征,无法真实反映车内噪声的物理特性,所以基于上述参数的预测模型不能很好地指导车内声学舒适性的优化,且主观评价预测精度也还有待提高。

CNN 是用于图像识别等计算机视觉任务的算法模型。使用CNN构建主观评价预测模型,可以将车内噪声信号的时-频分布图作为输入参数,相较于传统使用时域或者频域得到的评价指标,可以同时考虑声音的时域和频域特性,增加模型的预测准确度。典型的CNN 由以下部件构成:输入层、卷积层、激励层、池化层、全连接层和输出层等。从输入到输出的中间进行处理的计算层都称之为隐含层,CNN中每个神经元的运算过程如下:

其中,act()表示激活函数,θ是对神经元加权值,b是加偏置。

卷积层是CNN 最重要的组成部分,通过卷积层对输入数据进行处理,一个卷积核能得到某一个特征。如果输入的数据的大小为w×h,卷积核的大小为k×k,输出的数据大小为w′×h′,步长为s,则输出和输入的关系如式(4)和式(5)所示:

由于经过多个卷积操作之后,会产生很大的数据量,将增加网络的训练难度。为了在减少计算量的同时防止过拟合的出现,可通过池化层进行降维,减少参数量。全连接层中每个神经元和上一层中的所有节点相连,会将传递过来的数据拉伸成n×1 的列向量,因此全连接层的参数也是最多的一层。

4.2 CNN配置参数

神经网络参数的选择并没有固定方法。一般说来,内核越多,过滤的类型也就越多,意味着预测效果越好;而层数越多,意味着CNN 模型更加完善。但是,内核和层数越多,消耗的计算资源也就越多,计算的时间也就越长,因此需要综合考虑。本文根据Ferreira 等[16]的相关文献设计了如图7 所示CNN主观预测模型。

图7 CNN 主观评价预测模型Fig.7 CNN prediction model

4.3 训练结果

考虑到CNN 模型所需的大量数据,每个车内噪声样本都分为多个1 s 的片段。因此,每个记录的350 km/h 时速车内噪声信号可被分成30个噪声样本(每个样本对应相同的主观评估得分),总共获得570 个噪声样本,将所有样本划分为80%的训练样本(456 个)以及20%的检验样本(114 个)。然后,将训练样本输入到CNN模型中,获得的结果如图8所示。从结果上看,在经过100次迭代之后,CNN模型的准确度达到了94.5%。同时表6 给出了准确度矩阵,从中可以看出准确度最低的地方出现在对于‘非常不适’的评价(91.1%)。

图8 训练过程和训练准确度Fig.8 Training progress and accuracy

表6 准确度矩阵Table 6 Accuracy matrix

相比于BP 神经网络,采用CNN进行主客观预测,准确度更高。该主客观预测模型一方面可以用于车内噪声主观评价预测,从而避免组织主观实验而浪费大量的人力和物力;另一方面由于模型输入是具有真实物理意义的声学时-频分布图,因此还可以指导高速列车车内声品质的优化设计。

5 结论

本文基于声学人工头设备,获取了高速列车在350 km/h速度下不同车厢、不同区域的双耳噪声样本,对车内的主客观声品质评价和预测进行了系统研究,主要结论如下:

(1)高速列车车内噪声存在明显的低频特性,不同区域的噪声幅值差别较大。噪声幅值最高的区域在风挡,最小的区域在客室中部。在客室内二等座一位端的噪声往往相对于中部以及二位端要高。

(2)根据A 计权声压级和主观评价结果,A 计权声压级可以很好地预测主观评价最好以及最差的区域,对于客室内二等座区域预测效果较不佳。原因可能在于客室内噪声的频率分布以及动态时-频特性会影响受试者的评价,因此导致A 计权声压级不能取得较好的评价效果。

(3)基于Spearman 相关系数分析了客观声品质参数与主观评价结果的相关性,发现主观评价分数与车内噪声的响度负相关系数最大,而与抖动度的负相关系数最小。

(4)建立了基于CNN 的声品质预测模型,将同时包含车内噪声时域和频域信息的时-频分布图作为模型输入,模型更具有真实物理意义,预测精度比BP 神经网络模型更高,更适宜用于指导高速列车车内声品质的优化设计。

猜你喜欢
响度主观受试者
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
浅谈新型冠状病毒疫情下药物Ⅰ期临床试验受试者的护理
一种自适应响度补偿算法在音频重放中的应用
疫情下普通患者应如何进行肺功能检查?
加一点儿主观感受的调料
后印象
挣多少钱,才可以买到快乐
调频广播响度控制的方法及技巧
数字电视节目响度标准化的探讨