基于机器学习的影视音效识别分类研究

2020-12-16 08:52杨嘉乐杨元元
电声技术 2020年7期
关键词:短时记忆梅尔音频

吴 昊,张 莹,杨嘉乐,杨元元

(上海大学上海电影学院,上海 200072)

在影视声音领域,商用音效库中的素材包含的内容繁多。常规的素材包括带有旋律性的音效、带有人声的音效、环境音效以及软件合成的非自然音效。在影视声音后期制作流程中,音效剪辑师需要对音效素材库中的海量素材进行筛选,选出合适的素材,然后在音频工作站中进行后期的加工处理。第一步是先根据画面罗列所需要的音效,在音效库中将带有相应标注的音效素材听一遍,筛选出与画面贴合的素材。虽然商业音效库会有商家根据音效内容进行详细的文本标注信息,但是音效库中素材会达到成百上千的级别。在这个筛选环节,完全依靠人耳进行听辨标注内容,消耗了剪辑师大量精力,且长时间的工作会导致听觉疲劳而出现判断失误。因此,迫切需要研究探索复杂音效素材的自动分类,以提高“听辨”环节的工作效率。

计算机听觉也可称为机器听觉,是一个面向数字音频和音乐,研究用计算机软件(主要是信号处理及机器学习)来分析和理解海量数字音频内容的算法和系统的学科。在计算机听觉中,识别一段音频内所发生的事件的种类被称为音频事件识别。孙陈影等人针对复杂的城市场景声源识别,提出了基于梅尔倒谱系数与卷积神经网络的识别模型,取得特征图后由卷积神经网络进行训练、测试获得卷积神经网络特征,最后由支持向量机(Support Vector Machine,SVM)分类器识别分类,并将其与常见的音频识别方法进行对比分析,发现其在识别速度和识别率上均有所优化[1]。李玲俐等人提出了一种基于梅尔倒谱系数和支持向量机(SVM)的方法,使用特征表示和学习优化共同来实现办公室10 种环境音的分类,通过改变梅尔倒谱系数参数的个数,更充分地表达声音的特征,结果表明优于传统的识别方法[2]。Ma 等人针对日常生活中的音频事件,提出了一个基于梅尔频率倒谱系数特征和隐马尔可夫分类模型的识别系统,识别准确率达到92%。用低带宽通信对分类器进行优化后,识别的准确率可以达到96%[3]。目前,专门应用于影视商用音效素材分类系统的研究内容甚少。张辛等人将机器学习的方法在广播电视行业进行应用,对4 000 多条音效素材提取梅尔倒谱系数、短时能量以及短时过零率建立声学特征集,实验研究了不同算法对声学特征集的识别准确率,提出了基于反向传播神经网络的音效分类原型系统[4]。

根据在实际工作中的经验,可以将音效大致分类成4 类——与人类行为相关的声音、机械运动相关的声音、自然界中的声音以及是否有能够清晰识别旋律的音乐存在。由于音效事件的多样性和复杂性,常规用于音乐和语音信号的机器学习的分类算法并不适用于音效分类。因为在不同环境的素材下会存在多个音效事件,且多种事件还会相互叠加、影响。因此,采用有效的特征提取方式以及建立高效、实用的机器学习算法,是实现音效素材自动分类的两个核心。本文主要针对音效类别中的环境音,提出了将机器学习应用于影视声音后期制作流程,采用梅尔频率倒谱系数及其差分短时能量和短时过零率3 类特征参数,将长短时记忆网络作为识别的分类模型,在有监督学习下训练出分类模型,从而为影视环境音素材识别分类系统的建立提供新思路。

1 分类系统框架设计

从实际应用的角度出发,一个完整的分类识别系统至少需要包括以下部分。第一部分是音频信号的采集,其中最常用的是麦克风的输入。第二部分是信号的预处理,通过麦克风采集到的数据经常是多个声源混杂在一起或是有多余噪声,需要进行预处理消除部分噪声,增强有用信号。第三部分是根据具体的识别需求提取音频信号的声学特征,最后将音频特征输入已经训练好的识别模型中输出分类的标签[5]。机器学习模型通常采用有监督学习,需要事先用标注好的已知数据进行训练。

基于上述要点,本文设计整个实验的分类系统框架图如图1 所示。由于本文使用的实验数据已经采集好,故实验首先输入预先标注好的训练集,然后提取数据集的声学特征。本文选取了梅尔倒谱系数与其差分参数、短时能量以及短时平均过零率作为声学特征,且在特征提取的过程中已经对声音信号进行了预处理。将特征输入到长短时记忆网络模型中进行训练,最后进行识别模型精度的验证。

1.1 特征提取

1.1.1 梅尔频率倒谱系数

特征提取过程对音频识别系统中的音频训练和识别有很大影响。梅尔倒谱系数是一种性能稳定和识别率高的典型声学特征。大量研究发现:当声波频率小于1 000 Hz 时,人耳的感知能力和频率成线性关系;当声波频率高于1 000 Hz 时,感知能力则与频率成对数关系。为了描述人耳这种对不同频率声音的感知特性,Davies 和Mermelstein 提出梅尔倒谱的概念[6]。梅尔频率倒谱系数是基于梅尔频率的概念所提出的,结合了人耳听觉仿生学原理和倒谱相关特性的梅尔频率倒谱系数,同时可以补偿卷积性信道的失真情况优化特征。梅尔倒谱系数的这些优点及众多的语音识别成功案例,使得梅尔频率倒谱系数成为目前常用的最有效的特征参数描述之一[7]。

梅尔倒谱系数的提取过程如下:先让音频素材通过一个高通滤波器进行预加重、补偿高频成分;对加重后的素材进行分帧,一般取10~20 ms 为一帧,并将每一帧代入加窗函数,以平滑单个信号帧两端的不连续性;对加窗后的帧经过快速傅里叶变换求出每帧的频谱参数;将得到的每帧的频谱参数通过梅尔滤波器组,对每个频带的输出取对数、做逆变换得到梅尔倒谱系数。这个参数就是这帧音频信号的特征。

大量的实验数据表明,在常规的梅尔倒谱系数特征中加入反映音频信号动态特性的差分参数,能够有效提高系统的识别性能。

差分参数的计算为:

式中:dt表示第t个一阶差分;Ct表示第t个倒谱系数;Q表示倒谱系数的阶数;K表示一阶导数的时间差,可取1 或2。将相关结果再代入式(1),就可以得到二阶差分的参数。

1.1.2 短时能量

假设声音音效素材的时域信号为x(n),加入窗函数w(n)进行分帧处理后得到的第i帧信号为yi(n),则yi(n)满足:

式中,n=1,2,…,L,i=1,2,…,fn,fn为分帧后的总帧数,L为帧长,inc为帧移长度。

1.1.3 短时平均过零率

给定声音素材的波形时域信号为x(n),加窗函数w(n)经过分帧处理后得到的第i帧信号为yi(n),帧长为L,则短时平均过零率z(i)为:

1.2 长短时记忆网络模型

与常见的神经网络不同,循环神经网络具有独特的结构,即隐藏层的输出将作为输入反复迭代,这意味着隐藏层在一段时间内与其自身具有自连接特性。因此,循环神经网络在处理时序相关数据方面具有很强的能力。然而,由于在模型训练期间网络层数的增多会产生梯度消失或梯度爆炸等问题。长短时记忆网络模型就是为了解决循环神经网络模型梯度弥散的问题而提出的。由于独特的设计结构,长短时记忆网络特别适合于处理时序间隔和延迟非常长的任务。因为在时序数据中的重要事件之间可能存在持续时间的滞后,而长短时记忆网络对间隙长度的相对不敏感性,可以很好地获取到时序数据中的信息特征。

长短时记忆网络的基础结构如图2 所示。长短时记忆网络的神经元通过取代传统循环神经网络的隐藏神经元来构建隐藏层。长短时记忆网络由4 部分组成的,即单元状态和用于控制和保护单元状态3 个门函数——输入门、遗忘门以及输出门。在单元状态中,通过当前输入、上一个隐藏层信息、上一个单元信息以及3 个门函数来共同控制信息的增减。门是一种有选择性地让信息传递下去的方式,由一个Sigmoid 函数和一个点乘法的计算组成。这种结构确保长短时记忆网络的神经元具有发现和记忆长期依赖性的能力。

具体来说,假设隐藏单元个数为h,给定时间t的小批量输入Xt∈Rn×d(样本数为n,输入个数为d)和上一时间步隐藏状态Ht-1∈Rn×h。时间t的输入门It∈Rn×h、遗忘门Ft∈Rn×h和输出门Ot∈Rn×h分别计算如下:

2 实验过程

2.1 实验素材的选取

本文选取的实验数据是取自Google 在IEEE ICASSP 2017 大会上公开发布的Audioset 数据集[8]。AudioSet 包含了632 类的音频类别和2 084 320 条人工标记的每段10 s 长度的声音剪辑片段。该数据集覆盖了大范围的人类与动物声音、乐器与音乐流派声音以及日常的环境声音。本文主要使用其中的人群欢呼声、交通声、风声、海浪声以及鸟叫声作为实验数据集,每个类别的数据分别为200 条。在Audioset 中的数字id 分别为/m/03qtwd、/m/0btq2、/m/05kq4、/m/03mdz 以及/m/020bb7。该数据集包括了在影视声音制作流程中使用率较高的音频事件。在数据集中,每个种类中的音频片段并不是单独的音频事件,可能包含多个音频事件的标签。

2.2 网络结构的搭建

在大数据量的情况下,考虑到实验环境的硬件设备条件有限,进行一次完整的训练需要耗费大量时间,因为对所有会影响模型的参数组合进行枚举一一评估是不现实的。因此,长短时记忆网络需要权衡模型中的重要参数(如隐藏层数、神经元数量、dropout),以平衡各方面的训练效果。

实验开始前,随机拆分输入的实验集,将实验集分为训练集(90%的数据)和测试集(10%的数据),确保训练集和测试集没有重叠。通过Matlab分别提取训练集和测试集的梅尔倒谱系数及其差分、短时过零率和短时能量的特征向量,单个音频片段的波形、短时能量以及短时平均过零率如图3所示。

隐藏层是对输入特征的多层次抽象。为了更好地划分特征数据的类型,隐藏层的数量选择主要是从识别准确率、损失函数以及完整训练时间3 方面进行考虑。在保持其他参数不变的情况下更改隐含层数量,可验证模型在训练时间上基本没有差别。在隐藏层数量为2 时,识别准确率和损失函数的结果最理想。

进一步的优化是确立隐藏层中的神经元数量。神经元节点太多会大幅增加训练时间,还可能会出现过拟合现象。通过对比验证后,确定设置本实验中的神经元数为200。

dropout 是指在训练过程中会按照一定的概率将神经元单位暂时从网络中丢弃,因为每一次训练都是在训练新的神经网络结构,所以可以有效防止训练中出现过拟合现象。经过对比试验,不同的dropout 参数的选取对训练时间的影响意义不大。在dropout 为50%时,识别准确率和损失函数的结果最理想。

经过分析对比,本文设计的识别网络主要参数如下:输入特征集的向量维度为40 维,其中梅尔倒谱系数及其差分占38 维,短时能量和短时过零率各占1 维;输出维度5;网络结构第1 层为特征向量输入层;第2、3层为长短时记忆网络结构的隐藏层,每个隐藏层包含有200 个神经元单位,dropout 为50%;最后一层为全连接输出层,与softmax 结合输出分类结果。

3 实验结果分析

本文主要的目的是通过机器学习实现对影视声音制作中常用的环境声素材的识别。实验在Matlab 2020a 中运行,实验的训练和测试结果曲线如图4 所示。

从图4 的训练曲线可以看出:经过多轮迭代训练后,训练集的识别率达到了93.2%,而测试集的识别率为81.3%,训练集的损失率在不断降低,测试集的损失率在减少到一定程度后开始提高,最后在1 附近波动。虽然从最后的识别率上看,该识别模型可以达到初步的要求,但综合训练曲线和损失曲线的走向分析,产生了训练网络的过拟合现象。综合训练集和识别模型分析,原因在于选取的Audioset 数据集是源于YouTube 上的真实音频片段,音频片段之间的差别十分明显。但是,这个情况与实际中的应用场景是相类似的。因此,解决的办法是进一步优化提取到的音频特征参数,使其能够更好地表达标签特征。此外,增大实验的数据量也可以解决过拟合现象。整个训练和测试过程耗时超过5 min,参照对比目前已经被广泛运用的语音识别系统的实时率,需要更进一步优化训练网络的结构,在确保高识别率的情况下,缩短训练时间。

4 结语

本文选取的是影视环境声素材中最常用到的5类事件,然而在实际工作中所使用音频素材的标签远不止于这5 类,因此在未来的实验优化中需要加入更多的音频标签训练集,以涵盖实际工作中绝大多数音频素材为目的。在环境声的音效素材中往往包含多个标签,建立多标签的识别系统可以更好地匹配工作中的使用需求。本文将机器学习的分类模型运用于影视声音制作,通过提取音频素材的梅尔倒谱系数、短时能量和短时过零率的特征参数,经过训练后的长短时记忆网络模型准确率达到了81.3%,可为以后建立音效分类识别系统提供思路。但是,本文搭建的识别模型仍然还有局限性与不足,以后还需要持续改进或者结合其他识别网络如将卷积神经网络与长短时记忆网络结合[9]进行优化。

猜你喜欢
短时记忆梅尔音频
基于长短时记忆神经网络的动力电池剩余容量预测方法
柏韵音频举办Pureaudio 2021新产品发布会
开盘录音带音频资料的数字化
梅尔维尔鲸
“熊”视眈眈
吉林大学考古与艺术博物馆观众短时记忆调查报告
英语听力理解与短时记忆
一米菜园
短时记忆理论的影响
Pro Tools音频剪辑及修正