基于知识蒸馏与迁移学习结合的多模态音乐情感识别

2021-09-23 02:13刘华平梁晓晶高月洁
复旦学报(自然科学版) 2021年3期
关键词:模态音频模型

赵 剑,刘华平,梁晓晶,高月洁

(杭州网易云音乐科技有限公司 音视频实验室,上海 200080)

1 研究背景

音乐作品蕴含着丰富的人类情感,情感对于音乐情绪的传递、音乐的理解及欣赏等有着不可或缺的作用[1].随着互联网技术及人工智能的发展,数字音乐的数量呈爆炸式增长,面对海量的音乐作品,如何根据不同环境以及用户的不同心情推荐合适的音乐成为近些年研究的热点问题.在此背景下,音乐情感自动识别受到了越来越多的关注.

近年来,深度学习技术已经替代传统的统计学算法成为音乐情感自动识别领域的主流技术[2].音乐最主要的内容包括数字音频和歌词文本,目前对于音乐情感识别的研究也主要集中于这两方面.

相较于传统的统计学方法需要人工设计复杂的特征,深度学习可以从数据中自动学习最合适的特征表示.同时,受到深度学习在语音识别、机器翻译等领域的卓越表现的影响,Lidy[3]提出利用深度学习技术,基于音乐音频的情感识别方法,在MIREX(Music Information Retrieval Evaluation eXchange)音乐情感分类比赛任务中取得了优异的成绩.Byungsoo等[4]提出基于音乐音频及歌词的端到端多模态情感识别的二分类方法,并验证了该方法相比单一音乐音频与单一歌词音乐情感识别方法,其准确率有显著提升.Remi等[5]作者对多模态音乐情感识别中不同的时间段融合方法做了详细的对比实验验证,并验证了他们的中间融合方法比前置融合、后置融合的效果更佳.

2017年,陈晓鸥等[6]介绍了目前业界已有的CAL50、MIREX 2007 AMC、MediaEval Emotion in Music几种经典的音乐情感数据集.音乐情感数据集标注成本高且耗时,这方面的公开数据集的数据数量及质量皆不理想,许多数据集也存在情感类别不均衡的问题.本文研究基于知识蒸馏与迁移学习结合的多模态音乐情感识别方法,在标注数据量太少或者情感类别不均衡的情况下提高音乐情感识别的准确率.基于知识蒸馏的方法比如教师-学生模型在图像领域表现出了卓越的优越性,本文的知识蒸馏方法采用图1(见 第310页)所示的教师-学生模型.

图1 教师-学生模型的结构Fig.1 Architecture of teacher-student model

教师-学生模型采用图2(见 第310页)所示的基于音频及歌词的多模态神经网络结构,后面章节将详细介绍此网络结构.

图2 基于音频及歌词文本的多模态神经网络结构Fig.2 Architecture of multimodal neural network based on audio and lyrics

2 数据预处理

2.1 音频信号表示及预处理

Mel频谱是音频分类任务中常用的信号表示方法[7],相比其他的高级音频信号表示方法,其更完整地保留了音乐信号的特征,同时,Mel频谱更加符合人类的听觉特点,所以本文选取Mel频谱作为音乐音频分析的输入数据.

静音检测(Voice Activity Detection,VAD),即检测音乐信号中是否存在静音帧,存在静音帧的这些部分影响识别的结果.

音乐音频信号表示及预处理流程如图3所示.

2.2 歌词文本的词向量预表示

本文研究的数据集歌曲的歌词不仅包含中文还包括其他外文语种,为了兼容不同语种歌词,本文对外文歌词按特殊字符切词,中文歌词按字切词,这样避免了复杂的中文切词算法.词向量表示采用非静态(Non-static)的方式,以预训练的GloVe[8]词向量作为初始化的歌词词向量,模型训练过程中调整词向量.本文词向量的word_dim设为128,歌词最大长度max_length设为200.歌词文本的词向量预表示流程如图4所示.

图3 预处理流程Fig.3 Pretreatment of preprocess

图4 歌词词向量预表示Fig.4 Representation of word embedding

3 教师-学生模型与迁移学习方法

3.1 教师-学生模型

在标注数据较少及不均衡的情况下,本文利用图1所示教师-学生模型提高音乐情感识别的准确率.教师-学生模型采用已有的音乐曲风识别网络架构,分别采用曲风识别不同阶段的网络参数做迁移学习.同时,遵循教师网络推理性能通常优于学生网络的思想,本文的教师模型利用的曲风网络参数优于学生的网络参数.本文下一节将详细介绍此网络结构.

迁移学习一般采用两种方式进行知识迁移.其一,将预训练好的曲风网络结构作为情感识别的特征提取器,只训练后增加的部分情感识别网络.其二,将训练好的曲风网络结构与新增的网络一起参与训练.本文采用第2种方式.

教师网络不参与神经网络的反向传播,教师模型的参数(W)由学生模型的参数(w)指数滑动平均(Exponential Moving Average,EMA)得到,t时刻教师模型的参数表达式如下:

Wt=α×Wt-1+(1-α)×ωt.

(1)

其中:α代表衰减平滑率;wt代表t时刻的学生模型的参数.

教师-学生模型的损失函数fLoss由相对熵(Relative Entropy),即KL散度(Kullback-Leibler divergence)KL( )及分类交叉熵(Cross Entropy,CE)H( )两部分组成,λ控制相对熵的重要性:

fLoss=H( )+λKL( ).

(2)

对于同一个样本X,首先经过学生模型得到输出s,然后通过教师模型得到输出t,利用t和s计算KL损失,将梯度传回给学生模型,对s中的数据计算CE损失,根据这两部分损失函数,更新学生模型的参数,教师模型的参数通过学生模型参数指数滑动平均得到.

在训练过程中的每一轮迭代,输入样本X既包含带情感标记的样本也包含不带标记的样本,同时这些样本都经过增强处理,以提高情感数据的泛化能力.

3.2 数据增强

3.2.1 高斯噪声

歌曲在录制及传播过程中伴随有各种噪声.本文在音频预处理部分,对所有音频采用高斯噪声进行了音频噪声增强.

3.2.2 音频裁剪

假设依据不同的歌曲片段,人类依然可以判断出歌曲的情感.本文采用音频剪裁的平均长度为30 s.

3.2.3 音频混合

对不同的音频随机混合.假设一对音频样本(Xa,Xb),生成的混合样本为Xcom,生成的Xcom只用于计算KL损失,不考虑情感标签维度的混合.文献[9]同时做了标签维度的混合,生成混合标签数据Ycom,并用于计算CE损失:

Xcom=(1-γ)×Xa+γ×Xb,Ycom=(1-γ)×Ya+γ×Yb.

(3)

其中:γ为样本混合系数.

4 多模态网络结构

本文的教师-学生模型采用基于音频及歌词等文本的多模态神经网络结构,输入音频按固定长度被切割成N段,模型最后的情感标签输出由N段片段平均获得.

4.1 音频模型

我们利用2.1节的Mel频谱作为输入,Mel频谱是一个(时间长度,特征长度)2维矩阵,时间长度feature_len=1 024,特征长度mel_dim=128,这样输入样本的数量为1 024×128.针对情感数据少的问题,相比经典的ResNet/GoogLeNet/VGGNet等网络,本文设计了合适的轻量卷积神经网络,音频模型的网络如图5所示.卷积神经网络的可行性主要来源于生活中很多对象都有局部相关性,音乐中每帧信号并不是孤立的,而是各帧共同作用,将情绪传达给听众.

4.2 文本模型

本文所用歌曲的歌词信息、歌曲标题信息、专辑名文本等信息,文本最大长度max_length设为200,词向量维度word_dim设为128,歌词文本的词向量矩阵embedding_matrix为200×128的矩阵,embedding_matrix初始值如2.2节所述,词向量矩阵参与模型训练,文本模型的网络如图6所示.

图5 音频模型的网络Fig.5 Network of audio model

图6 文本模型的网络Fig.6 Network of text model

4.3 多模态模型

多模态模型我们复用单独音频及文本模型的结合,去掉各自全链接部分,将音频与文本模型特征后置拼接融合,情感标签预测结果是N分段的平均.模型的结构如图7所示.

图7 多模态网络的结构Fig.7 Structure of multimodal network

5 实验结果与分析

在第1节中已经介绍,目前现有的方法中多模态情感识别方法相比单一音频或歌词方法,具有显著的优越性.本文实验不关注这两类方法的对比,主要验证在情感标签数据较少及类别不均衡的情况下,本文提出的知识蒸馏与迁移学习对原有网络的提升.实验的数据集选用了20 000首已标注及未标注情感的歌曲.

5.1 实验的数据集

本文实验的数据集选用20 000首歌曲,曲目中有85%为华语歌曲,15%为英文歌曲;15 000首歌曲作为训练集,5 000首作为测试集.歌曲的情感被分成快乐、悲伤、抒情(不悲不喜)3个类别,本文采用音乐情感表达的离散模型,3个类别以离散互斥关系标注.训练集中每类别歌曲数目分别为6 000首(2 000首已标注,4 000首未标注),7 000首(4 000首已标注,3 000首未标注),2 000首(800首已标注,1 200首未标注),音频采用统一格式(wav格式,采样频率22 050 Hz,单声道).标注的数据由5名具有5年以上音乐教育经历的人员进行标注,超过3人同意的则为采纳的样本.训练集数据标注的情况如表1所示.

表1 训练集数据标注情况Tab.1 Labeling status in training data

5.2 方法对比

实验1 结合知识蒸馏的多模态方法与仅多模态方法的对比

本文将基于知识蒸馏的多模态方法与未引入知识蒸馏的多模态方法进行实验对比,以验证知识蒸馏方法在标注数据较少及类别不均衡的情况下,其训练集及测试集的识别准确率均表现出显著地提高.实验结果如表2所示.

上述实验证明,在结合知识蒸馏方法的教师-学生模型下,教师网络能够指导学生网络从已标注及未标注的情感数据中,学习出与教师网络一致的答案,同时教师网络基于学生网络不同阶段训练完成的模型的参数指数滑动平均,学习出最佳模型参数.从而结合知识蒸馏方法的多模态方法相比未结合的多模态方法,其准确率有了较大提高.

实验2 结合曲风迁移学习的知识蒸馏多模态方法与仅结合知识蒸馏的多模态方法对比

本文将结合歌曲曲风迁移学习的知识蒸馏多模态方法与普通结合知识蒸馏的多模态方法进行实验对比,实验结果如表3所示.

表2 实验1的结果Tab.2 Results of experiment 1

表3 实验2的结果Tab.3 Results of experiment 2

模型参数的初始值一般会影响模型是否陷入局部最优解,甚至导致模型无法求解出全局最优解.上述实验证明歌曲曲风的特征表示,在音乐情感识别中做迁移学习,具有较高的泛化能力,同时更好地跳出了局部最优解,在迭代次数较少的情况下,收敛到较高的准确率.

实验3 本文音频模型选用的轻量卷积神经网络与经典网络的对比

表4 采用不同卷积网络的实验对比Tab.4 Comparison of different convolution network

本文将选用的轻量卷积神经网络与经典网络进行对比,主要是为了说明在实际数据集下,选择设计合适的轻量卷积神经网络,比不采用经典网络所带来的泛化能力的提升.进行对比的两者未结合知识蒸馏及迁移学习,保证实验对比的独立性,实验结果如表4所示.

在训练集上采用经典ResNet网络的方法表现出较高的准确率,在测试集上其准确率下降得较多,说明在ResNet网络模型下存在过拟合,不能在整个数据集上具有泛化能力.

6 结 语

本文提出一种基于知识蒸馏与音乐曲风迁移学习结合的多模态方法.利用知识蒸馏教师-学生模型,挖掘出了未标记及已标记的情感数据在教师模型与学生模型间的一致性关系,提高了模型在情感标签数据较少及类别不均衡下的准确率.同时,利用从大数据学习到的歌曲曲风特征表示在音乐情感识别中迁移学习,在迭代次数较少的情况下,取得了较高的准确率,提高了训练过程中的收敛速度,证明了音频领域中的相关特征在情感识别任务中具有较好的效果.

未来工作需探索两个问题:情感标签在不同主体下判读的歧义性带来的训练及测试的不稳定性;研究不同任务大数据迁移学习对情感识别效果的影响,比如视觉任务.

猜你喜欢
模态音频模型
Egdon Heath (Extract from The Return of the Native)
适用于BDS-3 PPP的随机模型
联合仿真在某车型LGF/PP尾门模态仿真上的应用
自制空间站模型
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
柏韵音频举办Pureaudio 2021新产品发布会
开盘录音带音频资料的数字化
模型小览(二)
离散型随机变量分布列的两法则和三模型