基于跨模态的无监督影视剧说话人识别

2016-06-08 05:48库天锡杨卫星李雪蒙谭小琼

计算机应用与软件 2016年5期

关键词：影视剧音频聚类

冯　骋　库天锡　杨卫星　李雪蒙　谭小琼　梁　超

1(武汉大学国家多媒体工程技术研究中心　湖北武汉 430072)2(武汉大学计算机学院　湖北武汉 430072)

基于跨模态的无监督影视剧说话人识别

冯骋1,2库天锡2杨卫星2李雪蒙2谭小琼1,2梁超1,2

1(武汉大学国家多媒体工程技术研究中心湖北武汉 430072)2(武汉大学计算机学院湖北武汉 430072)

摘要现如今，影视剧的海量增长给其有效管理带来了巨大挑战，而其中的角色识别在影视剧内容管理中具有重大意义。传统的角色识别主要采用依赖于训练样本质量的有监督学习，而现实中一般难以获得充足的训练样本。针对影视剧中的角色识别，提出一种跨模态的无监督说话人识别方法：首先基于声学特征和时间近邻性的音频聚类获得对应聚类结果的音频标记序列；然后通过剧本解析获得对应说话人、说话内容、说话时间的文本标记序列；接着将音频序列与文本序列进行跨模态序列匹配，构造满射解出最小编辑距离，从而实现说话人识别。实验结果表明，在训练集较少的情况下该方法比有监督方法具有更高识别率。

关键词说话人识别说话人聚类编辑距离混合高斯模型序列匹配

0引言

现如今，日益蓬勃发展的电影电视行业导致了视频数据量的海量增长，2013年中国在线视频市场规模达135.9亿元，同比增长48%， 2012年至今，我国影视剧在各类型内容视频播放覆盖人数独占鳌头，最高达35 330万人，未来几年预计仍将保持较快增长的态势[1]。但是，如此庞大的视频内容却并没有与其易用性齐头并进，而是给存储和管理带来了严重的挑战。

因此，自动分析及检索在视频管理领域具有重大研究价值。影视剧中角色的出现和变化对于视频内容具有重要的指示性，因此影视剧中角色的识别对于影视剧内容的索引、管理具有重要意义；现有角色识别方法主要采取有监督的学习，其效果往往严重依赖于训练数据的获取；而现实中，一般难以获得充足的训练样本。为此，本文提出了一种跨模态的无监督说话人识别方法。

说话人识别技术是一项根据语音波形中反应说话人生理和行为特征的语音参数，自动识别说话人身份的技术[2]，近来在安全加密、银行信息电话查询服务、公安机关破案和法庭取证、多媒体检索等方面发挥着重要的作用。近五年说话人识别的研究重点集中在特征参数的提取与变换和模式匹配方法这两个方面：特征参数上，大部分是对线性预测倒谱系数(LPCC)，Mel频率倒谱系数(MFCC)和感知线性预测参数(PLP)等常用参数进行改良[3,4]；模式匹配上；学者倾向于综合模板匹配法、概率模型法、人工神经网络法等多种模型并对其进行改良[5-7]，最近几年开始深入研究的支持向量机SVM在说话人识别上也有较好的表现；还有一部分学者是以数据集的特点为切入点来进行研究，例如电话[8]或会议[9]场景的说话人识别等。目前大多数表现良好的方法均为有监督方法，图1给出了有监督说话人识别系统框架图，它需要取有代表性的训练数据集作为样本，通过选择特征参数，确定判别函数，据此进行分类。它的缺点是训练样本的选取和评估需花费较多的人力时间，而且训练样本的选取方式、数目多少等对于最终结果有着很大的影响。

图1　有监督说话人识别框架图

关于跨模态识别影视剧角色的研究始于2005年左右，目前已有的研究较少，且多是围绕视频[10-12]或图像识别[13-15]来开展工作：它能够发现视频中的场景结构[15]，完成角色识别[14]，甚至是学习角色的行为动作，尽管获得了较好的实验结果，但其方法大大依赖于训练数据集的质量和完整性。此外，还有少量的研究既不需要训练集也不需要字幕，而是基于聚类来识别角色的[16,17]。这其中基于音频开展的工作屈指可数，中文相关文献几乎为零。

1跨模态的无监督序列匹配框架

与上述方法进行对比研究后发现，通过视频进行影视剧角色分类往往受视频中人的体态、脸部表情、环境光照、复杂的背景等诸多影响，而有监督说话人识别太依赖于训练数据集的选取。因此，本文提出了一种全新的跨模态的无监督说话人识别方法，算法框架如图2所示。该方法综合利用了影视剧文本序列和音频序列这两种不同模态，且无需训练数据集，即可实现影视剧说话人识别。该方法主要分为三步：1) 音频聚类，包括语音信号的预处理、去噪处理、特征提取、聚类等步骤，生成对应聚类结果的音频标记序列；2) 剧本解析，生成对应说话人、说话内容、说话时间的文本标记序列；3) 将以上两种标记序列进行跨模态序列匹配。这三步缺一不可，紧密结合。

图2　无监督跨模态说话人识别算法流程图

除了提出这个全新的框架，在步骤1音频聚类上，根据影视剧音频独有的特点，本文提出了考虑声学特征和时间近邻性的混合高斯模型聚类；在步骤3跨模态序列匹配上，本文仔细甄选了距离度量算法，提出了全局序列匹配方法从而最优解析剧本和音频之间的关联性。以下将对步骤1和步骤3着重阐述，其他细节只在实验需要的地方进行说明。

2音频标记序列生成

传统的混合高斯模型聚类太依赖初始聚簇中心点，这样容易造成局部结果最优，而非全局结果最优。因此，本文采用一种改进的抽取聚类法来确保得到全局最优的结果，在选取初始聚簇中心点时采用加权均值向量，而非随机生成。此外，考虑到影视剧音频的背景下，由于输入的数据是影视剧中连续的音频，帧与帧之间不仅具有声学特征上的相似性，还具有时间近邻性，例如一大段连续的标号为1的帧，如果中间突然出现极少数的其他标号的帧，是不合常理的，因此需要把这些异常值剔除掉，使用κ(i,j)来综合考虑声学特征和时间关联性，公式如下：

(1)

3文本标记序列生成

影视剧中有剧本和字幕，剧本包含三大基本要素：场景、说话人、台词，字幕包含两大基本要素：台词和台词出现时间。将剧本和字幕的台词内容进行匹配，完成剧本解析，即可获得文本标记序列，同时也得到包含了说话人、台词、台词出现时间的事实库。图3展示了剧本-字幕匹配关系图。由于演员的表演有临场发挥性，所述台词并不严格按照剧本所写，加之字幕组与编剧不为同一人等原因，因此剧本台词和字幕台词存在差异，这些差异是导致无法正确进行剧本解析的关键因素。因此首先要对剧本文件和字幕文件进行校准，将差异化降到最低。本文采用了人工校准和程序判断结合，人工校准上采用人工对上述问题进行肉眼判断并更正，程序判断上使用正则表达式，利用python语言编译的程序，对剧本和字幕文件进行字符匹配，设定最高错误率门限为5%，当正确率低于95%时，程序无法通过，需人工校准，经过人工与程序的结合后，字符匹配的正确率均在97%以上，得到的文本序列存储于数据库中，一方面作为剧本解析后生成的文本标记序列，另一方面，作为事实库为后续实验方法的有效性评价提供依据和准则。

图3　剧本-字幕匹配关系图

4跨模态的标记序列匹配

音频中的音频序列和剧本中角色名字的序列构成了两种不同模态的时间序列。音频中的声音序列对应着相应的角色，它包含必然关联性：即一个簇中的声音序列均对应着同一个角色，并且有它特定的分布；剧本中角色名字的序列也有它自身的分布特点。全局序列匹配既能考虑到每个序列自身的分布相似性，又考察了音频序列与文本序列的全局距离。通过音频序列与文本序列的对应，就可以找到最优的说话人识别的答案。图4展示了跨模态序列匹配框架图。

图4　跨模态序列匹配框架图

4.1目标函数构建

Surjopt:A→B=argmin(LS,T(n,m))

4.2编辑距离算法

编辑距离，又称Levenshtein距离，它是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。定义LS,T(n,m)表示第一个序列S=s1,s2,…,sn的长度为n的子串到第二个序列T=t1,t2,…,tn的长度为m的子串的编辑距离。假设0≤i≤n，0≤j≤m，Del、Ins、Sub是删除、插入、替换的代价值。如果min(i,j)=0,那么LS,T(n,m)=max(i,j),否则：

(2)

本文采用了一个自底向上的编程方法去计算S与T的编辑距离LS,T(n,m)，它计算了声音序列与姓名序列之间的编辑距离并存储在一个矩阵里以防重复计算。如算法1所示，在这篇文章中，它被作为姓名序列与音频序列间的距离度量准则。且在音频和剧本的关系基本上就是一一对应的，有剧本台词就有说话对应的片段，几乎不需要上述的插入、删除、替换等编辑操作，这也是使用编辑距离算法的一大优点。

算法1编辑距离算法

输入：序列S，T，插入、删除、替换代价值Ins，Del，Sub

输出：编辑距离LS,T(n,m) Initialization LS,T(i,0)=i(0≤i≤n)；

LS,T(0,j)=j(0≤j≤m)；

for i from 1 to n

for j from 1 to m

if si==tj

LS,T(i,j)=LS,T(i-1,j-1);

else

LS,T(i,j)=min(LS,T(i-1,j)+Del,

LS,T(i,j-1)+Ins,LS,T(i-1,j-1))

end if

end for

Return LS,T(n,m);

5实验

本文选择了2个实验数据集：《老友记》第1季的24集剧集和《我爱我家》第1部前20集剧集。《老友记》每集大约出现8个角色，5个场景；《我爱我家》每集大约出现10个角色、7个场景。表1展示了数据集基本信息。实验主要基于matlab完成方法实现，并与基础音频聚类算法GMM、HMM+BIC和有监督分类方法SVM、KNN算法进行了对比。

表1　数据集基本信息汇总表

5.1实验步骤

本文首先基于matlab对本文所述理论方法进行实现。然后分别与有监督分类方法以及传统经典聚类算法进行对比。

本文在每个数据集各选择了10集剧集，经过Audition Converter和Adobe Audition提取相应音频。在实验中，本文忽略了音频信号时长少于5分钟、剧本中名字出现次数少于5次的角色，因为这些极少出现的角色并无代表性，反而可以视为一种干扰因素。具体步骤如下。

步骤一完成音频聚类，生成音频标记序列。细分步骤如下：

(1) 对语音信号进行预处理：通过传递函数为式(3)的一阶FIR高通滤波器实现预加重，其中，α为预加重系数，信号方程为式(4) ，在实验中取α=0.97。接着对语音信号分帧后再加窗。频域分析时采用汉明窗：

H(z)=1-αz-1

(3)

y(n)=x(n)-αx(n-1)

(4)

(2) 进行去噪处理：本文采用逆向思维法进行去噪，由于人声的声像位置位于整个声场的中央，首先将音频信号通过Adobe Audition的析取中置通道进行人声消除，然后将剩余音频做VAD(Voice activity detection)检测得出噪声段，最后从原始音频中屏蔽这些噪声段，最终得到有效音频信号，本文采用了基于能量和过零率的语音端点检测的两极判决法来实现VAD检测；

(3) 提取24维的MFCC+ΔMFCC特征，并使用主成分分析提取前95%重要率的特征；

(4) 如第2节所述，运用改进后的混合高斯模型进行音频聚类；

步骤二完成剧本解析，生成文本标记序列，具体如第3节所述。

步骤三根据编辑距离算法进行序列匹配，具体如第4节所述。

步骤四对实验结果进行评价。本文除了采用基本的准确率(precision)，召回率(recall)，还采用了F值(F-measure)、加权F值(weighted F-measure)如式(5)：

(5)

式中，wi是第i个角色根据说话量的大小所占权重。

步骤五对比实验。为了证明本文方法的有效性，首先，本文与音频聚类经典算法的效果进行对比，选取了基于混合高斯模型的聚类(GMM)以及基于隐马尔科夫模型与贝叶斯信息准则的聚类(HMM+BIC)，分别计算错误率DER(diarization error rate)对比。其次，本文与有监督分类方法的进行对比，选取了本文方法的最重要的前两个角色的加权F值与两种有监督方法支持向量机SVM和最邻近算法KNN进行了对比。实验结果如图5和表2所示。

图5　实验结果

数据集DER 聚类算法我爱我家老友记GMM32.326.2HMM+BIC25.920.8OURMETHOD19.415.7

5.2结果分析

跨模态无监督说话人识别结果如图5所示，其中，(a)、(c)、(e)来自《我爱我家》，(b)、(d)、(f)来自《老友记》，(a)、(b)展示了准确率(precision)、召回率(recall)以及F度量值(F-measure)，(c)、(d)展示了前3名主要角色的加权F度量值(weighted F-measure)，(e)、(f)展示了与有监督分类器的实验结果对比。所选聚簇数目为主要角色数目的0.5倍到4倍。从图中(a)、(b)可以看出，随着聚簇数量增多，聚类效果越来越好：随着聚簇数量增多，前期准确率逐渐提升，但到一定峰值之后，继续增加聚簇数量，准确率缓慢上升甚至稍有下降，原因是当聚簇数量增多，聚簇的纯度也随之增大，每一簇内的噪声有所下降。且准确率较高的时候召回率一般较低，这两个指标一般呈互补状态。从图中可以看出，《我爱我家》和《老友记》最佳的聚簇数目在主要角色的1.75倍和2.25倍左右，为了给出更详细的结果，统计了前3名主要角色的最终结果如图(c)、(d)，发现《我爱我家》前3名主要角色的加权F值的最大值分别为0.75、072、0.67，《老友记》前3名主要角色的加权F值的最大值分别为0.78、0.71、0.66，显示了不错的效果。但总体而言，《老友记》结果更好，因为《我爱我家》的场景切换、角色数目更多，剧集结构更加复杂，导致处理起来难度更高。

图(e)、(f)展示了与有监督方法的对比结果，横坐标定义为训练集与测试集数目的比率。在测试集数目一定的情况下，横坐标值越大说明训练集越大。由于本文方法为无监督方法，无需训练数据集，因此本文结果是一条平行于横坐标的直线。如图看出，当横坐标小于0.3时，有监督方法结果不佳，加权F值低于0.5，而本方法结果更好。众所周知，从海量视频数据中获取高质量、大容量的训练集需要耗费大量的时间和精力，尽管有监督的方法最终可以获得高达87%的识别率，但大数据时代增加了手工标记训练集的难度，因此，本文方法具有一定的实际意义。一般情况下，训练集容量和质量很难达不到获取高质量结果的要求，在这种训练集容量小或者质量差的情况下，本文方法比有监督方法具有明显优势。

表2展示了与音频聚类经典算法的错误率对比结果，对于影视剧音频这种比较复杂的数据集，单用传统的经典算法效果并不佳，本文方法在聚类的基础上进行了跨模态匹配，综合了音频序列和文本序列相关联的时间信息，由于序列本身的时间性提供的信息比统计信息更丰富，因此降低了错误率，可以看到，本文方法的错误率比经典聚类算法的错误率要低5%～12%，进一步说明了本文方法比经典聚类算法有所提升。

6结语

本文采用跨模态的思想，充分利用了影视剧音频和剧本，提出了一种全局的序列匹配方式，结合音频聚类，从而实现了跨模态的无监督影视剧说话人识别。实验与音频聚类经典算法以及有监督说话人识别经典算法进行了对比，本文方法在训练数据集不充分的情况下具有更大的优势。实验部分验证了算法的合理性和有效性。在未来可以结合视频、音频、文字信息等多种模态，来实现更优化的跨模态无监督说话人识别方法。

参考文献

[1] 艾瑞.2014年中国在线视频行业年度监测报告[R/OL].2014:10-24.http://report.iresearch.cn/2263.html.

[2] 张雪英.数字语音处理及matlab仿真[M].北京:电子工业出版社,2010:1-6.

[3] Alam Md,Jahangir,Kenny,et al.Low-variance Multitaper Mel-frequency Cepstral Coefficient Features for Speech and Speaker Recognition Systems[J].cognitive computation,2013,5(4):533-544.

[4] Mahmood Awais,Alsulaiman Mansour,Muhammad Ghulam.Automatic Speaker Recognition Using Multi-Directional Local Features (MDLF)[J].Arabian journal for science and engineering,2014,39(5):3799-3811.

[5] Jourani Reda,Daoudi Khalid,Andre-Obrecht Regine.Discriminative speaker recognition using large margin GMM[J].Neural computing & applications,2013,22(7):1329-1336.

[6] Ji Zhe,Hou Wei,Jin Xin.Duration Weighted Gaussian Mixture Model Supervector Modeling for Robust Speaker Recognition[C]//2013 Ninth International Conference on Natural Computation (ICNC2013).Shenyang:IEEE,2013:238-241.

[7] Ling Xinxing,Zhan Ling,Hong Zhao,et al.Speaker recognition system using the improved GMM-based clustering algorithm[C]//2010 International Conference on Intelligent Computing and Integrated Systems(ICISS2010).Gandhinagar:Springer,2010:482-485.

[8] Khoury E,Vesnicer B,Franco-Pedroso,et al.The 2013 Speaker Recognition Evaluation in Mobile Environment[C]//2013 International Conferences on Biometrics (ICB2013).Madrid:IEEE,2013.

[9] Hori Takaaki,Araki Shoko,Yoshioka,et al.Low-Latency Real-Time Meeting Recognition and Understanding Using Distant Microphones and Omni-Directional Camera[J].IEEE Transactions on audio speech and processing,2013,20(2):499-513.

[10] Berg T L,Berg A C,Edwards J,et al.Names and faces in the news[C]//Computer Vision and Pattern Recognition (CVPR).Washington D.C:IEEE,2004:848-854.

[11] Guillaumin M,Mensink T,Verbeek J,et al.Automatic face naming with caption-based supervision[C]//IEEE Conference on Computer Vision and Pattern Recognition.Anchorage:IEEE,2008:2030-2037.

[12] Ozkan D,Duygulu P.Interesting faces:A graph-based approach for finding people in news[J].Pattern Recognition,2010:43(5):1717-1735.

[13] Satoh S,Nakamura Y,Kanade T.Name-it:naming and detecting faces in news videos[J].IEEE Multimedia,1999:6(1):22-35.

[14] Everingham M,Sivic J,Zisserman A.Hello! my name is...buffy - automatic naming of characters in tv video[C]//Proceedings of the British Machine Conference. Edinburgh:Elsevier science BV,2006:889-908.

[15] Cour T,Jordan C,Miltsakaki E,et al.Movie/script:Alignment and parsing of video and text transcription[C]//10th European Conference on Computer Vision. Marseille:Springer,2008,5305(4):158-171.

[16] Chao Liang,Changsheng Xu,Jian Cheng,et al.Tvparser: An automatic tv video parsing method[C]//Computer Vision and Pattern Recognition (CVPR).Colorado Springs:IEEE,2011:3377-3384.

[17] Zhiqiang Tang,Yifan Zhang,Shuang Qiu,et al.Video face naming using global sequence alignment[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs:IEEE,2014:353-357.

CROSS-MODAL-BASED UNSUPERVISED SPEAKER RECOGNITION IN FILM AND TV DRAMA

Feng Cheng1,2Ku Tianxi2Yang Weixing2Li Xuemeng2Tan Xiaoqiong1,2Liang Chao1,2

1(NationalEngineeringResearchCenterforMultimediaSoftware,WuhanUniversity,Wuhan430072,Hubei,China)2(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China)

AbstractNowadays the explosive growth of film and TV dramas bring great challenges to their effective management, and in which the role recognition is of great significance in film and TV drama content management. Traditional role recognition mainly depends on the supervised learning of training sample quality, however in reality it is difficult to gain sufficient training samples. This paper proposes an unsupervised speaker recognition method which is based on cross-modal aiming at role recognition in films and TV dramas. The steps are as follows: First, based on acoustic features and audio clustering of time proximity we obtain the audio marking sequence of corresponding clustering result. Secondly, through scripts parsing we obtain the text marking sequence of corresponding speaker, speaking contents and speaking time. Finally we make cross-modal sequence alignment of these two sequences and construct the surjection to calculate minimum Levenshtein distance, so as to achieve speaker recognition. Experimental results show that under the circumstance of sparse training data sets this method has higher recognition rate than the supervised method.

KeywordsSpeaker recognitionSpeaker clusteringLevenshtein distanceGaussian mixture modelSequence alignment

收稿日期：2015-01-09。国家自然科学基金重点项目(61231015)。冯骋，硕士，主研领域：说话人识别。库天锡，本科。杨卫星，本科。李雪蒙，本科。谭小琼，博士。梁超，博士。

中图分类号TP3

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.033