基于改进时频比的语音音乐信号分离

2015-02-20 08:16于凤芹
计算机工程 2015年3期
关键词:源点时频特征向量

郭 伟,于凤芹

(江南大学物联网工程学院,江苏无锡214122)

基于改进时频比的语音音乐信号分离

郭 伟,于凤芹

(江南大学物联网工程学院,江苏无锡214122)

时频比是混合信号在时频域幅值特性的比值,利用时频比寻找混合信号中的单源点,对相应的比值构成的矩阵求逆可以得到对源信号的估计。针对基于时频比的盲源分离将信号变换到时频域后计算量大且对算法有效的时频窗较少的问题,提出用重复结构周期内的时频点代替整个时频域进行单源点的检测,重复结构内的时频点在每个周期内都有相似的值,通过减少一个周期内时频点的检测,由单源点对应的时频比恢复出源信号。用相似系数矩阵评价分离效果,仿真实验结果表明,在达到几乎相同的相似系数的情况下,运行时间可减少45.43%,可有效降低运算量。

时频比;单源点;线性时频变换;重复结构;节拍谱;语音音乐信号分离

1 概述

盲源分离是在不知道先验知识的情况下,根据源信号统计特性从混合信号分离出源信号的过程,语音和音乐信号的分离可应用于说话人的识别与检测、仪器识别、音乐旋律提取、乐谱转录等[1]。音乐信号通常都表现出较强的自相似性,因而有一些重复类型或重复结构,音乐的重复可表现在旋律、节奏、歌词和编曲这4个方面,重复结构的提取可用于音乐摘要、音乐检索和音乐恢复[2]。通过音乐信号任意2个片段之间的相似性组成的二维相似矩阵可视化音乐信号的重复结构,相似矩阵可以通过MFCC、时频谱图或音乐信号的特征得到,可用来定位局部跳变点或者计算节拍谱[3],节拍谱最大值对应的时间定义为音乐重复结构的周期,音乐信号在具有重复结构的时频块中具有相似的值[4]。

基于时频比的盲源分离是通过检测时频单源点对应的比值恢复出源信号[5],文献[6]提出基于时频比的算法,对观测信号进行短时傅里叶变换,计算恒定时间或恒定频率的相邻几个时频窗的时频比,用互相关系数最大或均方差最小方法寻找单源点。文献[7]针对时延混合系统,提出在恒定时

间情况下的时频比算法,将方差的均值按升序排列,最小均值对应的时频点就是最佳单源分析域。文献[8]对观测信号进行小波包变换增大信号的稀疏程度。文献[9]利用S变换构造时频比矩阵,获得多分辨率特性。文献[10]先去除能量较小的时频点,再根据实部与虚部的比值分别相等判断单源点。基于时频比的盲源分离将信号变换到时频域后,计算量大且对算法有效的时频窗比较少,本文提出缩小单源分析域的搜索范围,根据重复结构内的时频点在每个周期内具有相似的值,选择包含一个重复结构周期的时频域来代替整个时频域检测单源点,减少计算量。

2 算法原理

2.1 基于相似矩阵的重复结构

相似矩阵的自相似性称为节拍谱[11],反映了节拍的周期性变化规律,节拍谱的峰值对应着重复时刻。节拍谱的计算分为3个步骤:(1)将音频信号以频谱等形式表示为特征向量组成的序列; (2)计算2个特征向量之间的相似度,得到相似矩阵;(3)计算相似矩阵的对角线和或自相关,观察相似矩阵的周期性。本文的节拍谱是对信号进行短时傅里叶变换,以每帧信号的幅度谱作为特征向量进行相似性计算。对混合信号作短时傅里叶变换,混合信号的幅度谱记作V。利用特征向量的夹角余弦参数描述相似性,相似矩阵定义为:

其中,V(i)和V(j)分别为第i帧和第j帧特征向量,以角度的余弦参数作为相似性测度,在向量幅值较小的情况下仍然可以得到较大的相似度。节拍谱可通过计算相似矩阵对角线方向元素之和得到:

其中,C(0)是主对角线元素之和;C(1)是上对角线元素之和,依次计算C(l)的各个元素。另一种计算节拍谱更为稳健的方法是计算相似矩阵的自相关:

其中,C(k,l)为对称矩阵,只需按行或者列相加,就可得到节拍谱C(l);重复结构的周期定义为节拍谱中最大值对应的时间,记为p,包含重复结构的时频块在每个周期内都有相似的值。图1所示是语音信号、音乐信号和语音音乐的混合信号的节拍谱。

图1 3种信号的节拍谱

图1(a)中语音信号的节拍谱没有周期性的规律。图1(b)中音乐信号和图1(c)中语音音乐的混合信号的节拍谱周期性地形成了峰值,而且两者的节拍谱比较接近。由图1可以看出,将语音和音乐信号混合之后,混合信号中具有重复结构。

2.2 基于时频比改进的盲源分离

在得到时频比值之后,检测单源区域,本文考虑恒定频率、相邻时间点构成的时频窗,这些相邻的时频窗称为分析域,计算每一个分析域中的均值:

其中,M为分析域中时频窗的个数,之后计算方差:

3 算法实现步骤

基于时频比改进的语音音乐信号盲分离算法具体步骤为:

(1)对混合信号进行短时傅里叶变换,从第一路混合信号开始计算每一路与第一路混合信号的时频比值。

(2)计算幅度谱V中的各帧信号之间的相似性,得到相似矩阵,利用式(3)计算节拍谱,得到重复结构周期p。

(3)以恒定频率、相邻时间点的时频窗为分析域,选取包含一个重复结构周期p的分析域,将分析域按方差的升序排列,将方差最小对应的分析域作为第一个单源区域,确定分离矩阵的第一列。

(5)对时频矩阵B求逆,求源信号的估计y=B-1x(t)。

4 仿真实验结果与分析

图2 源信号时域波形图

对混合信号进行短时傅里叶变换,选取窗长为128的汉明窗,2帧之间的重叠75%,计算混合信号的频谱。以幅度谱为特征向量,计算每个特征向量之间的相似性,相似矩阵主对角线计算的是每个特征向量的自相似性,相似值最大,为1,越接近于1的值代表对应的2个特征向量之间的相似性越大。计算节拍谱,混合信号周期性地形成了峰值,如图3所示。

图3 混合信号的节拍谱

在第2 398帧处,节拍谱的峰值最大,此值对应的时间为重复结构的周期。将恒定频率,相邻10个时间点的时频窗作为一个分析域,相邻分析域的重复率为50%,一共998个分析域,选取第1个~第480个分析域,这些分析域包含了一个完整的重复结构周期,然后检测单源点,在得到全部的时频比的列后,对时频比矩阵求逆并求得对源信号的估计,分离信号时域波形如图4所示,从图2和图4的波形对比可以看出,本文方法较好地分离出了源信号。

图4 分离信号时域波形图

评价分离效果的性能指标有相似系数矩阵和信干比[13],第i路分离输出信号yi与第j路输入信号sj的相似系数计算公式如下:

当ri,j≈1时,yi是sj的较好估计,由于在盲源分离中,分离信号存在幅度与顺序的差异,当相似系数矩阵每行每列都有且仅有一个元素接近于1,其他元素都接近于0时,认为该算法分离效果较为理想。分离后信号与源信号之间信干比(SIR)的定义式为:

将分离信号与源信号之间的差值作为干扰信号,分离后计算出的信干比数值越大,分离效果越好。

用本文方法进行语音和音乐信号的分离,并与原方法进行比较,实验结果如表1所示。

表1 改进前后算法性能对比

理论上时频比矩阵的值为:

从表1可以看出,改进前后算法时频比矩阵的值均较为接近理论值,分离效果也比较好,但改进后算法选取了一部分时频窗进行计算,时间明显降低。

在语音信号和音乐信号分别以-10 dB,-5 dB, 0 dB,5 dB,10 dB,混合的情况下计算SIR和相似系数矩阵,实验结果如表2所示。

表2 语音音乐信号在不同混合比例下的性能指标对比

从表2可以看出,语音-音乐混合比变化时,虽然相似系数矩阵的值变化不大,但是SIR变化比较明显,当语音-音乐混合比越大,SIR的值越大,分离效果越好。算法主要是寻找单源域对应的时频比,当信号稀疏性较好时,算法的性能越好,音乐信号在经过时频变换后稀疏性低于语音信号,当混合信号中音乐信号的比重越小,混合信号与语音信号就更为接近,信号的稀疏性越好,分离效果也越好。

观察源信号数目增加对分离结果的影响,分别在源信号数为2个、3个、4个、5个的情况下计算信干比,实验结果如表3所示。

表3 不同源信号数下的分离情况对比

从表3可以看出,当源信号的数目增加时,SIR的值呈下降趋势,即分离效果越差,因为随着源信号数目的增加,信号在时频域单独出现的几率减小,所以在时频域上从混合信号中寻找单个源信号就更加困难。

5 结束语

本文利用重复结构来改进基于时频比的盲源分离算法,选取包含一个重复结构周期的分析域代替整个时频域来检测单源点。仿真实验结果表明,在达到同等分离效果的情况下,改进后算法检测的时频窗减少了51.90%,运行时间减少了56.72%,有效地降低了运算量。

[1]Hsu Chao-Ling,Wang Deliang.A Tandem Algorithm for Singing Pitch Extraction and Voice Separation from Music Accompaniment[J].IEEETransactionson Audio,Speech,and Language Processing,2012,20(5): 1482-1491.

[2]Lie L,Mu Y W.Repeating Pattern Discovery and Structure Analysis from Acoustic Music Data[C]// Proceedings ofthe 6thACMSIGMMInternational WorkshoponMultimediaInformationRetrieval.New York,USA:ACM Press,2004:275-282.

[3]Antoine L,Zafar R.Adaptive Filtering for Music/Voice SeparationExploitingtheRepeatingMusicalStructure[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Kyoto, Japan:[s.n.],2012:53-56.

[4]Zafar R,Bryan P.A Simple Music/Voice Separation Method Based on the Extraction of the Repeating MusicalStructure[C]//ProceedingsofIEEE International ConferenceonAcoustics,Speechand Signal Processing.Prague,Czechoslovakia:[s.n.], 2011:221-224.

[5]Lu Fengbo,Huang Zhitao,Jiang Wenli.Underdetermined Blind SeparationofNon-disjointSignalsinTimefrequency Domain Based on Matrix Diagonalization[J].Signal Processing,2011,91(7):1568-1577.

[6]Puigt M,Deville Y.Time-frequency Ratio-based Blind Separation Methods for Attenuated and Time-delayed Sources[J].Mechanical Systems and Signal Processing, 2005,19(6):1348-1379.

[7]Deville Y,Puigt M.Two Time-frequency Ratio-based Blind Source Separation Methods forTime-delayed Mixtures[C]//Proceedings of the 6th International Conference on Independent Component Analysis and Blind Signal Separation.Charleston,USA:[s.n.], 2006:682-690.

[8]Li Yuanqing,Amari S.Underdetermined Blind Source Separation Based on Sparse Representation[J].IEEE Transactions onSignalProcessing,2006,54(2): 423-437.

[9]郭 靖,曾孝平.盲源分离的一种时频比方法[J].计算机工程与应用,2010,46(30):23-29.

[10]任喜顺,沈越泓,高 猛,等.基于时频分析的混合矩阵估计方法[J].信号处理,2012,28(4):545-553.

[11]尹琦卿,刘若伦.基于节奏的鼓声识别[J].软件导刊, 2013,12(6):140-143.

[12]Puigt M,Deville Y.Iterative-shift Cluster-based Timefrequency BBS for Fractional-time-delay Mixtures[C]// Proceedings of the 8th International Conference on Independent Component Analysis and Signal Separation.Paraty,Brazil:[s.n.],2009:15-18.

[13]刘 琚,孙建德,许宏吉.盲信号处理理论与应用[M].北京:科学出版社,2012.

编辑 顾逸斐

Speech-music Signal Separation Based on Improved Time-frequency Ratio

GUO Wei,YU Fengqin
(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)

Time-frequency ratio is the ratio of mixed signals’amplitudes in time-frequency domain.The inversion of the matrix composing of the corresponding time-frequency ratios which is gotten from single source points in mixed signals can obtain the estimate of the source signals.Blind source separation based on time-frequency ratio has a large amount of calculation and small number of effective time-frequency windows after transforming the signals to the timefrequency domain.Time-frequency bins comprising the repeating patterns have similar values at each period.According to this characteristic,analysis zones including a repeating period are used to detect single source points instead of the whole time-frequency domain.Using similarity coefficient matrix as the separation effect standard,simulation experimental results show that the proposed method can reduce 45.43%of time with the same separation accuracy.

time-frequency ratio;single source point;linear time-frequency transform;repeating structure;beat spectrum;speech-music signal separation

郭 伟,于凤芹.基于改进时频比的语音音乐信号分离[J].计算机工程,2015,41(3):287-291.

英文引用格式:Guo Wei,Yu Fengqin.Speech-music Signal Separation Based on Improved Time-frequency Ratio[J].Computer Engineering,2015,41(3):287-291.

1000-3428(2015)03-0287-05

:A

:TN912.34

10.3969/j.issn.1000-3428.2015.03.054

郭 伟(1989-),女,硕士研究生,主研方向:语音信号处理;于凤芹,教授。

2014-04-24

:2014-05-25E-mail:xuyixi2012@sina.com

猜你喜欢
源点时频特征向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
一类特殊矩阵特征向量的求法
隐喻的语篇衔接模式
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
首届“丝路源点·青年学者研讨会”主题论坛在我校成功举办
基于时频分析的逆合成孔径雷达成像技术
对采样数据序列进行时频分解法的改进
双线性时频分布交叉项提取及损伤识别应用
浅析《守望灯塔》中的时频