复广义高斯分布多通道最大似然联合去噪去混响波束形成器

2022-05-13 03:01孟维鑫郑成诗李晓东

信号处理 2022年4期

孟维鑫厉剑郑成诗李晓东

（1.中国科学院声学研究所，北京 100190；2.中国科学院大学，北京 100049）

1 引言

在室内应用场景，传声器拾取的语音信号将不可避免地受到室内环境噪声和混响的共同影响，这不仅会造成语音质量和可懂度的下降，同时也会导致自动语音识别（Automatic Speech Recognition，ASR）系统识别率下降。因此，抑制传声器拾取信号中的噪声和混响成分，并提取高质量的目标语音一直是研究热点。

相比于单通道语音增强技术，基于传声器阵列的多通道语音增强技术可以充分利用目标信号与干扰信号的空间统计特性差异及通道间的相关性差异，更好地实现噪声抑制和混响去除［1-2］。因此，相比于单通道语音增强技术，多通道语音增强技术一般具有更好的去噪去混响性能。典型的传声器阵列自适应波束形成器包括最小方差无失真响应（Minimum Variance Distortionless Response，MVDR）波束形成器［3-4］、最小功率无失真响应波束形成器（Minimum Power Distortionless Response，MPDR）、广义旁瓣消除器（Generalized Sidelobe Cancellation，GSC）［5］、多通道维纳滤波（Multichannel Wiener filtering，MWF）［6］和最大似然无失真响应（Maximum Likelihood Distortionless Response，MLDR）［7］波束形成器等。在弱混响环境下，自适应波束形成器对方向性干扰噪声具有较好的抑制作用；但在强混响条件下，其抑制性能会有不同程度的下降。这是由于混响是由方向性干扰噪声多次反射形成，且随着混响增加，方向性干扰噪声将逐渐退化为各向同性均匀分布的扩散噪声，因而通过自适应零陷设计的方法的性能会有不同程度的下降。针对去混响任务，许多学者提出了多种经典算法，包括基于波束形成的算法［8］，基于谱增强的算法［9］，以及直接估计晚期混响逆滤波器的算法等［10-11］。其中，多通道加权预测误差（Weighted Prediction Error，WPE）自适应混响抵消算法及其改进算法［10-11］具有良好的去混响性能和鲁棒性，被广泛研究和应用。WPE 算法使用复高斯模型建模期望语音的复频谱，在最大似然准则下推导得到了抑制晚期混响的最优滤波器。然而，WPE 算法在推导过程中忽略了噪声的影响，因此在噪声环境中，WPE 算法的去混响效果会有一定程度的下降。

去噪算法和去混响算法既可通过独立优化而后级联实现，也可通过联合优化实现。前者将去噪去混响任务分解成两个子任务，各自独立优化，实现较为简单，但理论上并非全局最优；后者通过联合优化去噪去混响两个子任务来设计算法，算法设计较为复杂，但理论上可实现全局最优。有学者将WPE 算法和MPDR 波束形成器进行级联［12-13］，先对阵列拾取信号去除混响，再在此基础上进一步去除噪声。这类方法中的WPE算法由于噪声的存在，难以达到最优的去混响性能；同理，由于WPE 算法未实现理想的去混响性能，后续MPDR 波束形成器的去噪性能也会受到负面影响。此外，推导WPE去混响滤波器和MPDR 波束形成器使用的优化准则不同，因而难以保证级联算法的去噪去混响性能在同一个准则下达到最优。近年来，有学者在复高斯分布假设条件下推导得到了基于最大似然准则的联合去噪去混响算法，即加权功率无失真响应（Weighted Power minimization Distortionless response，WPD）波束形成器［14］。同WPE 算法相同，WPD 算法也使用复高斯模型建模语音时频域信号，并将去噪去混响任务的多个滤波器合并为一个滤波器，在最大似然准则下推导得到了最优联合去噪去混响滤波器。Nakatani 等人［14］研究表明，WPD 波束形成器比WPE 算法级联MPDR 波束形成器具有更优的去噪去混响性能，同时解决了传统级联方法两个模块优化准则不一致的问题。

已有研究表明［11，15］，语音信号在统计上并非理想的高斯信号，其分布更偏向于超高斯模型，相应地其复频谱也服从复超高斯分布。2007 年，Jensen等人［15］提出采用复广义高斯模型中的复超高斯模型来建模语音，并推导了单通道最小均方误差（Minimum Mean Squared Error，MMSE）准则下的增益因子表达式，取得了比基于复高斯模型的最优滤波器更好的语音增强效果。2015 年，Jukić 等人［11］将复超高斯模型引入到WPE算法中，提出了复广义高斯模型加权预测误差算法（Complex Generalized Gaussian distribution based Weighted Prediction Error，CGG-WPE）。不同于WPE 算法，该算法使用复超高斯模型建模期望语音的复频谱并在最大似然准则下推导抑制晚期混响的最优滤波器，获得了更好的去混响效果。

综上所述，基于复超高斯模型的语音增强算法在单通道语音增强和传声器阵列去混响应用中已得到一定的研究，但基于复超高斯模型的传声器阵列联合去噪去混响算法尚未有完整的理论推导和实验研究。基于复超高斯模型，本文首次通过理论推导得到了一种传声器阵列联合去噪去混响方法，记为复广义高斯分布加权功率无失真响应（Complex Generalized Gaussian distribution based Weighted Power minimization Distortionless response，CGG-WPD）波束形成器。本文采用复广义高斯模型对目标语音进行建模，并使用联合优化的方法同时完成去噪与去混响两个任务。理论推导表明，本文所提算法是WPD 波束形成器以及WPE 算法和MPDR 波束形成器级联算法的一般化形式，且可以通过选取适当的参数获得较现有联合去噪去混响算法更优的性能。仿真实验和实际实验结果表明，本文提出的联合去噪去混响算法比WPD 波束形成器具有更好的去噪去混响性能，在语音质量等客观指标上的测试结果也优于WPD 波束形成器以及WPE 算法和MPDR 级联算法。

2 信号模型及传统算法

2.1 信号模型

假设室内期望语音信号与不相关噪声被任意形状的传声器阵列拾取，该阵列包含M个全指向性传声器。此时拾取信号不仅包含期望信号的直达声，也包含早期反射声以及晚期混响。对拾取的时域信号做短时傅里叶变换（Short-Time Fourier Transform，STFT），拾取信号的时频域系数可以表示为：

其中，k代表频域索引，l代表帧数索引，x(k，l)=为所有传声器拾取信号的时频域系数；s(k，l)代表纯净语音的时频域系数；代表声学传递函数，L代表卷积长度；n(k，l)=代表干扰和加性噪声。进一步式（1）可以重写为：

其中：

其中，b为预测延迟帧数。式（2）第一部分d(k，l)包含直达声和早期反射声，统称为期望信号；第二部分为晚期混响r(k，l)，第三部分为噪声信号n(k，l)。在实际应用中，混响情况下语音增强的目标为保留含有直达声和早期反射声的期望信号部分。为了方便对比，本节将简要介绍WPE 算法与MPDR 波束形成器，以及WPE 算法级联MPDR 波束形成器的两种级联方式。为了表述方便，下文中将WPE 和MPDR级联算法记为WPE+MPDR算法。

2.2 加权预测误差去混响算法

忽略加性噪声n(k，l)，采用多通道自回归模型将公式（1）重写为：

其中，Lw为自回归预测模型的阶数，W(k，τ)为M×M多通道线性预测滤波器系数。式（5）右侧第二项为期望信号，即预测误差。加权预测误差去混响算法使用时变方差复高斯模型建模期望信号，即通道m的期望语音信号在时频域上服从零均值能量不断变化的复高斯模型：

其中，期望信号功率即时变方差λd(k，l)是需要估计的变量。此时在最大似然准则下构建的优化问题可表示为［10］：

2.3 最小功率无失真响应波束形成器

不失一般性，选取第一通道作为参考通道，并假设期望信号在频域上可以近似为相对传递函数（Relative Transfer Function，RTF）［3］与纯净语音的乘积。进一步将晚期混响作为噪声的一部分，此时公式（1）可改写为：

MPDR 波束形成器旨在设计一个空间滤波器，在无失真约束情况下最小化波束形成输出信号能量，从而达到提取目标语音并抑制噪声的目的。设计MPDR 波束形成器最优滤波器时，优化问题可以写为［3］：

该优化问题的闭式解可表示为：

为样本协方差矩阵。此时拾取信号经过波束形成器最优滤波器滤波得到的期望信号可表示为：

从上述的推导可知，MPDR 波束形成器具有同时去除噪声和混响的能力。但在传声器数量较少时，MPDR 波束形成器没有足够多的自由度同时消除噪声和混响，因此在实现去噪去混响任务时，通常需要在MPDR 波束形成器模块前级联多通道去混响模块。

2.4 去噪去混响级联算法

WPE去混响算法级联MPDR波束形成器的去噪去混响算法通常分为两个阶段，第一阶段通过多通道去混响算法去除混响，第二阶段通过波束形成器抑制部分残留混响以及噪声。根据迭代方式的不同可以分为具有反馈模块的级联方式，以及不含反馈模块的级联方式。其中不存在反馈模块的级联方式，去混响模块和波束形成模块相互独立，如图1（a）所示；存在反馈模块的级联方式，波束形成模块的结果将影响去混响模块的迭代过程，如图1（b）所示。

实际应用中，两种级联方式在各阶段滤波器均分开独立设计，因此其设计难度低，易于实现。但该方式也存在以下问题：WPE 算法是在无噪声环境下使用最大似然准则推导出的最优去混响滤波器，而MPDR 波束形成器是在最小输出能量准则下推导出的最优空间滤波器，两者的优化准则不同，因此没有在同一准则下实现全局最优。

3 CGG-WPD算法

3.1 理论推导

本节将在最大似然准则下首次推导得到基于复广义高斯模型先验的联合去噪去混响算法，即CGG-WPD算法。根据式（12）和式（18），可以得到：

其中，γ为尺度参数，p为复广义高斯分布的形状参数，Γ(·)为伽马函数（Gamma Function）。根据p的取值范围，复广义高斯分布可以分为以下三种：复超高斯分布（0 ＜p＜2）、复高斯分布（p=2）以及复亚高斯分布（p＞2）。假设期望信号服从复超高斯分布，即0 ＜p＜2，根据凸分析理论［16］，式（20）所描述的概率密度函数还可以表示为缩放时变方差复高斯模型的最大值，即：

其中，ψ(λs(k，l))为缩放函数。

根据上述模型，在最大似然准则下联合去噪去混响的优化问题可以表示为：

值得注意的是，式（22）中的优化问题与期望信号s(k，l)及其功率λs(k，l)有关，但在实际应用中期望信号一般是未知的，只能获得估计值。因此，为了得到优化问题的解，本文使用期望信号的估计值代替其理论值。对式（22）取对数并使用估计值代替真实值，式（22）的等价优化问题可表示为：

采用拉格朗日乘子法求解上述优化问题，构造代价函数如下：

αk为拉格朗日乘子。优化问题式（23）需要同时优化两个变量，导致该优化问题不存在闭式解。为了解决这一问题，本文提出一种交替迭代优化的算法，最终收敛到全局最优解。假设wˉ(k)已知，此时式（24）对求偏导并令其偏导为0可得：

其中：

观察式（28）和式（29）可知，式（28）的波束形成器最优滤波器系数不受常数影响，因此式（29）可等价为：

为避免式（30）中分母项为零，本文将在式（30）的分母项中添加小量ε，即：

在实际应用中，可以使用对角加载技术提高波束形成器的鲁棒性，此时波束形成器最优滤波器系数为：

3.2 CGG-WPD算法与传统算法的内在联系

本节将给出3.1 节中CGG-WPD 波束形成器的分解形式，同时将从理论上分析其与现有级联算法的内在联系，进而证明本文所提算法的优越性。假设CGG-WPD 波束形成器可以拆分为两个独立滤波器：

此时代价函数式（27）可展开写为：

其中：

其中，

对q(k)求偏导并令偏导为零得：

式（42）得到的空间滤波器，即为根据去混响滤波器输出信号的空间特性构建的自适应波束形成器。该自适应波束形成器最优滤波器表达式类似于MPDR 波束形成器以及文献［7］中提到的MLDR波束形成器。当p= 2时，此波束形成器为MPDR波束形成器最优滤波器；当p= 0 时，此波束形成器为MLDR 波束形成器最优滤波器；当0 ＜p＜2 时，此波束形成器为在复超高斯分布先验条件下推导得到的最大似然波束形成器最优滤波器，本文将其称为CGG-MLDR 波束形成器。下面本文将进一步证明，相比于MPDR 波束形成器滤波器，CGG-MLDR波束形成器具有更优的去噪能力。

假设去混响滤波器的L帧输出信号为，其中有L1帧只包含噪声和干扰，有L2帧不仅包含噪声并且同时包含期望信号，此时式（41）所代表的总协方差矩阵重写为：

其中，λn为噪声功率谱密度；；为输入信噪比；Υss(k)为信号相关矩阵，Υnn(k)为噪声相关矩阵。由式（43）可知，总协方差矩阵为信号和噪声相关矩阵的线性组合，为便于分析，定义两个线性组合系数的比值为：

由式（44）可知，此比值反映了同样快拍数下自适应波束形成器的鲁棒性程度，比值越大证明鲁棒性越强。当p=0 时，；当p=2时比值为，即此时比值取决于包含期望信号的帧数和输入信噪比。当λs(k，l)＞ε时，r0(k)＞r2(k)。由于ε是小量，因而λs(k，l)＞ε这一条件十分容易满足，所以当p=0时得到的波束形成器优于MPDR 波束形成器，同理可证当0 ＜p＜2时得到的CGG-MLDR波束形成器也同样优于MPDR波束形成器。同时根据文献［11］的研究，当p=0.5时CGG-WPE 算法明显优于WPE 算法（p=0），而CGG-WPD去噪去混响算法等价于CGG-WPE算法与CGG-MLDR 算法的级联，因此可知，当p=0.5时，本文提出的联合去噪去混响算法应明显优于WPE+MPDR算法。

在实际应用中不仅要考虑算法的性能，还应考虑应用算法的计算复杂度。表1 给出了CGG-WPD算法、WPD 算法以及WPD+MPDR 算法的理论计算复杂度，以及本文第4 节仿真实验所用参数即，M=6，Lw=10，b=4，I=5 时的计算复杂度。从表1 中可以发现，在相同迭代次数时，CGG-WPD 算法与WPD 算法的计算复杂度相当，都略高于WPE+MPDR 算法。但图2 的仿真结果表明CGG-WPD 算法在迭代2～3 次时已经达到WPD 算法迭代10 次时的性能，所以在实际应用中CGG-WPD 算法可以使用更少的迭代次数来降低计算复杂度。

表1 三种算法计算复杂度分析Tab.1 Computational complexity analysis of three algorithms

4 实验测试

4.1 仿真实验设置及评估指标

本文评测CGG-WPD 算法在不同声学场景下的去噪去混响性能，并将其与WPE+MPDR 算法，以及WPD 算法比较。测试所用纯净语音由从TIMIT 数据集［17］中选取的30 条男声与30 条女声组成；测试所用噪声为NOISEX-92 数据库［18］中的babble 噪声。仿真实验所用的房间脉冲响应由镜像法［19］生成，房间尺寸为6 m × 10 m × 4 m。这里选用M=6 的均匀线阵，其阵元间距为0.043 m，阵列放置在房间中心，期望信号在距离阵列中心2 m 处从端射方向的0°方向入射，另有一个干扰从45°方向入射。所有算法使用的预延迟b=4，自回归模型阶数Lw=10，帧长为64 ms，帧移为16 ms。本文使用语音质量感知评估测度（Perceptual evaluation of speech quality score，PESQ）［20］、扩展短时客观可懂度（Extended Short-Time Objective Intelligibility，ESTOI）［21］、信号失真比（Signal to Distortion Ratio，SDR）［22］、语音混响调制能量比（Speech-to-Reverberation Modulation energy Ratio，SRMR）［23］作为各算法去噪去混响能力的客观评价标准。实验所用相对传递函数使用协方差矩阵白化法［24］求得。

4.2 仿真实验结果及分析

首先设计仿真实验测试不同p值下所提算法随迭代次数的变化情况。这里设置混响时间为T60=320 ms，输入信干噪比为SINR=5 dB。图2给出了仿真实验结果，从中可以发现p值的选取对CGG-WPD 算法的性能有较大影响。在各项客观评价指标中，p=0.5 时CGG-WPD 算法都取得了最优的性能，且高于已有WPE+MPDR 算法以及WPD 算法。同时CGG-WPD 算法（p=0.5）在低迭代次数时（2～3 次）已经达到WPD 算法接近收敛时的性能。从图中还可发现当混响时间较短时，WPE+MPDR算法随着迭代次数的增加，各项客观指标没有明显提升，但WPD和本文所提算法性能提升明显。由于WPD 算法在第一阶段的去混响算法与WPE+MPDR算法一致，由此可知性能提升的主要原因是第二阶段的CGG-MLDR 波束形成器较MPDR 波束形成器具有更强的去噪能力。由于上述实验已经证明在p=0.5 时所提算法取得最优性能，且在迭代5 次时接近收敛，因此在后续所有实验中，CGG-WPD 算法固定参数p=0.5，迭代次数为5次。

第二个仿真实验测试不同输入信干噪比条件下所提算法的去噪能力，混响时间设为T60=320 ms。实验结果如图3 所示。本文已在3.2 节中证明了CGG-WPD 算法等价于CGG-WPE 去混响算法和CGG-MLDR波束形成器的级联。为进一步通过仿真实验证明推导的正确性，本文在图3的仿真实验结果中同时给出联合算法以及与其等价的级联算法的实验结果。本文使用“（Jointly）”和“（Separate）”来区分联合滤波器以及其等价的级联滤波器，其中级联滤波器是通过图1（a）所示的级联结构实现滤波。从图3中可知，在不同输入信干噪比环境下，CGG-WPD算法在各项客观指标中都高于WPD 算法及WPE+MPDR算法。但随着信干噪比的增加，CGG-WPD算法和WPD算法在PESQ打分和ESTOI打分这两项客观指标的差距逐渐缩小，在高信噪比时近乎相同。同时观察联合算法以及其相对应的级联算法的实验结果可发现，两者的各项客观指标近似一致，这也验证了3.2节理论推导的正确性。

最后，本文设计仿真实验比较不同混响条件下各算法的去混响性能。除了混响时间发生变化外，其余实验参数同仿真实验2，且固定输入信干噪比SINR=5 dB。由图4 中可知，在不同混响时间下，本文所提的CGG-WPD 算法都优于WPD 算法和WPE+MPDR 算法。但随着混响时长的增加，各算法的各项客观指标的提升量都有不同程度的下降，且WPE+MPDR 算法与其他算法在各项客观指标上的性能差距不断减小。

4.3 实际环境实验

本节测试实际噪声和混响环境下各算法的去噪去混响性能。实际房间脉冲响应选自REVERB Challenge 数据集，选择其中一点播放语音信号作为期望信号，另一点播放噪声作为干扰。测试所用纯净语音由从TIMIT 数据集中选取的30 条男声与30条女声组成；测试所用噪声为NOISEX-92 数据库中的babble 噪声。同时本文还测试了CHiME-3 数据集中不同场景的实录噪声下各算法的语音增强性能。实验中的相对传递函数均使用协方差矩阵白化法估计得到。

表2 至表4 给出了各算法在不同房间5 次迭代时的客观指标结果。从表2～表4 中可以发现CGGWPD 算法在不同信干噪比，不同房间的各项客观指标都是最优的。比较不同房间的实验结果可知，随着混响时间的增加，各算法的各项客观指标的提升量都有所下降。比较同一房间不同信干噪比的实验结果可知，高信干噪比时所提算法各项客观指标的提升量较低信干噪比时更高。这与仿真实验结果有差异，分析其主要原因是仿真实验中的混响时间较短，主要反映了所提算法的降噪能力；而真实房间混响时间较长，一般都在0.5 s 以上，三种算法在高信干噪比下具有更好的去混响性能。图5为某测试样例的语谱图，从语谱图中可以发现CGGWPD 算法的噪声和混响残留明显少于WPE+MPDR算法。同时CGG-WPD 算法相较WPD 算法能更好的保留期望信号的谐频结构，例如图5（e）和图5（f）的白色圆圈部分。

表2 REVERB Challenge小型房间测试结果Tab.2 Experiment results of small room in REVERB Challenge

表3 REVERB Challenge中等房间测试结果Tab.3 Experiment results of medium room in REVERB Challenge

表4 REVERB Challenge大型房间测试结果Tab.4 Experiment results of large room in REVERB Challenge

表5给出了在CHiME-3比赛中提供的四种常见场景噪声下不同算法的实验结果，各场景下的实验结果为40 条测试数据的平均值。从表5 的实验结果中可知，CGG-WPD 算法的PESQ 及ESTOI 指标在BUS和STR 两种噪声场景下明显优于WPD 算法，在CAF 和PED 噪声场景下略优于WPD 算法。此外，CGG-WPD 与WPD 算法在各噪声场景下都显著优于WPE+MPDR算法。

表5 CHiME-3测试结果Tab.5 Experiment results of CHiME-3

5 结论

采用复广义高斯模型建模期望语音信号，本文提出了一种新的联合去噪去混响算法。通过理论推导证明了该算法是WPD等联合去噪去混响算法的一般化形式，同时其也等价于去混响模块与去噪模块的级联形式。仿真实验证明通过选择合适的参数，本文提出的CGG-WPD 算法的去噪去混响性能在多项客观指标上都优于现有的WPD以及WPE+MPDR算法。对比其他参数发现，p=0.5是较优的参数选择。仿真实验及实际实验结果证明，CGG-WPD算法在不同的声学场景下的去噪去混响性能也都优于WPD及WPE+MPDR 算法。但本文所有研究的波束形成器在最优滤波器迭代更新中，都需要对协方差矩阵进行求逆运算，当矩阵维度较高，且迭代次数较多时，计算复杂度较高。因此，可将加快其收敛速度或降低每一次迭代的计算复杂度作为下一步研究方向。