论文地址：双路信号变换LSTM网络的实时噪声抑制

论文代码：https：//github.com/breizhn/DTLN

引用格式：Westhausen N L, Meyer B T. Dual-signal transformation LSTM network for real-time noise suppression[J]. arXiv preprint arXiv：2005.07551, 2020.

摘要

　　本文介绍了一种用于实时语音增强的双信号变换LSTM网络(DTLN)，作为深度噪声抑制挑战(DNS-Challenger)的一部分。这种方法结合了短时傅里叶变换(STFT)和已有的分析和综合基础，采用了参数小于100万的堆叠网络方法。这个模型在挑战者或组织者提供的500小时的带噪语音中进行了训练。该网络能够实时处理(一帧输入，一帧输出)，并达到较好的结果。结合这两种信号变换，DTLN可以稳健地从幅度谱中提取信息，并从学习的特征库中合并相位信息。该方法显示了最先进的性能，并且比DNS挑战基线高出平均意见得分(MOS)0.24分的绝对值。

关键字：噪声抑制、深度学习、实时、语音增强、音频

1 引言

　　噪声抑制是语音增强领域的一门重要学科；例如，在家工作的场景中，鲁棒和有效的噪声降低可以提高通信质量，从而减少视频会议的认知努力，这是特别重要的。随着深度神经网络的兴起，提出了几种基于深度模型的音频处理方法[1,2,3,4]。然而，这些通常是为脱机处理开发的，脱机处理不需要实时能力或考虑因果关系。这种模型处理完整的序列，并利用信号的过去和将来的信息来抑制不需要的信号部分。经典的信号处理算法[5,6]通常在采样或帧级工作，以提供低的输入输出延迟。在设计基于框架的神经网络算法时，循环神经网络(RNN)是一个常见的选择。RNNs在语音增强[7,8]和语音分离[9,10,11]方面都取得了令人信服的结果。长期短期记忆网络(LSTM)[12]代表了分离[13]的最新技术。性能最好的网络通常是通过使用双向LSTM以非因果方式构建的，在这种方式中，时间序列也是在反向方向上进行因果处理的。双向RNN总是需要完整的序列作为输入，因此基本上不适合实时帧处理。

　　deep-noise-suppression challenge (DNS-Challenge)[14]的基线系统称为NSNet[15]，也是基于RNN层，通过计算每个输入帧一个输出帧提供实时能力。该模型基于带噪语音信号的短时傅立叶变换(STFT)的对数功率谱，预测应用于带噪声时间傅立叶变换的增益或掩模。利用噪声混合信号的估计幅度和相位，对预测的语音信号进行重构。这种方法产生了一个竞争的基线系统，但它不包含任何相位信息，这可能有助于提高语音质量。不同的方法处理相位估计，如估计STFT实部和虚部的掩模，而不是幅度[16]或计算迭代相位重建[17]。[11, 18, 19]等研究表明，在学习分析和综合基础上的说话人分离任务有希望的结果，而不是解耦的量级和相位信息。表示是通过将时域帧与学习过的基函数相乘来计算的。该方法也被应用到[20]中，用于语音和噪声的分离。

　　当前研究的动机是通过使用堆叠的双信号变换LSTM网络(DTLN)将分析和综合方法合并到一个模型中。堆叠或级联网络已经在Deep Clustering speaker separation approach[9]中使用，在分离网络之后添加了一个额外的增强网络。在相关研究中，采用级联模型对[19]进行去噪和去混响。本文提出的模型级联了两个分离核，第一个具有STFT信号转换，而第二个使用了类似于[18]的学习信号表示。这种组合是第一次在降噪环境中进行探索，由于经典和学习的特征转换的互补性，可以提供有益的效果，同时保持相对较小的计算足迹。与之前大多数提出的LSTM网络相比，本文的堆叠网络要小得多，并且在计算复杂度方面保证了实时性。

2 方法

2.1 信号转换

　　在说话人分离中，通常选择时频掩蔽的方法来分离说话人的信号。噪声抑制是一个相关的源分离问题，但它的不同之处在于它只返回语音信号并丢弃噪声。在时频域中，分离问题可以表示如下：麦克风信号$y$被描述为

$$y[n]=x_s+x_n$$

其中，$x_s$和$x_n$分别是时间信号的语音分量和噪声分量。

　　在噪声抑制任务中，期望的信号是语音信号。当用复时频表示(TF)对信号$y$进行短时傅里叶变换时，可以预测估计的语音信号$\hat{X}_s$的TF表示为：

$$公式2：\hat{X}_{s}(t, f)=M(t, f) \cdot|Y(t, f)| \cdot e^{j \phi y}$$

其中$|Y|$是$y$的幅度谱。$M$是应用于$Y$的掩码(掩码值从0到1)，而$e^{j\phi y}$是噪声信号的相位。$\hat{x}_s$现在可以通过与$\hat{X}_s$相反的短时傅里叶变换回来。在该公式中，使用噪声信号的相位来预测干净的语音信号。

　　DTLN的第二个信号变换是由Luo和他的同事首次提出的[11]。该方法将混信号分割成长度为L、帧索引为$k$的重叠帧$y_k$，并将这些帧乘以具有$N×L$个学习基函数的$U$：

$$公式3：w_k=y_kU$$

创建尺寸为N×1、帧为$y_k$的特征表达$w_k$。为了从$w_k$恢复语音表示$d_k$，可以估计给定的掩码$m_k$。

$$公式4：\hat{d}_k=m_k·w_k$$

其中$\hat{d}_k$是估计的语音信号的索引$k$处的特征表示。$\hat{d}_k$可以通过以下方式转换回时域

$$公式5：\hat{x}_k=\hat{d}_kV$$

其中$V$包含长度为$L$的$N$个学习基函数。$\hat{x}_k$是索引$k$处的估计帧。通过使用重叠相加过程来重构估计时间信号$\hat{x}_s$。

2.2 模型架构

　　本文介绍的堆叠式双信号变换LSTM网络结构具有两个分离核心，其中包含两个LSTM层，然后是一个全连接(FC)层和一个用来产生掩模输出的Sigmoid激活。第一个分离核心使用STFT和合成，将FC层输出经过sigmoid得到掩膜，掩膜与输入的幅度谱相乘等到增强幅度谱，并利用输入(带噪语音)的相位将其变换回时域，但不重建波形。来自第一网络的帧由1D-Conv层处理以创建特征表示。特征表示在被馈送到第二分离核心之前由归一化层处理。第二核的预测掩码与特征表示相乘，结果输入1D-Conv层，用于将估计的表示转换回时域。在最后一步中，使用重叠相加过程重建信号。该结构如图1所示

　　为了考虑模型的实时性，采用了瞬时层归一化(ILN)方法。瞬时层归一化类似于标准层归一化[21]，并在[22]中作为逐通道的层归一化引入。所有帧都被单独归一化，而不会随时间累积统计数据，并且使用相同的可学习参数进行缩放。在当前的工作中，该归一化方案被称为瞬时层归一化，以区别于累积层归一化[18]

图1 建议的网络架构的说明

左边的处理链显示了使用STFT信号变换的第一个分离核心，而右边的构建块代表了基于1D-Conv层的学习过的特征变换的第二个核心

2.3 数据集

　　训练数据集是由DNS-Challenge提供的音频数据集。语音数据属于librisspeech语料库[23]的一部分，噪声信号来源于Audioset语料库[24]、Freesound和DEMAND语料库[25]。使用提供的脚本创建了500h的数据。默认的信噪比范围(0到40 dB)被更改为-5到25 dB，以包含负信噪比并限制总范围。为了覆盖更细粒度的信噪比分布，信噪比级别的数量从5个增加到30个。所有其他参数保持不变。500h的数据集被分为训练数据(400 h)和交叉验证数据(100 h)，这相当于普通的80：20%的分割。所有训练数据在16khz采样。

　　挑战组织者还提供了一个包含四个不同类别的测试集，每个类别包含300个样本。这些类别是合成剪辑没有混响，合成剪辑与混响，真实的录音收集在微软内部和真实的录音从Audioset。合成数据来自格拉茨大学的干净语音数据集[26]。合成数据的信噪比随机分布在0 ~ 25 dB之间。在微软的多个房间中测量混响数据的脉冲响应，混响时间(RT60)从300 ms到1300 ms。此外，组织者还创建了一个盲测试集，并在ITU P-808[27]设置中进行了评估。[14]提供了训练和测试集的完整细节。

　　为了正确估计混响环境中所有客观测量的性能，使用了采样频率为16 kHz的WHAMR语料库[19]混响单扬声器和噪声测试集。我们转向这个数据集是因为一些客观的测量需要适当延迟但干净的参考信号来进行正确的计算。由于DNS-Challenge测试集中没有提供这些信号，我们使用了WHAMR数据集，该数据集具有干净的无混响语音文件，可以解释脉冲响应的延迟。使用的WHAMR试验台由3000种混合物组成。语音文件取自于WSJ0-mix语料库[28]，该语料库经常用于说话人分离。用Pyroomacoustics[29]模拟了RT60在100 ~ 1000 ms之间的房间脉冲响应，并将其与语音文件进行了卷积。这些噪音包括咖啡馆、餐馆、酒吧、办公楼和公园等真实场景的录音。相对于语音，信噪比在-3到6db之间。

2.4 模型设置和训练步骤

　　本文中DTLN的四层LSTM层各有128个单元。帧大小为32毫秒，帧移为8毫秒。FFT大小为512，等于帧长。用于创建学习特征表示的1D-Conv层有256个滤波器。在训练过程中，在LSTM层之间应用了25%的dropout。Adam优化器使用的学习速率为10e-3和梯度norm clipping 3。如果连续三个阶段验证集的损失没有改善，学习速率将减半。如果验证集的损失在10个时期内没有减少，则应用提前停止。模型以32个批次进行训练，每个样本长度为15 s。在Nvidia RTX 2080 TI上，一个训练阶段的平均时间约为21分钟。

　　以尺度敏感负信噪比（scale-sensitive negative SNR）[20]作为训练目标。与尺度不变信噪比(SI-SNR)[11]相比，它应该避免输入混合语音和预测纯净语音之间可能存在的水平偏移，这是实时处理系统中所需要的。此外，由于它是在时域中工作的，因此可以隐式地考虑相位信息。而作为训练目标的语音信号的估计值和干净幅度STFT之间的均方误差不能在优化过程中使用任何相位信息。

2.5 基线

　　第一个基线是由挑战组织者提供的噪音抑制网络(NSNet)。NSNet在频域上采用基于MSE的语音失真加权损失进行优化，并在84 H的语音和噪声混合语料库上进行训练。该算法由三个具有256门控循环单元(GRU)[30]的循环层和一个具有sigmoid激活的全连接层组成。帧大小为20毫秒，帧位移为10毫秒。GRU类似于LSTM，但没有随时间变化的细胞状态。

　　此外，我们的DTLN方法与四个与所提出模型具有相同训练设置的模型进行了比较：第一个和第二个模型由四个LSTM层组成，后面是一个完全连接的层，该层具有sigmoid激活来预测掩模。第一个(B1)使用STFT和合成，而B2使用256个可学习偏置。第三种模型(B3)和第四种模型(B4)是类似于所提出方法的堆叠模型。B3的两个分离核都使用STFT。对于两个分离核，B4都有一个大小为256的学习过的特征库。选择LSTM层的大小是为了在参数数量上获得与DTLN方法相似的大小。表1中再次显示了配置。

表1：建议的DTLN方法和基线系统中每层参数和RNN单元的数量

2.6 客观和主观评价

　　为了比较DTLN方法和基线，我们使用了三种客观度量，即语音质量的感知评价(PESQ)[31]，比例不变信号失真比(SI-SDR)[32]和短时间客观可解性度量(STOI)[33]。

　　主观评估是在微软实施和组织的亚马逊土耳其机械(AMT)上使用ITUT P.808设置进行的。总共有两次评估运行，一次是在DNSChallenge的已知测试数据集上，一次是在稍后提供的盲测试集上。在第一轮和第二轮审理中，每一份文件分别由5到10名法官评议。

3 结果

　　客观评价结果如表2所示，主观评价结果如表3所示。结果如下所示

表2：根据无混响测试集的PESQ [MOS]、SI-SDR [dB]和STOI [%]， DNS挑战的混响测试集和WHAMR语料库的混响单混合测试集的结果

表3：DNS-Challenge已知盲测试集的MOS主观评分。已知测试集和盲测试集的总体95%置信区间分别为0.04和0.02

　　无混响DNS-Challenge测试集的客观结果：在无混响条件下，所有模型对噪声条件都有改进。NSNet优于DTLN和所有附加基线。在500小时的数据上训练的所有模型都产生了类似的结果。DTLN网络在PESQ、SI-SDR和STOI方面的效果最好。B3和DTLN的高值表明了堆叠模型的强度。尽管B4也是一个堆叠模型，但它的表现相当糟糕，这在第4节中进行了讨论。

　　混响DNS-Challenge测试集的客观结果：在此条件下，结果不如无混响条件下清晰。在PESQ方面，只有B4比噪声条件略有改善。对于SI-SDR，所有模型都有改善，而STOI预测原始噪声条件下的质量最高。关于侵入式或双端措施的一个问题是，它们需要一个参考信号，在这种情况下，就是混响干净的讲话。有了这个参考信号，任何语音增强模型的潜在去everberation效应都会导致客观测量值的下降，这可能是这些结果的一个重要因素。

　　WHAMR测试集的客观结果：所有的方法都显示出比噪声条件下的改善，DTLN方法获得的分数最好。B3再次达到了相似的性能水平。基线显示，对于所有的客观测量，都有轻微的改善。需要指出的是，该语料库中使用的混合语料在0左右的信噪比范围更小，因此对模型来说是一个更有挑战性的条件。

　　DNS-Challenge测试集的主观结果：已知无混响测试集的主观结果与客观结果一致。对于混响测试集，主观评价对DTLN有明显的好处，但除SI-SDR外，其他客观指标没有反映出这一点。在主观数据中也观察到混响条件下PESQ和STOI预测的NSNet质量下降。在已知条件和盲条件下，与真实记录的结果一致。

　　执行时间的结果：在DNSChallenge环境下，测量了一个32 ms帧在四核I5 6600K CPU上的执行时间。测量是通过处理一个完整的序列或使用逐帧处理来完成的。序列处理和帧处理的执行时间分别为0.23 ms和2.08 ms。序列处理和帧处理之间的巨大差异可以用Keras中调用模型进行预测的开销来解释。将模型转换为Tensorflow的SavedModel格式可以将逐帧处理的执行时间减少到0.65 ms，这是一个很大的改进。但是，序列处理时间要低近三倍，这显示了CPU上的潜在性能。

4 讨论

　　在下面，我们首先讨论基线系统之间的差异，这对DTLN系统的组件也有影响。非混响、混响和WHAMR测试的结果显示，系统B1和B3(使用STFT特征)比系统B2和B4(使用学习特征表示)的结果更好。STFTs更好的性能的一个潜在原因是跨网络、固定数量的参数,由于STFT是固定的和基于规则可能B1和B3利用高可用的参数数量LSTM层相比learned-feature方法。

　　其次，我们假设短时傅立叶变换特征对噪声输入具有更高的鲁棒性，因为相位信息(在高噪声条件下是无用的)被丢弃了。反之亦然，使用学习特征的网络必须隐式地确定幅度和相位信息的掩码。造成这种差异的另一个可能的原因可能是本文中学习到的特征表示所执行的压缩。学习后的特征表示将512个音频样本映射为大小为256的特征表示。特征表示的大小越大，则会消耗更多的参数，经验表明，特征表示的减少对所提模型的语音质量没有太大的影响。

　　结果还表明，与纯STFT系统相比，使用STFT和学习特征变换的叠加网络使用更少的LSTM单元，可以略微改善整个基线系统。LSTM单元在计算上更复杂，因为全连接层或1D-Conv层，也就是说，对于这种网络类型，减少单元是特别需要的。然而，DTLN与相关系统(B1-B4)在客观度量方面的相对较小的差异也表明，部分性能是由大量的训练数据和训练设置产生的。

5 总结

　　本文介绍了一种基于堆叠双信号变换LSTM网络的噪声抑制方法，该网络在大规模数据集上进行训练，以实现实时增强。在堆叠网络方法中，我们能够展示使用两种类型的分析和综合基的优势。DTLN在嘈杂的混响环境中工作良好。尽管我们将基本训练设置与简单的架构相结合，但我们观察到，相对于噪声条件，MOS在所有主观评价方面的绝对提高了0.22。

6 致谢

　　这项研究是由DFG。该架构的一部分是在Nvidia GPU Grant计划捐赠的GPU上开发的。感谢来自微软的挑战赛组织者组织了dns挑战赛，并提供了数据和脚本

7 参考文献

[1] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, An experimental study on speech enhancement based on deep neural networks, IEEE Signal processing letters, vol. 21, no. 1, pp. 65 68, 2013.

[2] K. Han, Y. Wang, and D. Wang, Learning spectral mapping for speech dereverberation, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014, pp. 4628 4632.

[3] S. Pascual, A. Bonafonte, and J. Serra, Segan： Speech enhancement generative adversarial network, arXiv preprint arXiv：1703.09452, 2017.

[4] S. R. Park and J. Lee, A fully convolutional neural network for speech enhancement, arXiv preprint arXiv：1609.07132, 2016.

[5] Y. Ephraim and D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Transactions on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.

[6] L. Griffiths and C. Jim, An alternative approach to linearly constrained adaptive beamforming, IEEE Transactions on antennas and propagation, vol. 30, no. 1, pp. 27 34, 1982.

[7] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, Investigating RNN-based speech enhancement methods for noiserobust text-to-speech. in SSW, 2016, pp. 146 152.

[8] J.-M. Valin, A hybrid dsp/deep learning approach to real-time full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018, pp. 1 5.

[9] Y. Isik, J. L. Roux, Z. Chen, S. Watanabe, and J. R. Hershey, Single-channel multi-speaker separation using deep clustering, arXiv preprint arXiv：1607.02173, 2016.

[10] M. Kolbæk, D. Yu, Z.-H. Tan, and J. Jensen, Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 10, pp. 1901 1913, 2017.

[11] Y. Luo and N. Mesgarani, Tasnet： time-domain audio separation network for real-time, single-channel speech separation, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 696 700.

[12] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.

[13] Y. Luo, Z. Chen, and T. Yoshioka, Dual-path RNN： efficient long sequence modeling for time-domain single-channel speech separation, arXiv preprint arXiv：1910.06379, 2019.

[14] C. K. A. Reddy, E. Beyrami, H. Dubey, V. Gopal, R. Cheng, R. Cutler, S. Matusevych, R. Aichner, A. Aazami, S. Braun, P. Rana, S. Srinivasan, and J. Gehrke, The interspeech 2020 deep noise suppression challenge： Datasets, subjective speech quality and testing framework, 2020.

[15] Y. Xia, S. Braun, C. K. A. Reddy, H. Dubey, R. Cutler, and I. Tashev, Weighted speech distortion losses for neural-networkbased real-time speech enhancement, in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 871 875.

[16] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM transactions on audio, speech, and language processing, vol. 24, no. 3, pp. 483 492, 2015.

[17] Z.-Q.Wang, J. L. Roux, D.Wang, and J. R. Hershey, End-to-end speech separation with unfolded iterative phase reconstruction, arXiv preprint arXiv：1804.10204, 2018.

[18] Y. Luo and N. Mesgarani, Conv-tasnet： Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM transactions on audio, speech, and language processing, vol. 27, no. 8, pp. 1256 1266, 2019.

[19] M. Maciejewski, G. Wichern, E. McQuinn, and J. Le Roux, Whamr!： Noisy and reverberant single-channel speech separation, in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 696 700.

[20] I. Kavalerov, S. Wisdom, H. Erdogan, B. Patton, K. Wilson, J. Le Roux, and J. R. Hershey, Universal sound separation, in 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019, pp. 175 179.

[21] J. L. Ba, J. R. Kiros, and G. E. Hinton, Layer normalization, arXiv preprint arXiv：1607.06450, 2016.

[22] Y. Luo and N. Mesgarani, Conv-tasnet： Surpassing ideal timefrequency magnitude masking for speech separation, arXiv preprint arXiv：1809.07454, 2018.

[23] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech： an asr corpus based on public domain audio books, in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 5206 5210.

[24] J. F. Gemmeke, D. P. Ellis, D. Freedman, A. Jansen,W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter, Audio set： An ontology and human-labeled dataset for audio events, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 776 780.

[25] J. Thiemann, N. Ito, and E. Vincent, The diverse environments multi-channel acoustic noise database： A database of multichannel environmental noise recordings, The Journal of the Acoustical Society of America, vol. 133, no. 5, pp. 3591 3591, 2013.

[26] G. Pirker, M. Wohlmayr, S. Petrik, and F. Pernkopf, A pitch tracking corpus with evaluation on multipitch tracking scenario, in Twelfth Annual Conference of the International Speech Communication Association, 2011.

[27] Itu-t p. 808： Subjective evaluation of speech quality with a crowdsourcing approach, 2018.

[28] J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe, Deep clustering： Discriminative embeddings for segmentation and separation, in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Mar. 2016, pp. 31 35. [Online]. Available： https：//www.merl.com/publications/ TR2016-003

[29] R. Scheibler, E. Bezzam, and I. Dokmani c, Pyroomacoustics： A python package for audio room simulation and array processing algorithms, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 351 355.

[30] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv：1412.3555, 2014. [31] Itu-t p. 862： Perceptual evaluation of speech quality (pesq)： An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. 2001.

[32] J. Le Roux, S. Wisdom, H. Erdogan, and J. R. Hershey, Sdr half-baked or well done? in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 626 630.

[33] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, A shorttime objective intelligibility measure for time-frequency weighted noisy speech, in 2010 IEEE international conference on acoustics, speech and signal processing. IEEE, 2010, pp. 4214 4217.