论文地址:单耳语音增强的时频注意

引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856.


摘要

  大多数语音增强研究通常没有明确考虑语音在时频(t -f)表示中的能量分布,这对于准确预测掩模或频谱具有重要意义。在本文中,我们提出了一个简单而有效的T-F注意(TFA)模块,该模块产生了一个二维attention map,为T-F表示的谱分量提供了差异化的权重。为了验证我们提出的TFA模块的有效性,我们使用残差时间卷积网络(ResTCN)作为骨干网络,并在两个常用的训练目标上进行了广泛的实验。我们的实验表明,应用我们的TFA模块在五个客观评价指标方面显著提高性能,而参数开销可以忽略不计。评估结果表明,提出的带TFA模块的ResTCN (ResTCN+TFA)始终在很大程度上优于其他基线。

索引术语:语音增强,时频注意,能量分布,时间卷积网络(temporal convolutional network)

1  引用

  语音增强是指在存在背景噪声的情况下对语音信号进行增强。它是许多语音处理应用的基本组成部分,如自动语音识别、说话人识别、助听器和电话会议。基于统计模型的语音增强[1-3]已经被广泛研究了几十年,该方法对平稳噪声有很好的增强效果,但对非平稳噪声[4]的增强效果不佳。

  基于监督深度学习的语音增强技术已经取得了显著的进展。根据对输入信号的处理方式,现有方法可以分为两类。时域方法直接对语音波形进行语音增强,其中DNN被优化以学习从带噪语音波形到纯净语音波形的映射[5,6]。时频域(T-F)域方法通常训练DNN预测纯净语音或T-F掩码的频谱表示。目前最流行的T-F掩模包括理想比例掩模(IRM)[7]、相敏掩模(PSM)[8]和复数IRM (cIRM)[9]。在本研究中,我们采用IRM和PSM进行语音增强。

  在早期的研究中,多层感知器(MLPs)是应用最广泛的架构,但它们在捕获长期依赖方面存在局限性。为了克服这一局限性,Chen等人[10]采用四层长短期记忆(LSTM)的递归神经网络(RNN)进行语音增强,明显优于MLPs。然而,LSTM网络的训练过程缓慢而复杂,并且需要大量的参数,这严重限制了它的适用性。最近,利用扩张卷积和剩余跳跃连接的剩余时间卷积网络(ResTCNs)[11]在建模长期依赖关系方面表现出了令人印象深刻的性能,并在语音增强方面取得了相当大的成功[12 14]。近年来,基于自注意的Transformer[15]模型已成功地应用于语音增强和许多其他与语音处理相关的任务,因为它们具有捕获远程依赖关系的能力。

  现有的模型主要关注如何有效地对长程依赖进行建模,而一般忽略了T-F表示中语音的能量分布特征,而T-F表示对语音增强同样重要。注意力机制[16 18]已被充分研究,以了解什么对学习任务是重要的。受注意力的启发,我们提出了一种新的结构单元,称为T-F注意力(TFA)模块,用于模拟语音的能量分布。具体而言,TFA模块由两个平行的注意分支组成,即时间维(TA)和频率维(FA)[19],它们产生两个1-D attention map,分别指导模型关注何处(哪个时间框架)和什么(哪个频率通道)。结合TA和FA模块生成二维注意力图,使模型能够捕捉T-F域的语音分布。为了验证这一想法,我们使用最新的ResTCN架构作为骨干网络,并采用两个代表性的训练目标(将在第2节中讨论)进行广泛的实验。

  本文的其余部分组织如下。第二节介绍了T-F域语音增强技术。在第3节中,我们描述了拟议的网络。第4节介绍了实验装置和评估结果。第5部分对本文进行了总结。

2  问题公式化

  在短时傅里叶变换(STFT)域中,带噪语音可以被建模为纯净语音和加性噪声的组合

$$公式1:X[l,k]=S[l,k]+D[l,k]$$

其中$X[l,k]$, $S[l, k]$和$D[l, k]$分别表示带噪语音、纯净语音和噪声在时间帧$l$和频率bin $k$的STFT系数。对于有监督的语音增强,通常训练DNN来预测预先设计的训练目标。然后应用该结果重建纯净的语音。为了验证我们提出的TFA模块的有效性,我们采用两个广泛使用的训练目标进行广泛的增强实验。详情如下:

  理想比值掩模( ideal ratio mask,IRM)[7]的定义为:

$$公式2:\operatorname{IRM}[l, k]=\sqrt{\frac{|S[l, k]|^{2}}{|S[l, k]|^{2}+|D[l, k]|^{2}}}$$

式中$|S[l, k]|$和$|D[l, k]|$分别为纯净语音和噪声的频谱大小。

  相敏掩模(phase-sensitive mask,PSM)[8]是根据纯净和带噪语音的STFT幅值定义的。引入一个相位误差项来补偿对带噪声语音相位的利用

$$公式3:\operatorname{PSM}[l, k]=\frac{|S[l, k]|}{|X[l, k]|} \cos \left[\theta_{S[l, k]-X[l, k]}\right]$$

式中$\theta_{S[l,k]-X[l,k]}$表示纯净语音与带噪语音之间的相位差。PSM被截断到0到1之间,以拟合sigmoid激活函数的输出范围。

3  TF-Attention的语音增强

3.1  网络结构

  图1(a)展示了ResTCN骨干网[12]的结构,它以带噪语音$|X|]\in R^{L*K}$的STFT幅值作为输入。输出层为全连接层,具有sigmoidal激活函数,产生输出掩码 (IRM或PSM)。图1(b)显示了我们如何将TFA模块插入到ResTCN块中。ResTCN块(如图1 (a)的黑色虚线框所示)包含三个1-D因果扩张卷积单元。每个卷积单元中的参数表示为kernel size、filter nums和dilation rate。循环dilation rate为块索引$b=\{1,2,3,...B\}$增大:$d=2^{(b-1mod(log_2(D)+1))}$,其中mod为取模运算,D = 16为最大dilation rate。每个卷积单元都采用预激活设计,其中输入通过frame-wise alization (LN)和ReLU激活函数进行预激活。

图1所示  (a) ResTCN骨干网和(b)我们提出的带有TFA模块的ResTCN块

3.2  TF注意力模块

图2所示。我们提出的TFA模块示意图,其中TA和FA模块分别显示在黑色和蓝色的点框中。AvgPool和Conv1D分别表示平均池化和1-D卷积操作。$\otimes $和$\odot $分别表示矩阵乘法和元素级积

  在图2中,我们说明了提出的TFA模块。我们将变换后的T-F表示Y RL dmodel作为L帧和dmodel频率通道的输入。TFA利用两个分支并行生成1- d频率维attention map FA R1 dmodel和1- d时间帧attention map TA RL 1,再结合矩阵乘法得到最终的2-D T-Fattention map TFA RL dmodel。改进后的输出写为

$$公式4:\tilde{\mathbf{Y}}=\mathbf{Y} \odot \mathbf{T F}_{\boldsymbol{A}}$$

其中$\odot $表示逐元素乘积。下面给出了提议的 TFA 的详细描述。

  语音在时间和频率维度上的能量分布是生成准确attention map的关键。每个Attention分支生成attention map分两步:全局信息聚合和Attention生成。具体来说,FA模块在给定的输入Y上沿时间维度进行全局平均池化,并生成frequency-wise统计$Z_F\in R^{1*d_{model}}$,公式为:

$$公式5:\mathbf{Z}_{\mathbf{F}}(k)=\frac{1}{L} \sum_{l=1}^{L} \mathbf{Y}(l, k)$$

其中$Z^F(k)$是$Z_F$的第k个元素,同样的,TA模块沿着输入X的频率维度进行全局平均池化,并生成一个基于time-frame-wise的统$Z_T\in R^{L*1}$。$Z_T$的第$l$个元素可以写成:

$$公式6:\mathbf{Z}_{\mathbf{T}}(l)=\frac{1}{d_{\text {model }}} \sum_{k=1}^{d_{\text {model }}} \mathbf{Y}(l, k)$$

  两个统计量$Z_T$和$Z_F$分别可以看作是语音能量在时间维度和频率维度上的分布。为了充分利用这两种描述符产生准确的Attention权值,我们堆叠两个一维卷积层$k_{tfa}=17$作为非线性变换函数。FA模块的Attention具体计算为

$$公式7:\mathbf{F}_{\mathbf{A}}=\sigma\left(f_{2}^{F A}\left(\delta\left(f_{1}^{F A}\left(\mathbf{Z}_{\mathbf{F}}\right)\right)\right)\right)$$

式中$f$为1-D卷积运算,$\delta$和$ \sigma $分别为ReLU和sigmoid激活函数。在TA模块中采用相同的计算过程生成Attention map:

$$公式8:\mathbf{T}_{\mathbf{A}}=\sigma\left(f_{2}^{T A}\left(\delta\left(f_{1}^{T A}\left(\mathbf{Z}_{\mathbf{T}}\right)\right)\right)\right)$$

然后,将从两个注意分支获得的Attention map与张量乘法相结合,产生最终的2-D Attention map TFA

$$公式9:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}} \otimes \mathbf{F}_{\mathbf{A}}$$

其中$\otimes $表示张量乘法运算。最终二维 Attention map TFA的计算公式为:

$$公式10:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}}(l)*\mathbf{F}_{\mathbf{A}}(l)$$

其中$T_A(l)$和$F_A(k)$分别表示$T_A$的第$l$个元素,和$F_A$的第k个元素。

4  实验

4.1  数据集和特征提取

  我们使用Librispeech[20]语料库中的train-clean-100作为训练集中的纯净语音,包括251个说话人的28539个语音。训练集中使用的噪声来自以下数据集:QUT-NOISE数据集[21],非语音数据集[22],环境背景噪声数据集[23,24],RSG-10数据集[25](语音babble, F16,和工厂焊接除外进行测试),Urban Sound数据集[26](街头音乐记录no.[26])。26 270被排除用于测试)、MUSAN语料库[27]的噪声集和彩色噪声(α值从2到2,以0.25为增量)。总共有6 909个噪音。对于验证集,我们随机选择1 000条纯净的语音和噪音录音(不替换),并将其从前述的纯净语音和噪音集中移除。每个纯净语音与一个噪声记录的随机部分混合,随机信噪比在-10 dB到20 dB之间,以1dB的增量产生1 000个噪声语音作为验证集。对于测试集,我们使用从RSG-10数据集[25]和Urban Sound数据集[26]中排除的四种真实世界的噪音记录(嘈杂声、F16、工厂焊接和街头音乐)。从Librispeech语料库[20]的test-clean-100中随机选择10条纯净的语音录音(没有替换),对每一条录音进行以下信噪比级别的混合:{-5 dB, 0 dB, 5 dB, 10 dB, 15 dB}。这将生成一个包含200段带噪声语音录音的测试集。所有纯净的语音和噪声录音都是单通道的,采样频率为16khz。

  采用平方根-Hann窗函数进行谱分析和合成,帧长为32 ms,帧移为16 ms。带噪语音的257频点作为输入,该幅谱包含直流频率分量和奈奎斯特频率分量。

4.2  实验步骤

  使用ResTCN模型作为基准骨干来验证我们的TFA模块的有效性。此外,我们还采用了两个最新的模型作为基线,即具有自我注意的ResTCN (ResTCN+SA)[28]和多头自我注意网络(MHANet)[29]。ResTCN基线使用以下参数,如[12],k = 3, $d_{model}$= 256, $d_f$ = 64, B = 40。ResTCN+SA[28]采用多头自我注意模块产生动态表示,然后采用ResTCN模型(采用B = 40个堆叠基线的ResTCN块构建ResTCN模型进行公平比较)进行非线性映射。MHANet模型[29]使用5层堆叠的Transformer编码器[15]进行语音增强,参数设置如[29]。为了验证TFA模块中FA和TA成分的有效性,我们进行了消融研究,其中使用FA和TA的ResTCN(称为ResTCN+FA和ResTCN+TA)被评估。

  训练方法:每个训练迭代使用10个mini batch的带噪语音。带噪语音信号的创建方法如下:为mini batch选择的每个纯净语音与随机选择的噪声的随机部分混合,信噪比随机选择(-10 dB到20 dB,以1 dB的增量)。以目标掩模与估计掩模之间的均方误差(MSE)为目标函数。对于ResTCN、ResTCN+SA和提出的模型,使用默认超参数[30]和学习率0.001的Adam优化器进行梯度下降优化。由于MHANet难以训练[29,31],我们采用[29]中的训练策略。梯度裁剪应用于所有模型,其中梯度裁剪在[-1,1]之间。

4.3  训练和验证误差

  图3-4给出了每个模型对150 epoch训练产生的训练和验证误差曲线。可以看到,与ResTCN相比,带有我们提出的TFA的ResTCN (ResTCN+TFA)产生了显著较低的训练和验证错误,这证实了TFA模块的有效性。同时,与ResTCN+SA和MHANet相比,ResTCN+TFA的训练和验证误差最低,具有明显的优越性。在三条基线中,MHANet性能最好,ResTCN+SA优于ResTCN。此外,通过对ResTCN、ResTCN+FA和ResTCN+TA的比较,验证了TA和FA模块的有效性。

图3所示。训练误差(a)和验证误差(b)在IRM训练目标上的曲线

图4所示。训练误差(a)和验证误差(b)在PSM训练目标上的曲线

4.4  结果和讨论

  本研究采用5个指标广泛评估增强性能,包括宽带语音质量感知评价(PESQ)[32]、扩展短时间目标可理解性(esti)[33]和3个复合指标[34],即信号失真的平均意见评分(MOS)预测指标(CSIG)、背景噪声入侵(CBAK)和整体信号质量(COVL)。

  表1和2分别给出了每个信噪比水平(横跨四个噪声源)的平均PESQ和esti得分。评估结果表明,我们提出的ResTCN+TFA在IRM和PSM上的PESQ和ESTOI均比ResTCN取得了显著的改进,参数开销可以忽略不计,证明了TFA模块的有效性。例如,在5 dB SNR的情况下,带IRM的ResTCN+TFA在PESQ上提高了基线ResTCN 0.18,在ESTOI上提高了4.94%。与MHANet和ResTCN+SA相比,ResTCN+TFA在所有情况下均表现出最佳性能,表现出明显的性能优势。在三条基线中,总体而言,绩效排名依次为MHANet >ResTCN + SA>ResTCN。同时,ResTCN+FA和ResTCN+TA也在ResTCN的基础上做了较大的改进,这也验证了FA和TA模块的有效性。表3列出了所有测试条件下CSIG、CBAK和COVL的平均得分。表1和表2中也观察到了类似的性能趋势。同样,我们提出的ResTCN+TFA在三个指标上明显优于ResTCN,并且在所有模型中表现最好。平均而言,与ResTCN+TFA和PSM相比,CSIG提高了0.21,CBAK提高了0.12,COVL提高了0.18。与MHANet相比,采用PSM的ResTCN+TFA使CSIG提高0.12,CBAK提高0.08,COVL提高0.11。

5  结论

  在本研究中,我们提出了一种轻量级和灵活的注意单元,称为TFA模块,旨在模拟T-F表示中语音的能量分布。在两个训练目标(IRM和PSM)上以ResTCN为骨干的大量实验证明了所提出的TFA模块的有效性。在所有的模型中,我们提出的ResTCN+TFA始终表现最佳,并在所有情况下显著优于其他基线。未来的研究工作包括调查TFA在更多架构(例如最近的Transformer)和更多培训目标上的有效性。

参考文献

[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013.

[2] Q. Zhang, M. Wang, Y. Lu, L. Zhang, and M. Idrees, A novel fast nonstationary noise tracking approach based on mmse spectral power estimator, Digital Signal Processing, vol. 88, pp. 41 52, 2019.

[3] Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoust. , Speech, Signal Process. , vol. ASSP-32, no. 6, pp. 1109 1121, Dec. 1984.

[4] Q. Zhang, M. Wang, Y. Lu, M. Idrees, and L. Zhang, Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging, IEEE Access, vol. 7, pp. 80 985 80 999, 2019.

[5] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, Proc. INTERSPEECH, pp. 3642 3646, 2017.

[6] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 8, pp. 1256 1266, 2019.

[7] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 22, no. 12, pp. 1849 1858, 2014.

[8] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. ICASSP, 2015, pp. 708 712.

[9] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 3, pp. 483 492, 2015.

[10] J. Chen and D. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[11] S. Bai, J. Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.

[12] Q. Zhang, A. Nicolson, M. Wang, K. K. Paliwal, and C. Wang, DeepMMSE: A deep learning approach to mmse-based noise power spectral density estimation, IEEE/ACM Trans. Audio,  speech, Lang. Process. , vol. 28, pp. 1404 1415, 2020.

[13] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 1, pp. 189 198, 2018.

[14] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. ICASSP, 2019, pp. 6875 6879.

[15] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention is all you need, in Proc. NIPS, 2017, pp. 5998 6008.

[16] J. Hu, L. Shen, and G. Sun, Squeeze-and-excitation networks, in Proc. CVPR, 2018, pp. 7132 7141.

[17] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, CBAM: Convolutional block attention module, in Proc. ECCV, 2018, pp. 3 19.

[18] V. A. Trinh, B. McFee, and M. I. Mandel, Bubble cooperative networks for identifying important speech cues, Interspeech 2018, 2018.

[19] Q. Zhang, Q. Song, A. Nicolson, T. Lan, and H. Li, Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement, in Proc. Interspeech 2021, 2021, pp. 166 170.

[20] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in Proc. ICASSP, 2015, pp. 5206 5210.

[21] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms, in Proc. INTERSPEECH, 2010.

[22] G. Hu, 100 nonspeech environmental sounds, The Ohio State University, Department of Computer Science and Engineering, 2004.

[23] F. Saki, A. Sehgal, I. Panahi, and N. Kehtarnavaz, Smartphone-based real-time classification of noise signals using subband features and random forest classifier, in Proc. ICASSP, 2016, pp. 2204 2208.

[24] F. Saki and N. Kehtarnavaz, Automatic switching between noise classification and speech enhancement for hearing aid devices, in Proc. EMBC, 2016, pp. 736 739.

[25] H. J. Steeneken and F. W. Geurtsen, Description of the rsg-10 noise database, report IZF, vol. 3, p. 1988, 1988. [26] J. Salamon, C. Jacoby, and J. P. Bello, A dataset and taxonomy for urban sound research, in Proc. ACM-MM, 2014, pp. 1041 1044.

[27] D. Snyder, G. Chen, and D. Povey, MUSAN: A music, speech, and noise corpus, arXiv preprint arXiv:1510.08484, 2015.

[28] Y. Zhao, D. Wang, B. Xu, and T. Zhang, Monaural speech dereverberation using temporal convolutional networks with self attention,  IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1598 1607, 2020.

[29] A. Nicolson and K. K. Paliwal, Masked multi-head selfattention for causal speech enhancement, Speech Communication, vol. 125, pp. 80 96, 2020.

[30] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [31] L. Liu, X. Liu, J. Gao, W. Chen, and J. Han, Understanding the difficulty of training transformers, in Proc. EMNLP, 2020, pp. 5747 5763.

[32] R. I.-T. P. ITU, 862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunication standardization sector, 2007.

[33] J. Jensen and C. H. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 11, pp. 2009 2022, 2016.

[34] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Trans. Audio, Speech, Lang. process. , vol. 16, no. 1, pp. 229 238, 2007.

论文翻译:2022_Time-Frequency Attention for Monaural Speech Enhancement的更多相关文章

  1. 论文翻译:2020_A Recursive Network with Dynamic Attention for Monaural Speech Enhancement

    论文地址:基于动态注意的递归网络单耳语音增强 论文代码:https://github.com/Andong-Li-speech/DARCN 引用格式:Li, A., Zheng, C., Fan, C ...

  2. 论文翻译:2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering

    论文地址:DeepFilterNet:基于深度滤波的全频带音频低复杂度语音增强框架 论文代码:https://github.com/ Rikorose/DeepFilterNet 引用:Schröte ...

  3. 论文翻译:2020_FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions

    论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强 论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式 ...

  4. 论文翻译:2021_Decoupling magnitude and phase optimization with a two-stage deep network

    论文地址:两阶段深度网络的解耦幅度和相位优化 论文代码: 引用格式:Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression chal ...

  5. 论文翻译:Fullsubnet: A Full-Band And Sub-Band Fusion Model For Real-Time Single-Channel Speech Enhancement

    论文作者:Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li 翻译作者:凌逆战 论文地址:Fullsubnet:实时单通道语音增强的全频带和子频带 ...

  6. 论文翻译:2020_WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement

    论文地址:用于端到端语音增强的卷积递归神经网络 论文代码:https://github.com/aleXiehta/WaveCRN 引用格式:Hsieh T A, Wang H M, Lu X, et ...

  7. 论文翻译:2022_PACDNN: A phase-aware composite deep neural network for speech enhancement

    论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware compo ...

  8. 论文翻译:2020_Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain

    提出了模型和损失函数 论文名称:扩展卷积密集连接神经网络用于时域实时语音增强 论文代码:https://github.com/ashutosh620/DDAEC 引用:Pandey A, Wang D ...

  9. 论文翻译:2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss

    论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Per ...

随机推荐

  1. 165. Compare Version Numbers - LeetCode

    Question 165. Compare Version Numbers Solution 题目大意: 比较版本号大小 思路: 根据逗号将版本号字符串转成数组,再比较每个数的大小 Java实现: p ...

  2. MySQL启动与多实例安装

    启动方式及故障排查 一.几个问题 1.1 /etc/init.d/mysql 从哪来 cp /usr/local/mysql/support-files/mysql.server /etc/init. ...

  3. cut-列过滤

    列过滤命令. 语法 cut [选项] 要过滤的字符串 选项 -f 以字段为单位进行分割 -c 以字符为单位进行分割 -b 以字节为单位进行分割 -d 以分割符为单位进行分割,分隔符可以是"冒 ...

  4. 测试平台系列(95) 前置条件支持简单的python脚本

    大家好~我是米洛! 我正在从0到1打造一个开源的接口测试平台, 也在编写一套与之对应的教程,希望大家多多支持. 欢迎关注我的公众号米洛的测开日记,获取最新文章教程! 回顾 上一节我们构思了一下怎么去支 ...

  5. 白嫖Azure与体验GoLand远程开发

    前言 近期因为有本地开发远程使用Linux编译部署的需求,而虚拟机的性能实在是不敢恭维,WSL的坑之前也踩过(没有systemd等),故考虑使用SSH连接云服务器开发. 目前VSCode提出了Remo ...

  6. Java变量, 常量和作用域

    目录 变量 作用域 局部变量 实例变量 类变量 常量 命名规范 视频课程 变量 变量就是可以变化的量 Java是一种强类型的语言, 每个变量都必须声明其类型 Java变量是程序中最基本的存储单元, 其 ...

  7. Node.js安装与环境配置

    废话不多少直接上干货.坐车扶稳, 当然你要知道Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台.其次Node.js是一个事件驱动I/O服务端JavaScript环境, ...

  8. 【主流技术】Mybatis Plus的理解与应用

    前言 mybatis plus是一个mybatis的增强工具,在其基础上只做增强不做改变.作为开发中常见的第三方组件,学习并应用在项目中可以节省开发时间,提高开发效率. 官方文档地址:MyBatis- ...

  9. 理论+案例,带你掌握Angular依赖注入模式的应用

    摘要:介绍了Angular中依赖注入是如何查找依赖,如何配置提供商,如何用限定和过滤作用的装饰器拿到想要的实例,进一步通过N个案例分析如何结合依赖注入的知识点来解决开发编程中会遇到的问题. 本文分享自 ...

  10. SAP Smart Form 无法通过程序自定义默认打印机问题解决

    *&---------------------------------------------------------------------* *& Form FRM_SET_PRI ...