提出了模型和损失函数 论文名称:扩展卷积密集连接神经网络用于时域实时语音增强 论文代码:https://github.com/ashutosh620/DDAEC 引用:Pandey A, Wang D L. Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain[C]//ICASSP 2020-2020 IEEE Internati…
论文地址:https://dl.acm.org/doi/abs/10.1145/3330393.3330399 基于深度神经网络的回声消除回归方法 摘要 声学回声消除器(AEC)的目的是消除近端传声器接收到的混合信号中的声学回声.传统的方法是使用自适应有限脉冲响应(FIR)滤波器来识别房间脉冲响应(RIR),因为房间脉冲响应对各种野外场景都不具有鲁棒性.在本文中,我们提出了一种基于深度神经网络的回归方法,从近端和远端混合信号中提取的特征直接估计近端目标信号的幅值谱.利用深度学习强大的建模和泛化能…
论文地址:TCNN:时域卷积神经网络用于实时语音增强 论文代码:https://github.com/LXP-Never/TCNN(非官方复现) 引用格式:Pandey A, Wang D L. TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain[C]//ICASSP 2019-2019 IEEE International Conference on Ac…
论文地址:基于动态注意的递归网络单耳语音增强 论文代码:https://github.com/Andong-Li-speech/DARCN 引用格式:Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network with Dynamic Attention for Monaural Speech Enhancement. Proc. Interspeech 2020, 2422-2426 摘要 听觉动态注意理论已经…
论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Pruning by learning only the important connections. all connections with weights below a threshold are removed from the network. retrain the network to learn the…
读这篇论文“ Multi Column Deep Neural Network for Traffic Sign Classification”是为了更加理解,论文“Multi-column Deep Neural Networks for Image Classification”…
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-5.pdf 基于GAN的回声消除 摘要 生成对抗网络(GANs)已成为语音增强(如噪声抑制)中的热门研究主题.通过在对抗性场景中训练噪声抑制算法,基于GAN的解决方案通常会产生良好的性能.在本文中,提出了卷积循环GAN架构(CRGAN-EC),以解决线性和非线性回声情况.所提出的体系结构在频域中进行了训练,并预测了目标语音的时频(TF)掩码.部署了几种度量损失函数,并研究了它们…
论文地址:https://arxiv.53yu.com/abs/2106.07577 基于 F-T-LSTM 复杂网络的联合声学回声消除和语音增强 摘要 随着对音频通信和在线会议的需求日益增加,在包括噪声.混响和非线性失真在内的复杂声学场景下,确保声学回声消除(AEC)的鲁棒性已成为首要问题.尽管已经有一些传统的方法考虑了非线性失真,但它们对于回声抑制仍然效率低下,并且在存在噪声时性能会有所衰减.在本文中,我们提出了一种使用复杂神经网络的实时 AEC 方法,以更好地建模重要的相位信息和频率时间…
文章转自微信公众号:[机器学习炼丹术] 参考目录: 目录 0 概述 1 主要内容 1.1 Non local的优势 1.2 pytorch复现 1.3 代码解读 1.4 论文解读 2 总结 论文名称:"Non-local Neural Networks" 论文地址:https://arxiv.org/abs/1711.07971 0 概述 首先,这个论文中的模块,叫做non-local block,然后这个思想是基于NLP中的self-attention自注意力机制的.所以在提到CV中…
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要 本文研究了利用深度神经网络及逆行自动语音识别(ASR)的语音模型,其输入是直接输入窗口形语音波(WSW).本文首先证明了,网络要实现自动化需要具有于梅尔频谱相类似的特征,(梅尔频谱是啥?参考,https://blog.csdn.net/qq_28006327/article/details/59129110),本文研究了挖掘…