论文地址:https://ieeexplore.ieee.org/abstract/document/9413510 基于双信号变换LSTM网络的回声消除 摘要 本文将双信号变换LSTM网络(DTLN)应用于实时声学回声消除(AEC)任务中.DTLN结合了短时傅里叶变换和堆叠网络方法中的学习特征表示,这使得在时频和时域(也包括相位信息)中能够进行鲁棒的信息处理.该模型仅在真实和合成回声场景下训练60小时.训练设置包括多语言语音.数据增强.附加噪音和混响,以创建一个可以很好地适用于各种现实环境的模…
论文地址:ICASSP 2021声学回声消除挑战:数据集和测试框架 代码地址:https://github.com/microsoft/DNS-Challenge 主页:https://aec-challenge.azurewebsites.net/ 摘要 ICASSP 2021年声学回声消除挑战赛旨在促进声学回声消除(AEC)领域的研究,该领域是语音增强的重要组成部分,也是音频通信和会议系统中的首要问题.许多最近的AEC研究报告了在训练和测试样本(来自相同基础分布的合成数据集)上的良好性能.然…
论文地址:https://arxiv.53yu.com/abs/2005.09237 自适应数字滤波与循环神经网络相结合的回声消除技术 摘要 回声消除(AEC)在语音交互中起关键作用.由于明确的数学原理和适应条件的智能特性,具有不同实现类型的自适应滤波器始终用于AEC,从而提供了可观的性能.但是,结果中会存在某种残留回波,包括估计和实际之间不匹配引起的线性残留以及主要由音频设备上的非线性分量引起的非线性残留.可以通过精细的结构和方法减少线性残留,但非线性残留难以抑制.尽管已经提出了一些非线性处理…
论文地址:https://ieeexplore.ieee.org/abstract/document/9306224 基于RNN的回声消除 摘要 本文提出了一种基于深度学习的语音分离技术的回声消除方法.传统上,AEC使用线性自适应滤波器来识别麦克风和扬声器之间的声脉冲响应.然而,当传统方法遇到非线性条件时,处理的结果并不理想.我们的实践利用了深度学习技术的优势,这有利于非线性处理.在所采用的RNN系统中,与传统的语音分离方法不同,我们增加了单讲特征,并为每个元素分配特定的权重.实验结果表明,该方…
论文标题:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 论文作者: Baoguang Shi, Xiang Bai and Cong Yao 论文代码的下载地址:http://mc.eistar.net/~xbai/CRNN/crnn_code.zip 论文地址:https://arxiv.org/p…
论文地址:https://ieeexplore.ieee.org/abstract/document/9414462 ICASSP 2021声学回声消除挑战:结合时间对准的自适应回声消除和基于深度学习的残余回声加噪声抑制 摘要: 本文描述了一种用于ICASSP 2021年声学回声消除挑战赛的三级声学回声消除和抑制框架.第一阶段采用分块频域自适应滤波,在不引入近端语音失真的情况下消除线性回声分量,并预先补偿远端参考信号与麦克风信号之间的时延.在第二阶段,提出了一种结合门控循环单元的深复杂U-Net…
论文地址:https://arxiv.53yu.com/abs/2106.07577 基于 F-T-LSTM 复杂网络的联合声学回声消除和语音增强 摘要 随着对音频通信和在线会议的需求日益增加,在包括噪声.混响和非线性失真在内的复杂声学场景下,确保声学回声消除(AEC)的鲁棒性已成为首要问题.尽管已经有一些传统的方法考虑了非线性失真,但它们对于回声抑制仍然效率低下,并且在存在噪声时性能会有所衰减.在本文中,我们提出了一种使用复杂神经网络的实时 AEC 方法,以更好地建模重要的相位信息和频率时间…
论文地址:https://graz.pure.elsevier.com/en/publications/acoustic-echo-cancellation-with-cross-domain-learning 具有跨域学习的声学回声消除 摘要: 本文提出了跨域回声控制器(CDEC),提交给 Interspeech 2021 AEC-Challenge.该算法由三个构建块组成:(i) 时延补偿 (TDC) 模块,(ii) 基于频域块的声学回声消除器 (AEC),以及 (iii) 时域神经网络 (…
论文作者:Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li 翻译作者:凌逆战 论文地址:Fullsubnet:实时单通道语音增强的全频带和子频带融合模型 代码:https://github.com/haoxiangsnr/FullSubNet 摘要 本文提出了一种用于单通道实时语音增强的全频带和子频带融合模型FullSubNet.全频带和子频带是指分别输入全频带和子频带噪声频谱特征,输出全频带和子频带语音目标的模型.子带模型独立处理每个频率…
论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss[J]. Proc. Interspeech 2021, 2021: 2826-2830. 摘要 基于深度神经网络的语音增强方法优于传统的信号处理方法.我们提出了一种利用新的感知激励训练目标和损失函数的低延迟语音增强方法.该方法可…