论文地址:https://indico2.conference4me.psnc.pl/event/35/contributions/3367/attachments/779/817/Thu-1-10-6.pdf 利用循环神经网络抑制非线性残差回声 摘要 免提通信设备的声学前端会对扬声器和麦克风之间的线性回声路径带来各种失真.虽然放大器可能会引入一个无记忆的非线性,但从扬声器通过设备外壳传递到麦克风的机械振动会引起记忆的非线性,这很难弥补.这些失真极大地限制了线性AEC算法的性能.虽然针对个别用例…
论文地址:https://ieeexplore.ieee.org/abstract/document/9306224 基于RNN的回声消除 摘要 本文提出了一种基于深度学习的语音分离技术的回声消除方法.传统上,AEC使用线性自适应滤波器来识别麦克风和扬声器之间的声脉冲响应.然而,当传统方法遇到非线性条件时,处理的结果并不理想.我们的实践利用了深度学习技术的优势,这有利于非线性处理.在所采用的RNN系统中,与传统的语音分离方法不同,我们增加了单讲特征,并为每个元素分配特定的权重.实验结果表明,该方…
论文地址:https://graz.pure.elsevier.com/en/publications/acoustic-echo-cancellation-with-cross-domain-learning 具有跨域学习的声学回声消除 摘要: 本文提出了跨域回声控制器(CDEC),提交给 Interspeech 2021 AEC-Challenge.该算法由三个构建块组成:(i) 时延补偿 (TDC) 模块,(ii) 基于频域块的声学回声消除器 (AEC),以及 (iii) 时域神经网络 (…
论文地址:ICASSP 2021声学回声消除挑战:数据集和测试框架 代码地址:https://github.com/microsoft/DNS-Challenge 主页:https://aec-challenge.azurewebsites.net/ 摘要 ICASSP 2021年声学回声消除挑战赛旨在促进声学回声消除(AEC)领域的研究,该领域是语音增强的重要组成部分,也是音频通信和会议系统中的首要问题.许多最近的AEC研究报告了在训练和测试样本(来自相同基础分布的合成数据集)上的良好性能.然…
论文地址:https://ieeexplore.ieee.org/abstract/document/9413510 基于双信号变换LSTM网络的回声消除 摘要 本文将双信号变换LSTM网络(DTLN)应用于实时声学回声消除(AEC)任务中.DTLN结合了短时傅里叶变换和堆叠网络方法中的学习特征表示,这使得在时频和时域(也包括相位信息)中能够进行鲁棒的信息处理.该模型仅在真实和合成回声场景下训练60小时.训练设置包括多语言语音.数据增强.附加噪音和混响,以创建一个可以很好地适用于各种现实环境的模…
论文地址:一种新的基于循环神经网络的远场语音通信实时噪声抑制算法 引用格式:Chen B, Zhou Y, Ma Y, et al. A New Real-Time Noise Suppression Algorithm for Far-Field Speech Communication Based on Recurrent Neural Network[C]//2021 IEEE International Conference on Signal Processing, Communica…
论文地址:用于端到端语音增强的卷积递归神经网络 论文代码:https://github.com/aleXiehta/WaveCRN 引用格式:Hsieh T A, Wang H M, Lu X, et al. WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement[J]. IEEE Signal Processing Letters, 2020, 27: 2149…
论文地址:https://arxiv.53yu.com/abs/2005.09237 自适应数字滤波与循环神经网络相结合的回声消除技术 摘要 回声消除(AEC)在语音交互中起关键作用.由于明确的数学原理和适应条件的智能特性,具有不同实现类型的自适应滤波器始终用于AEC,从而提供了可观的性能.但是,结果中会存在某种残留回波,包括估计和实际之间不匹配引起的线性残留以及主要由音频设备上的非线性分量引起的非线性残留.可以通过精细的结构和方法减少线性残留,但非线性残留难以抑制.尽管已经提出了一些非线性处理…
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要 在移动端上进行实时的像素级分割十分重要.基于分割的深度神经网络中存在大量的浮点运算而且需要经过较长的时间才可以进行投入使用.该文提出的ENet目的是减少潜在的计算.ENet相比现存的分割网络,速度快18倍,参数量要少79倍,同时分割得到的准确率不有所损失,甚至有所提高. 介绍 目前,增强现实可…
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情感,响度.这些信息对于语音的理解也是很重要的.本文关注其中一个点,如何识别出语音的情感,即语音情感识别(Speech Emotion Recognition, SER). 语音情感识别的三个难点 1. 感情是主观的:不同人对于同一段语音,理解出的情感不尽相同,而且存在一定的文化差异. 2. 感情在语…