最近认真的研读了这篇关于降噪的论文.它是一种利用混合模型降噪的方法,即既利用了生成模型(MoG高斯模型),也利用了判别模型(神经网络NN模型).本文根据自己的理解对原理做了梳理. 论文是基于"Speech Enhancement Using a Mixture-Maximum Model"提出的MixMAX模型的.假设噪声是加性噪声,干净语音为x(t),噪声为y(t),则在时域带噪语音z(t)可以表示为z(t) = x(t) + y(t).对z(t)做短时傅里叶变换(STFT)得到Z(…
白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 2.  论文思路和方法 1)  问题范围: 单词识别 2)  CNN层:使用标准CNN提取图像特征,利用Map-to-Sequence表示成特征向量: 3)  RNN层:使…
目录 摘要 一.引言 二.相关工作 基于体素网格的特征学习 直接从非结构化点云中学习特征 从多视图模型中学习特征 几何深度学习的学习特征 三.GAPNet架构 3.1 GAPLayer 局部结构表示 单头GAPLayer 多头机制 3.2注意力池化层 3.3 GAPNet架构 四.实验 4.1分类 数据集 网络结构 训练细节 结果 消融研究 4.2 语义部件分割 数据集 模型结构 训练细节 结果 五.结论 GAPNet: Graph Attention based Point Neural Ne…
文中提出了一种深度网络来解决单通道语音增强问题. 链接:https://arxiv.org/abs/1911.01902 简介 因为背景噪声和混响的存在,录音通常会被扭曲,会对后端的语音识别等技术产生负面影响.单通道的语音增强算法一般有以下几种:Spectral estimation methods(OMLSA,etc),Source separation methods,Mapping methods.DNNs方法属于最后一种.DNN在训练过程中能够处理大量不同种类的噪声信号,这使其可以同时用…
做音频软件开发10+年,包括语音通信.语音识别.音乐播放等,大部分时间在做语音通信.做语音通信中又大部分时间在做VoIP语音处理.语音通信是全双工的,既要把自己的语音发送出去让对方听到,又要接收对方的语音让自己听到.发送又可叫做上行或者TX,接收又可叫做下行或者RX.之前写了好多关于VoIP语音处理方面的文章,本文想结合框图对相关知识做一个梳理.先综述发送和接收方向的处理,再具体到每个知识点上.讲到某个知识点,如曾经写过相关的文章,就给出链接,如没有写过,等以后写到时再补上链接.由于一些知识点在…
论文地址:基于动态注意的递归网络单耳语音增强 论文代码:https://github.com/Andong-Li-speech/DARCN 引用格式:Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network with Dynamic Attention for Monaural Speech Enhancement. Proc. Interspeech 2020, 2422-2426 摘要 听觉动态注意理论已经…
论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware composite deep neural network for speech enhancement[J]. Speech Communication,2022,136:1-13. 摘要 目前,利用深度神经网络(DNN)进行语音增强的大多数方法都面临着一些限制:它们没有利用相位谱中的信息,同时它们的高计算…
论文作者:Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li 翻译作者:凌逆战 论文地址:Fullsubnet:实时单通道语音增强的全频带和子频带融合模型 代码:https://github.com/haoxiangsnr/FullSubNet 摘要 本文提出了一种用于单通道实时语音增强的全频带和子频带融合模型FullSubNet.全频带和子频带是指分别输入全频带和子频带噪声频谱特征,输出全频带和子频带语音目标的模型.子带模型独立处理每个频率…
论文地址:用于端到端语音增强的卷积递归神经网络 论文代码:https://github.com/aleXiehta/WaveCRN 引用格式:Hsieh T A, Wang H M, Lu X, et al. WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement[J]. IEEE Signal Processing Letters, 2020, 27: 2149…
论文地址:https://dl.acm.org/doi/abs/10.1145/3330393.3330399 基于深度神经网络的回声消除回归方法 摘要 声学回声消除器(AEC)的目的是消除近端传声器接收到的混合信号中的声学回声.传统的方法是使用自适应有限脉冲响应(FIR)滤波器来识别房间脉冲响应(RIR),因为房间脉冲响应对各种野外场景都不具有鲁棒性.在本文中,我们提出了一种基于深度神经网络的回归方法,从近端和远端混合信号中提取的特征直接估计近端目标信号的幅值谱.利用深度学习强大的建模和泛化能…
论文地址:DCCRN:用于相位感知语音增强的深度复杂卷积循环网络 论文代码:https://paperswithcode.com/paper/dccrn-deep-complex-convolution-recurrent-1 引用:Hu Y,Liu Y,Lv S,et al. DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement[J]. arXiv preprint arXiv:…
论文地址:两阶段深度网络的解耦幅度和相位优化 论文代码: 引用格式:Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Spee…
论文地址:基于神经网络的实时语音增强的加权语音失真损失 论文代码:https://github.com/GuillaumeVW/NSNet 引用:Xia Y, Braun S, Reddy C K A, et al. Weighted speech distortion losses for neural-network-based real-time speech enhancement[C]//ICASSP 2020-2020 IEEE International Conference on…
论文地址:DeepFilterNet:基于深度滤波的全频带音频低复杂度语音增强框架 论文代码:https://github.com/ Rikorose/DeepFilterNet 引用:Schröter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprin…
论文地址:延迟约束的语音增强基音估计 引用格式:Schröter H, Rosenkranz T, Escalante-B A N, et al. LACOPE: Latency-Constrained Pitch Estimation for Speech Enhancement[C]//Interspeech. 2021: 656-660. 摘要 基频($f_0$)估计,又称基音跟踪,是语音和信号处理领域长期以来的研究课题.然而,许多基音估计算法在噪声条件下失败,或者由于其帧大小或Viter…
论文地址:一种新的基于循环神经网络的远场语音通信实时噪声抑制算法 引用格式:Chen B, Zhou Y, Ma Y, et al. A New Real-Time Noise Suppression Algorithm for Far-Field Speech Communication Based on Recurrent Neural Network[C]//2021 IEEE International Conference on Signal Processing, Communica…
论文地址:基于通用传递函数GSC和后置滤波的语音增强 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12232341.html 摘要 在语音增强应用中,麦克风阵列后置滤波可进一步减少波束形成器输出处的噪声成分.在麦克风阵列结构中,最近提出的通用传递函数广义旁瓣消除器(TF-GSC)在定向噪声场中显示出令人印象深刻的降噪能力,同时仍保持低语音失真.但是,在扩散噪声场中,可获得的降噪效果不明显.当噪声信号不稳定时,性能甚至会进一步下降. 在本文中…
作者:桂. 时间:2017-06-06  16:10:47 链接:http://www.cnblogs.com/xingshansi/p/6951494.html 原文链接:http://pan.baidu.com/s/1i51Kymp omlsa代码:http://pan.baidu.com/s/1bpkvLVp omlsa论文:http://pan.baidu.com/s/1i5j3Adv 前言 这篇文章是TF-GSC的改进版.虽然TF-GSC对于方向性干扰的抑制效果不错,对于弥散噪声(di…
题名:一种用于语音带宽扩展的深度神经网络方法 作者:Kehuang Li:Chin-Hui Lee 2015年出来的 摘要 本文提出了一种基于深度神经网络(DNN)的语音带宽扩展(BWE)方法.利用对数谱功率作为输入输出特征进行所需的非线性变换,训练神经网络来实现这种高维映射函数.在10小时的大型测试集上对该方法进行评估时,我们发现与传统的基于高斯混合模型(GMMs)的BWE相比,DNN扩展语音信号在信噪比和对数谱失真方面具有很好的客观质量度量.在假定相位信息已知的情况下,主观听力测试对DNN扩…
论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss[J]. Proc. Interspeech 2021, 2021: 2826-2830. 摘要 基于深度神经网络的语音增强方法优于传统的信号处理方法.我们提出了一种利用新的感知激励训练目标和损失函数的低延迟语音增强方法.该方法可…
前面的几篇文章讲了webRTC中的语音降噪.最近又用到了基于MCRA-OMLSA的语音降噪,就学习了原理并且软件实现了它.MCRA主要用于噪声估计,OMLSA是基于估计出来的噪声去做降噪.类比于webRTC中的降噪方法,也有噪声估计(分位数噪声估计法)和基于估计出来的噪声降噪(维纳滤波),MCRA就相当于分位数噪声估计法,OMLSA就相当于维纳滤波.本文先讲讲怎么用MCRA和OMLSA来做语音降噪的原理,后续会讲怎么来做软件实现. 一, MCRA MCRA的全称是Minima Controlle…
论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本 论文代码:https://github.com/JasonSWFu/MetricGAN 引用格式:Fu S W, Yu C, Hsieh T A, et al. MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement[J]. arXiv preprint arXiv:2104.03538, 2021. 摘要 用于训练语音增强模型的代价函数…
论文地址:https://arxiv.53yu.com/abs/2106.07577 基于 F-T-LSTM 复杂网络的联合声学回声消除和语音增强 摘要 随着对音频通信和在线会议的需求日益增加,在包括噪声.混响和非线性失真在内的复杂声学场景下,确保声学回声消除(AEC)的鲁棒性已成为首要问题.尽管已经有一些传统的方法考虑了非线性失真,但它们对于回声抑制仍然效率低下,并且在存在噪声时性能会有所衰减.在本文中,我们提出了一种使用复杂神经网络的实时 AEC 方法,以更好地建模重要的相位信息和频率时间…
论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model compression for deep learning based speech enhancem…
论文地址:TinyLSTMs:助听器的高效神经语音增强 音频地址:https://github.com/Bose/efficient-neural-speech-enhancement 引用格式:Fedorov I,Stamenovic M,Jensen C,et al. TinyLSTMs:Efficient neural speech enhancement for hearing aids[J]. arXiv preprint arXiv:2005.11138,2020. 摘要 现代语音增…
论文地址:单耳语音增强的时频注意 引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856. 摘要 大多数语音增强研究通常…
上篇(webRTC中语音降噪模块ANS细节详解(二))讲了ANS的处理流程和语音在时域和频域的相互转换.本篇开始讲语音降噪的核心部分,首先讲噪声的初始估计以及基于估计出来的噪声算先验信噪比和后验信噪比. 1,初始噪声估计 webRTC中ANS的初始噪声估计用的是分位数噪声估计法(QBNE,Quantile Based Noise Estimation),对应的论文为<Quantile Based Noise Estimation For Spectral Subtraction And Wien…
提出了模型和损失函数 论文名称:扩展卷积密集连接神经网络用于时域实时语音增强 论文代码:https://github.com/ashutosh620/DDAEC 引用:Pandey A, Wang D L. Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain[C]//ICASSP 2020-2020 IEEE Internati…
上篇文章(基于MCRA-OMLSA的语音降噪(二):实现)讲了基于MCRA-OMLSA的语音降噪的软件实现.本篇继续讲,主要讲C语言下怎么对数学库里的求平方根(sqrt()).求自然指数(exp()).求自然对数(log())的函数做替换. 1,求平方根 求平方根最常用的方法是牛顿迭代法.下图是y = f(x)的曲线,当f(x) =0时的值(α)就是该方程的根. 可以通过多次迭代逼近的方法求得这个根,原理如下: 任取一个x0,这个值对应的y值为f(x0).在x0处画y = f(x)的切线,与x轴…
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强 论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式:Zhu Y, Xu X, Ye Z. FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective funct…