基于信号协方差模型DOA的盲声源分离[1]. 在此基础上,作者团队于2018年又发布了一篇文章,采用分级和时间差的空间协方差模型及非负矩阵分解的多通道盲声源分离[2]. 摘要 本文通过对短时傅立叶变换混合信号的源空间协方差矩阵(SCM)的估计,解决多通道麦克风阵列的声源分离问题.在许多传统的音频分离算法中,源混合参数的估计是在每个频率仓分别进行的,因此容易产生误差,导致源估计的次优.本文提出一个由加权DoA核组成的SCM模型,并且权重只依赖于源信号的方向.在该算法中,源的空间特性在所有频率上进行…
基于多重虚拟扩展阵列的宽带信号DOA估计[1]. 宽带DOA估计是阵列信号处理领域的一个重要研究方向.在DOAs估计的实际应用中,信号总是会被噪声破坏,在某些情况下,源信号的数量大于传感器的数量,因此不能通过一些传统的算法正确地解决源问题.文中提出了一种将空间重采样和四阶累积量相结合的宽带DOAs方法——多重虚拟扩展阵列(MVEA).在信源个数大于传感器个数的情况下,MVEA能够正确地找到宽带源的方向,通过空间重采样和四阶累积量的虚拟扩展,MVEA获得了比仅采用空间重采样虚拟扩展(SRVE)的方…
对哨兵1号的多时相双极化SAR数据进行预处理,得到18个日期的VV和VH共36景影像,通过ANOVA和JM距离分析,选其中ANOVA得到的F值最高的6景影像.真值用LC8数据和地面调查,目视解译得到标签.将6景影像合到一个数据中即6波段数据,输入到UNET中,网络结构同原始UNet,除了在conv和relu中间加了BN. 这里引发了思考,BN层到底是加在哪里的,因为keras里的conv2d层是可以直接加激活函数的,中间加BN就要拆开写了.提出BN的论文里似乎就是加在了conv和relu中间.其…
论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model compression for deep learning based speech enhancem…
论文地址:https://dl.acm.org/doi/abs/10.1145/3330393.3330399 基于深度神经网络的回声消除回归方法 摘要 声学回声消除器(AEC)的目的是消除近端传声器接收到的混合信号中的声学回声.传统的方法是使用自适应有限脉冲响应(FIR)滤波器来识别房间脉冲响应(RIR),因为房间脉冲响应对各种野外场景都不具有鲁棒性.在本文中,我们提出了一种基于深度神经网络的回归方法,从近端和远端混合信号中提取的特征直接估计近端目标信号的幅值谱.利用深度学习强大的建模和泛化能…
论文地址:https://arxiv.53yu.com/abs/2106.07577 基于 F-T-LSTM 复杂网络的联合声学回声消除和语音增强 摘要 随着对音频通信和在线会议的需求日益增加,在包括噪声.混响和非线性失真在内的复杂声学场景下,确保声学回声消除(AEC)的鲁棒性已成为首要问题.尽管已经有一些传统的方法考虑了非线性失真,但它们对于回声抑制仍然效率低下,并且在存在噪声时性能会有所衰减.在本文中,我们提出了一种使用复杂神经网络的实时 AEC 方法,以更好地建模重要的相位信息和频率时间…
论文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362 神经网络支持的回声.混响和噪声联合多通道降噪 摘要 我们考虑同时降低回声.混响和噪声的问题.在真实场景中,这些失真源可能同时出现,减少它们意味着组合相应的失真特定滤波器.当这些过滤器互相接触时,它们必须被联合优化.我们建议使用多通道高斯建模框架对线性回声消除和去混响后的目标和剩余信号进行建模,并通过神经网络联合表示它们的频谱.我们开发了一个迭代的块坐标上升算…
我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己看的 文章方向:语音分离, 论文地址:Conv-TasNet:超越理想的语音分离时频幅度掩蔽 博客地址:https://www.cnblogs.com/LXP-Never/p/14769751.html 论文代码:https://github.com/naplab/Conv-TasNet | htt…
论文地址:https://ieeexplore.ieee.org/abstract/document/9357975/ 基于半盲源分离的非线性回声消除 摘要: 当使用非线性自适应滤波器时,数值模型与实际非线性模型之间的不匹配是非线性声回声消除(NAEC)的一个挑战.为了解决这一问题,我们提出了一种基于半盲源分离(SBSS)的有效方法,该方法对无记忆非线性进行基泛展开,然后将未知的非线性展开系数合并到回声路径中.将远端输入信号的所有基函数视为已知的等效参考信号,推导了一种基于约束比例自然梯度策略的…
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强 论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式:Zhu Y, Xu X, Ye Z. FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective funct…