3. Neural network architecture 此处描述了在本文当中所使用的网络结构,和所提取的关键特征(key features).首先,描述了两个新型的网络结构:the network-in-network nonlinearity和the statistics extraction layer(NIN非线性结构和统计信息提取层). 3.1 Network-in-Network nonlinearity 如图(1)所示,该网络结构是一个多对多的非线性系统,由两个块对角阵组成,在…
speaker recognition from raw waveform with SincNet Mirco Ravanelli, Yoshua Bengio 作为一种可行的替代i-vector的说话人识别方法,深度学习正日益受到欢迎.利用卷积神经网络(CNNs)直接对原始语音样本进行处理,取得了良好的效果.而不是使用标准的手工制作的功能,后一种CNNs从波形中学习低电平的语音表示,潜在地允许网络更好地捕获重要的窄带扬声器特性,如音高和共振峰.合理设计神经网络是实现这一目标的关键. 本文提出…
论文地址:深度学习用于噪音和双语场景下的回声消除 博客地址:https://www.cnblogs.com/LXP-Never/p/14210359.html 摘要 传统的声学回声消除(AEC)通过使用自适应算法识别声学脉冲响应来工作. 我们将AEC公式化为有监督的语音分离问题,该问题将说话人信号和近端信号分开,以便仅将后者传输到远端. 训练双向长短时记忆的递归神经网络(BLSTM)对从近端和远端混合信号中提取的特征进行估计.然后应用BLSTM估计的理想比率掩模来分离和抑制远端信号,从而去除回波…
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-10.pdf Attention Wave-U-Net 的回声消除 摘要 提出了一种基于U-Net的具有注意机制的AEC方法,以联合抑制声学回声和背景噪声.该方法由U-Net.一个辅助编码器和一个注意网络组成.在该方法中,Wave-U-Net从混合语音中提取估计的近端语音,辅助编码器提取远端语音的潜在特征,其中相关特征通过注意机制提供给Wave-U-Net.利用注意网络,可以有…
Deep Learning 方向的部分 Paper ,自用.一 RNN 1 Recurrent neural network based language model RNN用在语言模型上的开山之作 2 Statistical Language Models Based on Neural Networks Mikolov的博士论文,主要将他在RNN用在语言模型上的工作进行串联 3 Extensions of Recurrent Neural Network Language Model 开山之…
转载 http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65 个人阅读的Deep Learning方向的paper整理,分了几部分吧,但有些部分是有交叉或者内容重叠,也不必纠结于这属于DNN还是CNN之类,个人只是大致分了个类.目前只整理了部分,剩余部分还会持续更新. 一 RNN 1 Recurrent neural network based language model RNN用在语言模型上的开山之作 2 Statistical…
Speex is based on CELP, which stands for Code Excited Linear Prediction. This section attempts to introduce the principles behind CELP, so if you are already familiar with CELP, you can safely skip to section 7. The CELP technique is based on three i…
1.声音的三个主要的主观属性(即音量.音调.音色).音色(Timbre)是指不同的声音的频率表现在波形方面总是有与众不同的特性,音色的不同取决于不同的泛音.频率的高低决定声音的音调,振幅的大小决定声音的响度,音色区分不同的发声材料物体. 2.Chirp信号:线性调频信号,是指频率随时间而线性改变(增加或减少)的信号.线性调频的瞬时频率f(t)呈线性变化:f(t)=f0+kt,其中f0表示时间等于零时的频率,k表示频率改变的速率,当k>0时,频率递增,k<0则递减.主要应用:常见的包括声纳.雷达…
论文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362 神经网络支持的回声.混响和噪声联合多通道降噪 摘要 我们考虑同时降低回声.混响和噪声的问题.在真实场景中,这些失真源可能同时出现,减少它们意味着组合相应的失真特定滤波器.当这些过滤器互相接触时,它们必须被联合优化.我们建议使用多通道高斯建模框架对线性回声消除和去混响后的目标和剩余信号进行建模,并通过神经网络联合表示它们的频谱.我们开发了一个迭代的块坐标上升算…
The challenge of realistic music generation: modelling raw audio at scale 作者:Deep  mind三位大神 出处:NIPS 2018 Abstract 首先提出了基于表达方式的音乐生成(high-level representations such as scoresor MIDI)有一些自己的问题,经过高度抽象后,音乐中的一些细节特征损失掉了,从而导致perception of musicality and reali…