Acoustic modelling from the signal domain using CNNs
3. Neural network architecture
此处描述了在本文当中所使用的网络结构,和所提取的关键特征(key features)。首先,描述了两个新型的网络结构:the network-in-network nonlinearity和the statistics extraction layer(NIN非线性结构和统计信息提取层)。
3.1 Network-in-Network nonlinearity
如图(1)所示,该网络结构是一个多对多的非线性系统,由两个块对角阵组成,在使用的过程中,在同一层中,所有的NIN模块是参数共享的,且互相之间不重叠(non-overlapping)。
在NIN的内部,转换块(transformation block)\(U_1\)是尺寸为\(m\times k\)的矩阵,将尺寸为\(m\)的输入映射到维度为\(k\)的高维空间中,然后使用Relu函数进行非线性映射;\(U_2\)是尺寸为\(k\times n\)的矩阵,将非线性变化后的\(k\)维变量映射到\(n\)为空间当中,再进行Relu非线性映射。该NIN模块在论文中称之为“micro neural network blocks”。
如果,NIN模块在单层网络中共享权值,那么\(U_1\)的每一列可以解释为一维卷积核,且卷积核的尺寸为\(m\),卷积的步长为\(m\)。
对于此处的理解:
\[
x \cdot U_{(m,k)}=x \cdot [u_1,u_2 \cdots u_k]=[x\cdot u_1,x\cdots u_2 \cdots x\cdot u_k]
\]
在图(2)当中,将本文提出的网络与基于MFCC的基线系统目标函数的收敛情况进行对比,可以得到:本文提出的网络目标函数的收敛速度较快,且收敛之后的目标函数的数值较好。
Acoustic modelling from the signal domain using CNNs的更多相关文章
- 基于SincNet的原始波形说话人识别
speaker recognition from raw waveform with SincNet Mirco Ravanelli, Yoshua Bengio 作为一种可行的替代i-vector的 ...
- 论文翻译:2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios
论文地址:深度学习用于噪音和双语场景下的回声消除 博客地址:https://www.cnblogs.com/LXP-Never/p/14210359.html 摘要 传统的声学回声消除(AEC)通过使 ...
- 论文翻译:2020_Attention Wave-U-Net for Acoustic Echo Cancellation
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-10.pdf Attention Wave-U-Net 的回声消除 摘要 提出了 ...
- Paper List ABOUT Deep Learning
Deep Learning 方向的部分 Paper ,自用.一 RNN 1 Recurrent neural network based language model RNN用在语言模型上的开山之作 ...
- Deep Learning方向的paper
转载 http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65 个人阅读的Deep Learning方向的paper整理,分了几部分吧,但 ...
- Introduction to CELP Coding
Speex is based on CELP, which stands for Code Excited Linear Prediction. This section attempts to in ...
- Tips on Acoustic Signal Processing
1.声音的三个主要的主观属性(即音量.音调.音色).音色(Timbre)是指不同的声音的频率表现在波形方面总是有与众不同的特性,音色的不同取决于不同的泛音.频率的高低决定声音的音调,振幅的大小决定声音 ...
- 论文翻译:2020_Joint NN-Supported Multichannel Reduction of Acoustic Echo, Reverberation and Noise
论文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362 神经网络支持的回声.混响和噪声联合多通道降噪 摘要 我们考虑 ...
- 《The challenge of realistic music generation: modelling raw audio at scale》论文阅读笔记
The challenge of realistic music generation: modelling raw audio at scale 作者:Deep mind三位大神 出处:NIPS ...
随机推荐
- JeeWx全新版本发布!捷微二代微信活动平台1.0发布!活动插件持续开源更新!
JeeWx捷微二代微信活动平台 (专业微信营销活动平台,活动插件持续更新ing~) 终于等到你!还好我没放弃! 在团队持续多年的努力下,Jeewx微信管家和H5活动平台不断更新迭代,积累了许许多 ...
- laravel5.6中jquery+ajax分页
public function shows(Request $request){ $p=$request->get("page"); $page=empty($p)?:$p; ...
- Lombok使用简介
1.在maven中加入Lombok引入 2.在开发环境中加入Lombok插件 3.在实体类的类名上增加注释@Date即可使用所有get,set方法
- 贝叶斯公式与最大后验估计(MAP)
1, 频率派思想 频率派思想认为概率乃事情发生的频率,概率是一固定常量,是固定不变的 2, 最大似然估计 假设有100个水果由苹果和梨混在一起,具体分配比例未知,于是你去随机抽取10次,抽到苹果标记为 ...
- python待学习内容
1.Python中不尽如人意的断言Assertion https://www.cnblogs.com/cicaday/p/python-assert.html 2.Python中的反转字符串问题 ht ...
- ceph-deploy部署过程
[root@ceph-1 my_cluster]# ceph-deploy --overwrite-conf osd create ceph-1 --data data_vg1/data_lv1 -- ...
- 图论.DP
见题: 看一眼,就知道是个依赖性背包,于是乎就草草的打了树上DP,一交发现才20,仔细检查也没错呀,忍不住点了题解,只喵一眼看到了强联通缩点等的字样,又重新审了一遍题,发现这句话理解有偏差:软件i只有 ...
- 项目(九) 企业级Memcached服务应用实践
一, Memcached介绍 1.1 Memcached与常见同类软件对比 (1)Memcached是什么? Memcached是一个开源的,支持高性能,高并发的分布式内存缓存系统,由C语言编写, ...
- nginx开机启动
centos 7以上是用Systemd进行系统初始化的 Systemd服务文件以.service结尾,比如现在要建立nginx为开机启动,如果用yum install命令安装的,yum命令会自动创建n ...
- linux环境下安装jmeter,启动执行脚本
1.下载安装jmeter安装包 下载链接: https://pan.baidu.com/s/1KPhwNDsmTIAy41fEopHQEw 提取码: spwd 2.上传linux平台,解压jmeter ...