Kaldi的delta特征
Delta特征是将mfcc特征(13维)经过差分得到的
它是做了一阶二阶的差分
提取的mfcc特征是13维的
然后通过delta就变成了39维
一阶差分:
D(P(t))=P(t)-P(t-1)
二阶差分:
D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))
Delta=Δ=差分
在
voxforge/s5/run.sh:116
rm/s5/run.sh:80
vystadial_cz/s5/run.sh:82
都注释了下一行的训练使用delta+delta-delta特征
在这之前,都运行了
steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd" \
--use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>
"--use-graphs=true"意思是,使用 <src-dir>中的train graph(在fsts.JOB.gz中)
如果不加上,则默认"use-graphs=false",即用<src-dir>中的tree, final.mdl输入搭配compile-train-graph中生成训练的fst(train graph)
steps/train_deltas.sh是训练一个delta+delta-delta三音素系统(模型)
steps/align_si.sh对delta特征进行apply-cmvn, add-deltas
对lda特征进行apply-cmvn, splice-feats(可选), 用final.mat进行transform-feats
- delta特征与splice特征的区别
2017/5/20 16:23
[chick](616310753) 16:09:17
delte是显式给出差分
splice是在时间上作扩展
包含了差分信息
但是不是显式给出的,在学习中可能学习不到差分知识,可能学习到别的知识
语音研究生求南(287568706) 16:09:58
delta是同一帧复制多次吗?
[chick](616310753) 16:10:11
上一帧-当前帧
语音识别原理介绍_V1.3_1034.pdf
分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须 将波形作变换。常见的一种变换方法是提取 MFCC 特征,把每一帧波形变成一 个12维向量。这12个点是根据人耳的生理特性提取的,可以理解为这12个点包含 了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很 多细节,比如差分、均值方差规整、高斯化、降维去冗余等,声学特征也不止有 MFCC 这一种,具体就不详述了。
Kaldi的delta特征的更多相关文章
- [转]kaldi特征和模型空间转换
转:http://blog.csdn.net/shmilyforyq/article/details/76807431 博主话:这篇博客是对kaldi官网中Feature and model-spac ...
- Kaldi的BaseLine训练过程
steps/train_mono.sh --nj "$train_nj" --cmd "$train_cmd" data/train data/lang exp ...
- wakeup_train运行遇到的问题记录
运行前需要更改的地方: 1.matlab安装的路径以及matlab的license文件 2.噪声的路径;background.scp,以及噪声文件 3.run.sh文件中一处f ...
- Latent Representation Learning For Artificial Bandwidth Extension Using A Conditional Variational Auto-Encoder
博客作者:凌逆战 论文地址:https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/ 地址:https://www.cnblogs. ...
- kaldi 运行voxforge例子
---------------------------------------------------------------------------------------------------- ...
- [转]Kaldi语音识别
转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi语音识别 1.声学建模单元的选择 1.1对声学建模单元加入位置信息 2.输入特征 3 ...
- 论文笔记:语音情感识别(三)手工特征+CRNN
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...
- kaldi - Online Audio Server(服务器客户端建立方法-旧版在线解码)
目录 一.服务器客户端识别系统建立方法 1. Command line to start the server(服务器端启动方式): 2. Command line to start the clie ...
- kaldi基于GMM的单音素模型 训练部分
目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc ...
随机推荐
- 【洛谷P2966】Cow Toll Paths
题目大意:给定 N 个节点,M 条边的无向图,边有边权,点有点权,现给出 Q 个询问,每个询问查询两个节点之间的最短路径,这里最短路径的定义是两个节点之间的最短路径与这条路径中经过的节点点权的最大值之 ...
- (六)Oracle 的 oracle表查询关键字
参考:http://www.hechaku.com/Oracle/oracle_tables2.html 1.使用逻辑操作符号问题:查询工资高于500或者是岗位为manager的雇员,同时还要满足他们 ...
- 关于TSql
1.Sql:结构化查询语言(Structrued Query Language) 2.TSql:是Sql语言的另一种版本,且只能在SqlServer中使用.和Sql不同的是,TSql中增加了对变量 ...
- SQL问题+知识点总结总
1.SQL中的内置函数有哪些?(Count.Sum.Avg.Max.Min) 2.SQL查询语句的执行顺序.(先执行from语句,再执行条件语句,最后执行Select 语句投影查询信息) 3.Havi ...
- Uncaught SyntaxError: Unexpected token ' in JSON at position 1
听说js是一样很BT的语言,今天真是有点领教到了. 用python3.6+django2.0开发网站时,遇到了一个坑中之坑! 在异步数据提交Ajax的运用中,不免在回调函数中使用到JSON.parse ...
- C实现读写文件
https://www.cnblogs.com/zhanghongfeng/p/7726199.html https://www.cnblogs.com/xudong-bupt/p/3478297.h ...
- 导出为word文档
原来用freemarker就可以,真是太简便了.先设计一张文档,然后把要输出的值用freemarker取值表达式获取数据,最后保存为ftl文件,再调整一下就可以了.
- Linux(centos7)如何安装Zend Optimizer Zend Guard Loader
下载地址:http://www.zend.com/en/products/loader/downloads#Linux 1.解压 wget http://downloads.zend.com/guar ...
- Spring Boot项目中的字体文件问题_Failed to decode downloaded font
1.问题:字体文件加载失败,本来应该是“X”号,现在只有一个小方块 2.原因:问题是Maven正在过滤字体文件并破坏它们. <resource> <filtering>true ...
- hibernate注解方式来处理映射关系
在hibernate中,通常配置对象关系映射关系有两种,一种是基于xml的方式,另一种是基于annotation的注解方式,熟话说,萝卜青菜,可有所爱,每个人都有自己喜欢的配置方式,我在试了这两种方式 ...