Kaldi的delta特征

Delta特征是将mfcc特征(13维)经过差分得到的

它是做了一阶二阶的差分

提取的mfcc特征是13维的

然后通过delta就变成了39维

一阶差分：

D(P(t))=P(t)-P(t-1)

二阶差分：

D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))

Delta=Δ=差分

在

voxforge/s5/run.sh:116

rm/s5/run.sh:80

vystadial_cz/s5/run.sh:82

都注释了下一行的训练使用delta+delta-delta特征

在这之前，都运行了

steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd" \

--use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>

"--use-graphs=true"意思是，使用 <src-dir>中的train graph(在fsts.JOB.gz中)

如果不加上，则默认"use-graphs=false"，即用<src-dir>中的tree, final.mdl输入搭配compile-train-graph中生成训练的fst(train graph)

steps/train_deltas.sh是训练一个delta+delta-delta三音素系统（模型）

steps/align_si.sh对delta特征进行apply-cmvn, add-deltas

对lda特征进行apply-cmvn, splice-feats（可选）, 用final.mat进行transform-feats

delta特征与splice特征的区别

2017/5/20 16:23

[chick](616310753) 16:09:17

delte是显式给出差分

splice是在时间上作扩展

包含了差分信息

但是不是显式给出的，在学习中可能学习不到差分知识，可能学习到别的知识

语音研究生求南(287568706) 16:09:58

delta是同一帧复制多次吗？

[chick](616310753) 16:10:11

上一帧-当前帧

语音识别原理介绍_V1.3_1034.pdf

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取 MFCC 特征，把每一帧波形变成一个12维向量。这12个点是根据人耳的生理特性提取的，可以理解为这12个点包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中，这一步有很多细节，比如差分、均值方差规整、高斯化、降维去冗余等，声学特征也不止有 MFCC 这一种，具体就不详述了。

Kaldi的delta特征的更多相关文章

[转]kaldi特征和模型空间转换
转:http://blog.csdn.net/shmilyforyq/article/details/76807431 博主话:这篇博客是对kaldi官网中Feature and model-spac ...
Kaldi的BaseLine训练过程
steps/train_mono.sh --nj "$train_nj" --cmd "$train_cmd" data/train data/lang exp ...
wakeup_train运行遇到的问题记录
运行前需要更改的地方: 1.matlab安装的路径以及matlab的license文件 2.噪声的路径;background.scp,以及噪声文件 3.run.sh文件中一处f ...
Latent Representation Learning For Artificial Bandwidth Extension Using A Conditional Variational Auto-Encoder
博客作者:凌逆战论文地址:https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/ 地址:https://www.cnblogs. ...
kaldi 运行voxforge例子
---------------------------------------------------------------------------------------------------- ...
[转]Kaldi语音识别
转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi语音识别 1.声学建模单元的选择 1.1对声学建模单元加入位置信息 2.输入特征 3 ...
论文笔记：语音情感识别（三）手工特征+CRNN
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...
kaldi - Online Audio Server（服务器客户端建立方法-旧版在线解码）
目录一.服务器客户端识别系统建立方法 1. Command line to start the server(服务器端启动方式): 2. Command line to start the clie ...
kaldi基于GMM的单音素模型训练部分
目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc ...

随机推荐

Vim auto-pairs设置选项
let g:AutoPairs = {'(':')', '[':']', '{':'}',"'":"'",'"':'"'} 设置要自动配对的 ...
[luogu1503][鬼子进村]
题目链接思路将哪些村庄已经被摧毁了放到treap里.查询的时候如果当前村庄已经被毁了,那么就可以直接输出0.不然就输出这个村庄的后继-前驱-1.原因显然代码 #include<cstdio ...
python random使用方法
如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处,下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系,希望你会有所收获,以下就是这篇文 ...
JavaScript（JS）基本语法（一）
https://www.cnblogs.com/haiyan123/p/7577598.html 一.JavaScript的历史 1992年Nombas开发出C-minus-minus(C--)的嵌入 ...
HTTP属性管理器初探
1)HTTP Cache Manager 2)HTTP Cookie 管理器 3)HTTP 信息头管理器 4)HTTP 授权管理器 5)HTTP 请求默认值为什么会有这些http属性的配置元件? ...
java List<String> 转换成带逗号的字符串
使用commons-lang3-3.3.2.jar org.apache.commons.lang3.StringUtils.join(applyNameList, ",");
SpringBoot文件上传
先建工程只勾选web和freemarker模板最后先看一下最终目录结构先修改pom文件,加入common-io依赖然后修改Application.yml文件 spring: freemark ...
字节缓冲流 BufferedOutputStream BufferedInputStream
/*缓冲流:读取数据大量的文件时,读取的速度慢java提供了一套缓冲流提高io流的效率 * */ package cn.lijun.demo; import java.io.BufferedInpu ...
as依赖解决报错
Unable to resolve dependency for ':app@debug/compileClasspath': Could not resolve com.android.suppor ...
python3 aes加解密
# encoding: utf-8 import xlrd import os import yaml import logging.config from Crypto.Cipher import ...

Kaldi的delta特征

Kaldi的delta特征的更多相关文章

随机推荐

热门专题