Kaldi如何准备自己的数据】的更多相关文章

Introduction 跑完kaldi的一些脚本例子,你可能想要自己用Kaldi跑自己的数据集.这里将会阐述如何准备好数据. run.sh较上的部分是有关数据准备的,通常local与数据集相关. 例如:RM数据集 local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang…
吃人家嘴短,拿人家手短,用别人的东西就不要BB了,按规矩来吧. 训练和验证的数据都在命令行以变量的形式按如下方式指定: --train-data "train.pfile,context=5,ignore-label=0:3-9,map-label=1:0/2:1,partition=1000m" --valid-data "valid.pfile,stream=False,random=True" 在第一个逗号前面的部分(如果有的话)指定了文件的名称. 全局样式通…
操作系统 : Ubutu18.04_x64 gcc版本 :7.4.0 数据准备及训练 数据地址: http://www.openslr.org/18/ 在 egs/thchs30/s5 建立 thchs30-openslr 文件夹,然后把三个文件解压在了该文件夹下: [mike@local thchs30-openslr]$ pwd /home/mike/src/kaldi/egs/thchs30/s5/thchs30-openslr [mike@local thchs30-openslr]$…
------------------------------------------------------------------------------------------------------------------------------------------------------ 孤立词参考的例子就是yes/no脚本. -------------------------------------------------------------------------------…
chainbin/nnet3-chain-train.cc int main(int argc, char *argv[]) { ... Nnet nnet; ReadKaldiObject(nnet_rxfilename, &nnet); bool ok; { fst::StdVectorFst den_fst; ReadFstKaldi(den_fst_rxfilename, &den_fst);   //NnetChainTrainer读取训练参数opts.分母词图den_fst.神…
cudamatrix/cublas-wrappers.h 该头文件对cuBLAS的接口进行了简单的封装(函数名的简化和部分kaldi函数的封装). 比如 cublasSgemm_v2封装为cublas_gemm cublas_copy_kaldi_fd和cublas_copy_kaldi_df封装为cublas_copy     cudamatrix/cu-kernels.{h,cu}     以cuda_add_col_sum_mat函数为例 对Kaldi cuda kernel或cublas…
matrix/cblas-wrappers.h 该头文件对CBLAS与CLAPACK的接口进行了简单的封装(将不同数据类型的多个接口封装为一个). 比如 cblas_scopy和cblas_dcopy封装为cblas_Xcopy clapack_sgetri和clapack_dgetri封装为clapack_Xgetri     上述接口的声明位于matrix/kaldi-blas.h中         tools/ATLAS_headers/include/clapack.h matrix/k…
作者:zqh_zy链接:http://www.jianshu.com/p/c5fb943afaba來源:简书著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 本文通过简单kaldi源码,分析DNN训练声学模型时神经网络的输入与输出.在进行DNN训练之前需要用到之前GMM-HMM训练的模型,以训练好的mono模型为例,对模型进行维特比alignement(对齐),该部分主要完成了每个语音文件的帧到transition-id的映射. 不妨查看对齐后的结果: $ copy-int-…
转自: http://www.jianshu.com/p/5b19605792ab?utm_campaign=maleskine&utm_content=note&utm_medium=pc_all_hots&utm_source=recommendation http://www.jianshu.com/p/6338fab6bd0a 刚刚拿到一个简单语料库练手,发现只有语音和对应文字, 这篇文章记录了从数据预处理到kaldi对数据进行训练和测试的全过程,这里首先训练单音节模型,其…
转自:http://blog.csdn.net/zjm750617105/article/details/55211992 对于每个类别的GMM有几种思路: 第一是将所有训练数据按类别分开,每类的数据训练一个GMM模型 第二是将所有的数据训练一个UBM模型,然后将训练数据按类别分开,用MAP去训练每个类别的GMM(对角UBM的MAP貌似kaldi 没有) 第三就是将所有的数据训练一个UBM模型,然后不做MAP,直接用训好的UBM所GMM的初始值,然后将所有训练数据按类别分开,训练三个GMM模型(…