Empirical Evaluation of Speaker Adaptation on DNN based Acoustic Model

DNN声学模型说话人自适应的经验性评估

年3月27日

发表于：Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)

说话人自适应时从说话人无关模型中估计一个说话人相关的声学模型，以减小训练集与测试集由于说话人差异导致的不匹配。

已经出现了许多DNN自适应方法，但是缺乏实验比较。

声学模型采用TDNN-LSTM声学模型。

自适应源时标准中文普通话声学模型

自适应目标是带口音的中文普通话声学模型

本文对三种典型的说话人自适应方法：

LIN
LHUC
KLD

进行经验性评估。对上述三种模型及其组合进行了性能比较。

关于说话人口音程度对说话人自适应性能的影响，本文也进行了测试。

训练-测试不匹配：训练集不能匹配新声学环境或者不能泛化至新的说话人。

为了解决未见过说话人识别问题以及声学环境不匹配问题，提出了多种声学模型补偿和自适应方法。

DNN自适应方法可以粗略地分为三类：

说话人适应层插入方法

LIN、LHN、LON是最常见的说话人适应层插入方法，其中LIN最常用。

LHUC（Learning Hidden Unit Contribution）是说话人适应层插入方法地新类型，通过插入特殊的层以控制隐层的幅值（amplitude），使得SI网络参数变得说话人相关。

LIN的训练通常使用一个较小的学习率，如0.00001。
子空间方法

目标是找到一个用于自适应的低维说话人子空间。最直觉的应用是使用基于子空间的特征，如：i-Vectors，作为神经网络声学模型训练中的增补特征，或用于说话人自适应训练（SAT）。

除子空间的特征之外的另一种子空间方法，被称为：说话人编码，也是把特征用作增补[25]。

对于每个说话人，特定神经网络单元集合被链接到原始SI网络中，并进行优化。

基于i-Vector的SAT已经称为训练DNN声学模型时的小技巧，以提供较小但稳定的性能提升。
模型直接适应方法

一种直觉的想法是使用新的说话人数据来直接调整DNN参数。使用新数据来对SI模型进行重训练/调优是最简单的方式，又被称为重训练说话人无关（Retrained Speaker Independent，RSI）自适应。为避免过拟合，通常进行保守训练（Conservative Training），如KL散度（Kullback-Leibler Divergence）正则化[26]。通过把KL散度项添加到用于更新神经网络参数的原交叉熵代价函数中，该方法试图将适应后模型的后验分布接近于用于适应的源模型。虽然该方法十分有效，但是需要为每个说话人构建一个神经网络。

KLD正则化

L2正则化项使得自适应后模型参数与SI模型参数相接近。

对于声学模型训练，需要最小化交叉熵：

LHUC（学习性隐层单元贡献）

以限制r的元素取值为[0, 2]。

Previous studies on LHUC [22] have demonstrated that adapting more layers in the network can get continuously better accuracy. Hence we inserted LHUC parameters after each hidden layers.

实验

实验基于i-Vector与cMLLR（fMLLR）特征训练的SAT-DNN（TDNN-LSTM）声学模型。

[25] O. Abdel-Hamid and H. Jiang, "Fast speaker adaptation of hybrid nn/hmm model for speech recognition based on discriminative learning of speaker code," in Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp. 7942–7946.

三种方法的组合：

组合并不能带来性能提升。

时，RSI就会出现偏差。

或10个话语）反而不如基线，本文实验表明即使使用少量数据也能带来不错的性能提升。我们认为，这是因为测试说话人口音很重，即SI数据与目标说话人数据之间的差异十分明显。
使用不同ρ值[0.0625,0.5]进行比较也表明，即使对于不同大小的适应数据，即使ρ较小，也可以获得合理的CER减少。对于大数据集和小数据据，中等权重（例如，0.25）最优；对于中等大小数据集，较小正则化权重（例如，0.0625）最优。我们还比较了不同口音说话人的性能。图3c的结果显示KLD适用于每个测试说话人，并且在SI模型中具有最高CER的说话人（即，S5，具有最重的口音）实现了最大的CER减少。但随着适应数据的增加，每个说话人的增益越来越小。

Empirical Evaluation of Speaker Adaptation on DNN based Acoustic Model的更多相关文章

Utterance-Wise Recurrent Dropout And Iterative Speaker Adaptation For Robust Monaural Speech Recognition
单声道语音识别的逐句循环Dropout迭代说话人自适应 WRBN(wide residual BLSTM network,宽残差双向长短时记忆网络) [2] J. Heymann, L. Dr ...
An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 2018-0 ...
Predicting effects of noncoding variants with deep learning–based sequence model | 基于深度学习的序列模型预测非编码区变异的影响
Predicting effects of noncoding variants with deep learning–based sequence model PDF Interpreting no ...
论文翻译：2020_Generative Adversarial Network based Acoustic Echo Cancellation
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-5.pdf 基于GAN的回声消除摘要生成对抗网络(GANs)已成为语音增强( ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
What are the differences between an LES-SGS model and a RANS based turbulence model?
The biggest difference between LES and RANS is that, contrary to LES, RANS assumes that \(\overline{ ...
pytorch --Rnn语言模型(LSTM，BiLSTM) -- 《Recurrent neural network based language model》
论文通过实现RNN来完成了文本分类. 论文地址:88888888 模型结构图: 原理自行参考论文,code and comment: # -*- coding: utf-8 -*- # @time : ...
论文翻译：2020_Acoustic Echo Cancellation Based on Recurrent Neural Network
论文地址:https://ieeexplore.ieee.org/abstract/document/9306224 基于RNN的回声消除摘要本文提出了一种基于深度学习的语音分离技术的回声消除方法 ...
机器学习进阶-目标追踪-SSD多进程执行 1.cv2.dnn.readnetFromCaffe(用于读取已经训练好的caffe模型) 2.delib.correlation_tracker(生成追踪器) 5.cv2.writer(将图片写入视频中) 6.cv2.dnn.blobFromImage(图片归一化) 10.multiprocessing.process(生成进程)
1. cv2.dnn.readNetFromCaffe(prototxt, model) 用于进行SSD网络的caffe框架的加载参数说明:prototxt表示caffe网络的结构文本,model ...

随机推荐

A1118. Birds in Forest
Some scientists took pictures of thousands of birds in a forest. Assume that all the birds appear in ...
【LOJ6284】数列分块8
题目大意:维护一个序列,支持区间染色,查询区间中等于某个颜色的点的个数. 题解:考虑直接用线段树进行维护,维护区间相同颜色值和一个区间颜色是否相同的标记即可. 代码如下 #include <bi ...
fcntl F_GETFL
F_GETFL 我的理解是file get flag #include <stdio.h>#include <fcntl.h>#include <unistd.h> ...
《Java程序设计》第一周学习总结
20175313 <Java程序设计>第一周学习总结教材学习内容总结了解Java的四个特点学习JDK的安装以及系统环境变量的设置掌握Java源文件命名.编译.运行熟悉git的常用 ...
Gym - 101911A "Coffee Break"
传送门题意: Monocarp得到一份工作,每天要工作 m 分钟,他有一个爱好,喜欢在休息的时候喝咖啡,但是他的老板不乐意了,就给他规定了个时间 d,在 d 分钟内只能喝一杯咖啡. 现给出Mono ...
踩过的坑—iphone手机H5样式兼容总结
对一个前端开发者来说,最煎熬的莫过于"兼容"两个字了(说到这个词朋友们是不是身体一抖),哪怕对于工作多年的老油条来讲,也不是完全了解各种场景下的兼容性处理方法.在这里我就把我在工作 ...
python基础-格式化时间
module datatime用strftime格式化时间import datetimedatetime.datetime.now() 返回microsecond,要修改datetime.dateti ...
opencv: 线性拟合
opencv提供了fitline函数用于直线拟合,原型为: C++: void fitLine(InputArray points, OutputArray line, int distType, d ...
Hadoop记录-hadoop集群常见问题汇总
[问题1]HBase Shell:ERROR: org.apache.hadoop.hbase.IPc.ServerNotRunningYetException: Server is not runn ...
KMP算法的next[]数组通俗解释
原文:https://blog.csdn.net/yearn520/article/details/6729426 我们在一个母字符串中查找一个子字符串有很多方法.KMP是一种最常见的改进算法,它可以 ...

Empirical Evaluation of Speaker Adaptation on DNN based Acoustic Model

Empirical Evaluation of Speaker Adaptation on DNN based Acoustic Model的更多相关文章

随机推荐

热门专题