传统声学模型之HMM和GMM】的更多相关文章

声学模型是指给定声学符号(音素)的情况下对音频特征建立的模型. 数学表达 用 \(X\) 表示音频特征向量 (观察向量),用 \(S\) 表示音素 (隐藏/内部状态),声学模型表示为 \(P(X|S)\). 但我们的机器是个牙牙学语的孩子,并不知道哪个音素具体的发出的声音是怎么样的.我们只能通过大量的数据去教他,比如说在拼音「é」的时候对应「鹅」的发音,而这个过程就是 GMM 所做的,根据数据建立起「é」这个拼音对应的音频特征分布,即 \(P(x|s=é)\).孩子学会每个拼音的发音后,就可以根…
目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc-stats-ali 累积模型重估所需数据 5. gmm-sum-accs 并行数据合并 6. gmm-est 声音模型参数重估 7. gmm-boost-silence 模型平滑处理 8. gmm-align-compiled 特征重新对齐 9. train_mono.sh 整体流程详解 转载注明…
语音识别简介 语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR).计算机语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text, STT),其目标是以计算机自动将人类的语音内容转换为相应的文字. 按照不同纬度如下分类: 按词汇量(vocabulary)大小分类: 小词汇量:几十个词: 中等词汇量:几百个到上千个词 大词汇量:几…
这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们讲解一下是如何将声音变成文字,如果有兴趣的同学,我们可以深入的研究. 首先我们知道声音其实是一种波,常见的MP3等都是压缩的格式,必须要转化成非压缩的纯波形的文件来处理,下面以WAV的波形文件来示例: 在进行语音识别之前,有的需要把首尾段的静音进行切除,进行强制对齐,以此来降低对于后续步骤的干扰,整个…
在Kaldi中,单音素GMM的训练用的是Viterbi training,而不是Baum-Welch training.因此就不是用HMM Baum-Welch那几个公式去更新参数,也就不用计算前向概率.后向概率了.Kaldi中用的是EM算法用于GMM时的那三个参数更新公式,并且稍有改变.  Baum-Welch算法更新参数时,因为要计算前向后向概率,很费时间,因此使用Viterbi Training作为Baum-Welch算法的近似.在Baum-Welch算法中,计算前向后向概率时,要用到所有…
春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别).部门起了个新项目,要用到语音识别(准备基于Kaldi来做).我们之前做的传统音频已基本成熟,就开始关注在语音识别上了.对于我们来说,这是个全新的领域(虽然都是语音相关的,但是语音通信偏信号处理,传统语音识别方法偏概率统计),需要学习的知识很多,所以这段时间主要是在学习新知识了,主要学习了数学(高数/线性代数/概率统计,这应该算复习).机器学习基础知识.深度学习.语音识别传统方法等.由于刚…
HMM 传统后向算法,已实现,仅供参考. package jxutcm.edu.cn.hmm.model; import jxutcm.edu.cn.hmm.bean.HMMHelper; import jxutcm.edu.cn.util.TCMMath; /**  * 后向算法  * 目的:  * 1.先计算后向变量矩阵  * 2.再用后向变量矩阵 来 计算一个观测序列的概率  * @author aool  */ public class Backward extends HMM{    …
Time Series Anomaly Detection in Network Traffic: A Use Case for Deep Neural Networks from:https://jask.com/time-series-anomaly-detection-in-network-traffic-a-use-case-for-deep-neural-networks/ Introduction As the waves of the big data revolution cas…
1. HMM背景 0x1:概率模型 - 用概率分布的方式抽象事物的规律 机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测. 概率模型(probabilistic model)提供了一种描述框架,将学习任务归结于计算未知变量的概率分布,而不是直接得到一个确定性的结果. 在概率模型中,利用已知变量推测未知变量的分布称为“推断(inference)”,其核心是如何基于可观测变量推测出未知变量的条件分布. 具体来说,假定所关心的变量集合为…
一.语音识别基本介绍 (一)统计语音识别的基本等式 X------声学特征向量序列,观测值 W------单词序列 W*------给定观测值下,概率最大的单词序列 应用贝叶斯理论等价于 进而得出统计语音识别的框架 (二)统计语音识别的框架 运用声学模型.语言模型.词典得出给定观测值下概率最大的单词序列 (三)评价指标 运用单词错误率评价语音识别的好坏 单词错误率=(替换错+删除错+插入错)/单词总数 识别准确率=1-单词错误率 二.基于HMM的孤立词识别 (一)整体流程 假设所有单词出现的先验…