原文:http://www.thinkface.cn/thread-893-1-1.html 今天是周末,想来想去,还是写一篇这样的博文吧.算是对语音识别这一段时间的总结,为后来的人融入铺好前面的路.这个只是工具箱的综述,不是语音识别的综述.希望您有所收获. 目前,语音识别领域公开的开源的代码或者说工具箱有:sphinx,htk,julius,kaldi.也许也有其他的吧.下面我尽量一一介绍:1.sphinx:这个是李开复的博士论文.后面不断的壮大,有了后来的版本.这个比较小,实现起来也比较简单…
最近在看图模型中著名的HMM算法,对应的一些理论公式也能看懂个大概,就是不太明白怎样在一个具体的机器学习问题(比如分类,回归)中使用HMM,特别是一些有关状态变量.观察变量和实际问题中变量的对应关系,因此目前急需一个实际例子来加深对HMM算法的仰慕,大家如有好的例子来具体学HMM算法的话,欢迎分享!众所周知,著名的HMM开源库为Hidden Markov Model Toolkit(以下简称HTK),而HTK在语音识别领域应用很成功,这2天花了些时间学习了HTK的使用,完成的是最简单孤立词的识别…
转载声明:本文为转载文章 作者:ferb2015 原文地址:https://blog.csdn.net/eqiang8848/article/details/81543599 kaldi是一个开源的语音识别工具箱,是基于c++.perl.shell编写的,可以在windows和unix 平台上编译. 中文参考资料:<kaldi的全部资料_v0.7(未完成版本).pdf>.网盘链接 提取码:yuq0 教程网页:http://www.kaldi-asr.org/doc/ 里面可以查阅脚本的用途.使…
原文:http://blog.csdn.net/dlangu0393/article/details/7214728#comments 近期重写本文,暂时禁止评论. 最近在使用Qt编写一个客户端程序的时候需要增加语音识别输入的功能.起初尝试使用SAPI来完成这个任务,但是发现SAPI不仅使用起来超级复杂,而且识别效果也很惨烈.于是就需要寻找一个更加便捷优秀的方案. 自从Chrome 11开始,Chrome开始支持HTML5的语音输入API,QQ紧接着也推出了语音识别输入(可以看做跟风么:D).显…
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢.…
转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi语音识别 1.声学建模单元的选择 1.1对声学建模单元加入位置信息 2.输入特征 3.区分性技术 4.多音字如何处理? 5.Noise Robust ASR 6.Deep Learning[DNN/CNN替换GMM] 7.在手机等资源受限设备 author:Feiteng Email:lifeiteng0422@gmail.com date:2014/08/10 Kaldi训练脚本…
原文摘要:深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示.这些方法在很多方面都带来了显著的改善,包含最先进的语音识别.视觉对象识别.对象检測和很多其他领域,比如药物发现和基因组学等.深度学习可以发现大数据中的复杂结构.它是利用BP算法来完毕这个发现过程的.BP算法可以指导机器怎样从前一层获取误差而改变本层的内部參数,这些内部參数可以用于计算表示.深度卷积网络在处理图像.视频.语音和音频方面带来了突破,而递归网络在处理序列数据.比方文本和语音方面表现出了闪亮的一面. 机…
视频分割在移动端的算法进展综述 语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签. 视频分割是一项广泛使用的技术,电影电视特效.短视频直播等可以用该技术将场景中的前景从背景中分离出来,通过修改或替换背景,可以将任务设置在现实不存在不存在或不易实现的场景.强化信息的冲击力.传统方式可通过视频图像的手工逐帧抠图方式(摄影在带绿幕的专业摄影棚环境摄制,后期特效完成背景移除切换图 1),比如<复仇者联盟><…
一.简介 Kaldi是使用C++编写的语音识别工具包,Apache License v2.0许可.主要供语音识别研究人员使用.Kaldi的目标和范围与HTK类似.目标是拥有易于修改和扩展的现代而灵活的代码.主要功能包括: 1.与有限状态传感器FST的代码进行集成,根据OpenFst工具箱[作为库]进行编译. 2.广泛的线性代数支持,包括一个包装标准BLAS和LAPACK例程的矩阵库. 3.可扩展的设计,以方便使用为目的提供算法. 二.安装Kaidi 1.下载 在Linux你要安装的目录下执行:g…
迁移学习研究综述 Sinno Jialin Pan and Qiang Yang,Fellow, IEEE 摘要:   在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据,一定要在相同的特征空间并且具有相同的分布.然而,在许多现实的应用案例中,这个假设可能不会成立.比如,我们有时候在某个感兴趣的领域有个分类任务,但是我们只有另一个感兴趣领域的足够训练数据,并且后者的数据可能处于与之前领域不同的特征空间或者遵循不同的数据分布.这类情况下,如果知识的迁移做的成功,我们将…