【miscellaneous】语音识别工具箱综述和产品介绍

原文：http://www.thinkface.cn/thread-893-1-1.html

今天是周末，想来想去，还是写一篇这样的博文吧。算是对语音识别这一段时间的总结，为后来的人融入铺好前面的路。这个只是工具箱的综述，不是语音识别的综述。希望您有所收获。

目前，语音识别领域公开的开源的代码或者说工具箱有：sphinx，htk，julius，kaldi。也许也有其他的吧。下面我尽量一一介绍：
1.sphinx：这个是李开复的博士论文。后面不断的壮大，有了后来的版本。这个比较小，实现起来也比较简单点吧。
   网址：http://cmusphinx.sourceforge.net/
   网上有很多sphinx的资料：
      1）最著名的当属Sphinx武林秘籍这个系列。作者很详细的说明了一切，值得你去参考和实验。
      2）zouxy09博文的这个系列也很清楚的说了sphinx。
如果你想实验，基本这些资料就很全了。你可以很好的做些实验了。最近也看到调用sphinx的接口放到安卓等一些平台上，所以在我看来这个开源虽然有点老，但是我觉得还是很不错的。还是有很多东西需要人去挖掘的。
2.htk ：这个虽然说是隐马尔科夫（HMM）工具箱，但是基本是为语音识别专用。与sphinx相比，htk的知名度一直很高，一直长久不衰。很多语音识别的论文的实验都是基于这个实现的。在深度学习之前，基本很多的语音识别实验都是他垄断的。
   网址：http://htk.eng.cam.ac.uk/
   htk的资料还是很多的，htkbook是最好的资料，虽然是英文，而且很多页。但中国人还是有才的，有人翻译了前三章，大家可以去读读。很经典的书吧，读完你基本会对语音识别过程有个简单的认识吧。当然，想入门就得做实验。前面的几个博文基本介绍了。先贴我的博文吧：
1.语音识别系统之htk------孤立词识别（yesno）
2.语音识别系统之htk-----连续语音识别
其他的资料我在上面的博文里都提到了。htk博大精深，我们后续还会继续添加资料的。
3.julius：这个是日本人弄的一个语音识别系统。我自己不是很熟悉。
   网址：http://julius.sourceforge.jp/en_index.php?q=en/index.html
   这个网址有很多资料，比如下载和book等等。有人写了一篇论文：基于Julius的机器人语音识别系统构建。其他的资料还是比较少。如果有时间我也愿意去把这个补全。
4.kaldi ：这个我一直比较有兴趣吧。因为有深度学习的内容。最近，深度学习在语音识别上的运行已经很好了，把语音识别提高到了一个很高的标准了。
网址：http://kaldi.sourceforge.net/
中文的资料可以参加我的博文:
      1.语音识别工具箱之kaldi介绍,比如一些实例，你也可以去看看我的博文了。具体的不贴链接了。
      2.povey写的四篇文章。在kaldi代码里有个doc里面有。大家自己去查看下吧。这个工具箱的中文资料实在太少，我也就根据自己的实验写出了些东西。希望你们可以有所收获吧。还有自己可以去看povey的个人主页，里面有资料哦。http://www.danielpovey.com/index.html这个是主页网址。
      许多使用kaldi的原因大多由于kaldi支持深度学习的dnn模型。希望kaldi能够壮大吧，如果你有数据库，在kaldi上实验是件简单的事情。因为脚本都写好了。
至此，工具箱就介绍完毕。
   下面我们就介绍些目前的市场产品说说吧。
   国内产品有：讯飞语点，百度助手等。
   国外产品有：谷歌的google now ，苹果的siri，微软的Speech SDK 和操作系统里的语音识别。
   我用过的讯飞语点，原来的不是很准，但越用越准确。感觉和推荐系统差不多吧。百度助手的确不是还好，不知道现在改进没？百度的深度学习研究院还是很好的，有余凯老师在，希望可以很好的推出自己的产品。如果明年招了我，那就好了。呵呵……希望余凯老师可以把语音产品做的更好吧……讯飞就不用说了，国内语音的领导者，关键在我大安徽，呵呵……其他的语音公司有云知声，腾讯微信的语音识别，等等其他的。科研机构有中国科技大学，清华大学，中科院的自动化研究所等等都很不错的。唯独我们学校似乎没什么进展。
   国外的科技公司在语音上面都很猛的，暑假上过微软邓力老师的深度学习的课。微软的语音识别还是很不错的。谷歌的和苹果的就不用说了。我希望中文的比他们好就可以了。呵呵……
   大家可以多去用用这些产品吧。多帮这些去改进自己的识别系统。

   感觉写的有点多了，以上也就是我的一些认识吧。希望对你有用，欢迎和我交流和讨论。争取早日自己可以写一个语音识别的综述。加油……

【miscellaneous】语音识别工具箱综述和产品介绍的更多相关文章

机器学习&数据挖掘笔记_13（用htk完成简单的孤立词识别）
最近在看图模型中著名的HMM算法,对应的一些理论公式也能看懂个大概,就是不太明白怎样在一个具体的机器学习问题(比如分类,回归)中使用HMM,特别是一些有关状态变量.观察变量和实际问题中变量的对应关系, ...
kaildi讲解
转载声明:本文为转载文章作者:ferb2015 原文地址:https://blog.csdn.net/eqiang8848/article/details/81543599 kaldi是一个开源的语 ...
【miscellaneous】使用Google语音识别引擎（Google Speech API）[3月5日修改]
原文:http://blog.csdn.net/dlangu0393/article/details/7214728#comments 近期重写本文,暂时禁止评论. 最近在使用Qt编写一个客户端程序的 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
[转]Kaldi语音识别
转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi语音识别 1.声学建模单元的选择 1.1对声学建模单元加入位置信息 2.输入特征 3 ...
深度学习综述（LeCun、Bengio和Hinton）
原文摘要:深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示.这些方法在很多方面都带来了显著的改善,包含最先进的语音识别.视觉对象识别.对象检測和很多其他领域,比如药物发现和基 ...
zz视频分割在移动端的算法进展综述
视频分割在移动端的算法进展综述语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签. 视频分割是一项广泛使用的技 ...
Kaldi语音识别快速入门
一.简介 Kaldi是使用C++编写的语音识别工具包,Apache License v2.0许可.主要供语音识别研究人员使用.Kaldi的目标和范围与HTK类似.目标是拥有易于修改和扩展的现代而灵活的 ...
《A Survey on Transfer Learning》迁移学习研究综述翻译
迁移学习研究综述 Sinno Jialin Pan and Qiang Yang,Fellow, IEEE 摘要: 在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据 ...

随机推荐

Django 数据库mysql到models的映射方法
Django自动生成models 如果数据库表已经存在,执行命令,可以自动生成Models模型,实现models与数据表的映射 >>> python manage.py inspec ...
Java8-Executors-No.03
import java.util.Arrays; import java.util.List; import java.util.concurrent.Callable; import java.ut ...
JQuery 实践---创建元素包装集
1. 利用选择器,选择将被JQuery包装的元素标识和选择DOM元素.JQuery采用我们已经知道的CSS语法并且扩展了一些.为了利用JQuery来选择元素,请把选择器包装在$()中. 基本CSS选 ...
Vue项目开发最新、最全代码规范文档
Vue项目开发最新.最全代码规范文档 2019年02月21日 10:43:49 yw00yw 阅读数 337 一. 目录结构 |— build 构建脚本目录 |— build.js 生产环境构建( ...
039_显示 CPU 厂商信息
#!/bin/bash# 找到包含vendor_id的行打印第3列去重显示 awk '/vendor_id/{print $3}' /proc/cpuinfo | uniq
learning express step(五)
learning express middleware var express = require('express'); var app = express(); var myLogger = ...
【csp模拟赛6】计数--单调栈
对于60%的数据:暴力枚举对于100%的数据:因为排列是随机的,所以从每个点向后可能的差值最多2logn个,所以答案最多只可能有nlogn种,用单调队列找出来统计即可维护对于每个位置,向右能影响到的 ...
stark项目流程
1 创建Django项目 2 创建app python manage.py startapp app名 3 文件配置 app配置静态文件配置创建文件夹,下载bootstrap,jquery 归档文 ...
二十五、grub (Boot Loader) 以及修复grub
双系统安装(先Windows后Linux,以免windows NTloader会覆盖Linux loader) GRUB Grand Uniform Bootloader CentOS5,6 grub ...
getFieldDecorator用法（二）——封装表单模块
后台管理系统经常用到表单查询,因此做了个封装 myorder.js import React from 'react'; import { Card, Button, Table, Form, Sel ...

【miscellaneous】语音识别工具箱综述和产品介绍

【miscellaneous】语音识别工具箱综述和产品介绍的更多相关文章

随机推荐

热门专题