kaldi - Online Audio Server（服务器客户端建立方法-旧版在线解码）

在kaldi 的工具集里有好几个程序可以用于在线识别。这些程序都位在src/onlinebin文件夹里，他们是由src/online文件夹里的文件编译而成(你现在可以用make ext 命令进行编译)。这些程序大多还需要tools文件夹中的portaudio 库文件支持，portaudio 库文件可以使用tools文件夹中的相应脚本文件下载安装。

# 安装portaudio

yum -y install *alsa*

cd kaldi/tools

./install_portaudio.sh

# 编译在线识别工具

cd src/

make ext

一、服务器客户端识别系统建立方法
二、使用麦克风建立客户端与服务器的实时解码
- 1. 使用online-server-gmm-decode-faster启动服务器：
- 2. 使用online-net-client启动客户端：

一、服务器客户端识别系统建立方法

建立整个在线识别系统需要：

准备两台机器，都安装kaldi；
作为服务器的机器，准备好声音模型、词典、解码网络、特征转换矩阵（我还没有使用转换矩阵）
首先启动服务器，待服务器运行后，再启动客户端连接。

1. Command line to start the server（服务器端启动方式）:

使用如下指令online-audio-server-decode-faster启动服务器：

online-audio-server-decode-faster --verbose=1 --rt-min=0.5 --rt-max=3.0 --max-active=6000 \

--beam=72.0 --acoustic-scale=0.0769 final.mdl graph/HCLG.fst graph/words.txt '1:2:3:4:5' \

graph/word_boundary.int 5010 final.mat

1.1 Arguments are as follow（参数意义）:

final.mdl - the acoustic model
HCLG.fst - the complete FST
words.txt - word dictionary (mapping word ids to their textual representation)
'1:2:3:4:5' - list of silence phoneme ids
5010 - port the server is listening on
word_boundary.int- a list of phoneme boundary information required for word alignemnt
final.mat - feature LDA matrix

注意：如果没有word_boundary.int 需要重新运行prepare_lang.sh生成。修改如下：

#原指令：

utils/prepare_lang.sh --position-dependent-phones false data/local/dict "<SPOKEN_NOISE>" \

data/local/lang data/lang

#改为：

utils/prepare_lang.sh data/local/dict "<SPOKEN_NOISE>" data/local/lang data/lang

启动后结果如下：

2. Command line to start the client（客户端启动方式）:

直接运行如下指令即可启动客户端：

 online-audio-client --htk --vtt localhost 5010 scp:test.scp

2.1 Arguments are as follow（参数意义）:

–htk - save results as an HTK label file
–vtt - save results as a WebVTT file
localhost - server to connect to
5010 - port to connect to
scp:test.scp - list of WAV files to send

启动后客户端不断传输数据，服务器实时进行解码！结果如下：

结果是边传输边识别的：

* Command line to start the Java client（移动客户端）:

移动客户端我还未尝试：

java -jar online-audio-client.jar

Or simply double-click the JAR file in the graphical interface.

二、使用麦克风建立客户端与服务器的实时解码

kaldi提供了读取客户端麦克风数据的解码工具，可以在客户端使用麦克风发送音频，服务器实时返回解码数据。

1. 使用`online-server-gmm-decode-faster`启动服务器：

通过网络接收特征进行解码。话语分词是即时完成的。如果给出可选（最后）参数，则使用特征拼接/ LDA变换。否则默认使用delta / delta-delta（2阶）特征。

Usage: online-server-gmm-decode-faster [options] model-infst-in word-symbol-table silence-phones udp-port [lda-matrix-in]

Example: online-server-gmm-decode-faster --rt-min=0.3 --rt-max=0.5 --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 model HCLG.fst words.txt '1:2:3:4:5' 1234 lda-matrix

2. 使用`online-net-client`启动客户端：

通过online-net-client工具，使用麦克风（portaudio）作为输入，提取特征并通过网络连接发送它们到服务器上。具体设置如下：

Usage: online-net-client server-address server-port 

Options:

  --batch-size                : The number of feature vectors to be extracted and sent in one go (int, default = 27)

Standard options:

  --config                    : Configuration file to read (this option may be repeated) (string, default = "")

  --help                      : Print out usage message (bool, default = false)

  --print-args                : Print the command line arguments (to stderr) (bool, default = true)

  --verbose                   : Verbose level (higher->more logging) (int, default = 0)

引用：kaldi-asr

转载请注明：https://www.cnblogs.com/sunhongwen/p/9437074.html

参考：kaldi首页

kaldi - Online Audio Server（服务器客户端建立方法-旧版在线解码）的更多相关文章

1. SQL Server服务器监控实现方法
对于服务器的监控,和对数据库的监控,很少有合二为一的工具,如果有的话,一般是付费软件,或者自行开发的工具.所以如果不想购买软件,也不想花精力去开发的话,可以结合一些免费/开源的工具.自定义脚本,来完成 ...
在非SQL客户端使用命令行方式定期连接SQL Server 服务器并模拟用户查询操作，同时输出信息内容
一个很长的标题,实现的功能就是尽量使用非人力的方式模拟人去做一件事情,为了便于记录,将他们输出成文件方便查阅. 图形界面方式,使用微软自己的ConnMaker.exe,或者Microsoft 数据连接 ...
SQL Server服务器名称与默认实例名不一致的修复方法
SQL Server服务器名称与默认实例名不一致的修复方法分类: 个人累积 SQl SERVER 数据库复制2011-08-10 09:49 10157人阅读评论(0) 收藏举报 sql ser ...
Openfire更服务器名称后报Found RSA certificate that is not valid for the server domain的解决方法
原文:http://blog.sina.com.cn/s/blog_ae5a3d3f0102wdrb.html Openfire更服务器名称的方法: 1.登陆openfire管理页面,在主页面下方选择 ...
SVN入门服务器VisualSVN Server和客户端TortoiseSVN安装
Subversion是一个版本控制系统,相对于的RCS.CVS,采用了分支管理系统,它的设计目标就是取代CVS.互联网上免费的版本控制服务多基于Subversion. 一.SVN工作原理 SVN(Su ...
【转载】Windows Server 2012服务器删除IIS方法
在Windows Server2012版本的服务器系统中,我们可以通过服务器管理器中的"添加角色和功能"来添加IIS的Web服务器,当我们不再使用IIS功能时候,我们也可以通过删除 ...
windows server 服务器添加免费域名证书的方法(Let's Encrypt)
在 windows server 服务器上可以通过 win-acme工具添加ssl 1.首先下载工具 https://github.com/PKISharp/win-acme/releases 最新版 ...
Win7 64位下sql server链接oracle的方法
继上一次mysql同步sql server后,这一次需要将Oracle同步到sql server上来,方案相似,只是在sql server链接oracle的时候费了很多时间. 一.测试环境本方案实现 ...
GCM 发送接收消息 Message Client Server 服务器端,客户端
GCM 传递参数最近用了很多时间做GCM,由于碰到很多问题,因此详细做一下记录,以方便各位网友,不用再走我的重复的路.不过我试了一下GCM在国内很不好用.假如开发国外的程序的话,用GCM倒是很不错的 ...

随机推荐

由Oracle 11g SYSAUX 和 SYSTEM 表空间回收引发的联想
0x00--目的整理一下以前一个SYSTEM表空间和SYSAUX表空间使用率达到99%上限的处理思路和相关知识点,好记性不如烂笔头 0x01--表空间使用率现状通过查询可得知目前表空间使用情况如下 ...
es6 Set 和Map 数据结构
ES6提供了新的数据结构Set,它类似于数组,但是成员的值都是唯一的,没有重复的值. Set 本身是一个数据结构,用来生成Set 数据结构. const s = new Set(); [2,3,5,4 ...
VMware Workstation 安装Vmware tools 是出现vmware tools unavailable
这个问题是因为虚拟机安装的时候操作系统选择的不对,在Virtual Machine Settings中选择Options,在General中选择正确的操作系统类型例如Guest operating ...
PHP的发展历程
PHP的发展历程了解一门语言,我们必须知道这门语言的发展史,现在我通过版本的变化以时间轴的形式来说明PHP的发展历程. 1.1995年初PHP1.0诞生 Rasmus Lerdof发明了PHP,这是 ...
python中如何退出多层循环
1.定义标记变量:利用变量值的变化退出循环 # 第一种嵌套形式 a = [[1, 2, 3], [5, 5, 6], [7, 8, 9]] # init_i = 0 # init_j = 0 flag ...
STM32JTAG口用作普通IO的配置
使用Jlink向STM32烧录程序时,需要使用6个芯片的引脚(以STM32F103C8T6为例),分别是PB4/JNTRST.PB3/JTDO.PA13/JTMS.PA14/JTCK.PA15/JTD ...
python学习笔记：第7天深浅拷贝
目录 1. 基础数据类型补充 2. set集合 3. 深浅拷贝 1. 基础数据类型补充 (1)join方法 join方法是把一个列表中的数据进行拼接,拼接成字符串(与split方法相反,split方法 ...
Codeforces Round #490 (Div. 3) :F. Cards and Joy（组合背包）
题目连接:http://codeforces.com/contest/999/problem/F 解题心得: 题意说的很复杂,就是n个人玩游戏,每个人可以得到k张卡片,每个卡片上有一个数字,每个人有一 ...
python3 使用语音库pyttsx3
python3 使用语音库pyttsx3 环境linux+python3.6 sudo pip install pyttsx3 sudo apt-get install espeak 代码实例 imp ...
20145202马超 2016-2017-2 《Java程序设计》第二次实验
去年完成的一部分(http://www.cnblogs.com/tuolemi/p/5728826.html) 今年我又从新做的,这是分别5个问题做出来的结果下面这个是去年没有做的,是用来建模的,感 ...