pocketsphinx实现连续大词汇量语音识别

之前有个项目需求是要在客户内网实现一个连续大词汇语音识别功能，由于客户的内网是独立的，不能访问互联网，所以我只能到开源社区去找找碰碰运气了。后来在网上找到了cmusphinx（地址：http://cmusphinx.sourceforge.net/），项目是c#语言的，pocketsphinx这个语音识别引擎是cpp写的，Sphinx4这是java的版本，为了很好的集成到项目中去，我选择了pocketsphinx，因为它在移动端和PC端都能运行。本人C++语言很差，东拼西凑总算把调用识别引擎的方法写好了，编译成Dll以后，在C#里面用DllImport来调用。从github上下载项目源码后，写一个下面的类，代码如下：

#include <pocketsphinx.h>
#include <fstream>
#include <iostream>
#include <string>
#include <Windows.h>
#define EXPORT_DLL extern "C" __declspec(dllexport)//向c#开放此文件的cpp方法
using  namespace std; 
 
//#define MODELDIR "model"
 
//获取运行环境路径
EXPORT_DLL string GetProgramDir()
{
    char buf[];
    GetCurrentDirectory(,buf);
    string path(buf);
    return path;
} 
 
//保存识别结果
static void write_results(char *rec_result)
{
    ofstream fResult("D:/run_path.txt",ios::app);
    fResult<<rec_result;
    fResult.close();
}
 
//获取配置文件(1:英文识别，2：中文识别)
static cmd_ln_t* get_config(char *modelDir,int language_type)
{
    string configPath(modelDir);
    if(modelDir==NULL)
    {
        string configPath=GetProgramDir();
    }
    //write_results((char*)configPath.c_str());
    cmd_ln_t *config;
    string hmm,lm,dict;
    if(language_type==)
    {
        hmm=configPath+"/model/en-us/en-us";
        lm=configPath+"/model/en-us/en-us.lm.dmp";
        dict=configPath+"/model/en-us/cmudict-en-us.dict";
        config = cmd_ln_init(NULL, ps_args(), TRUE,
            "-hmm", hmm.c_str(),
            "-lm", lm.c_str(),
            "-dict",dict.c_str(),
            NULL);
    }else
    {
        hmm=configPath+"/model/zh/zh";
        lm=configPath+"/model/zh/zh_broadcastnews_64000_utf8.dmp";
        dict=configPath+"/model/zh/zh_broadcastnews_utf8.dic";
        config = cmd_ln_init(NULL, ps_args(), TRUE,
            "-hmm", hmm.c_str(),
            "-lm", lm.c_str(),
            "-dict", dict.c_str(),
            NULL);
    }
    /*if (config == NULL)
    return config;*/
    return config;
}
 
//字符编码转换
char * UnicodeToANSI(const wchar_t* str)
{
    char* result;
    int textlen;
    textlen=WideCharToMultiByte(CP_ACP,,str,-,NULL,,NULL,NULL);
    result=(char *)malloc((textlen+)*sizeof(char));
    memset(result,,sizeof(char)*(textlen+));
    WideCharToMultiByte(CP_ACP,,str,-,result,textlen,NULL,NULL);
    return result;
}
 
wchar_t * UTF8ToNunicode(const char* str)
{
    int textlen;
    wchar_t * result;
    textlen=MultiByteToWideChar(CP_UTF8,,str,-,NULL,);
    result=(wchar_t *)malloc((textlen+)*sizeof(wchar_t));
    memset(result,,(textlen+)*sizeof(wchar_t));
    MultiByteToWideChar(CP_UTF8,,str,-,(LPWSTR)result,textlen);
    return result;
}
 
char* UTF8ToANSI(const char* str)
{
    return UnicodeToANSI(UTF8ToNunicode(str));
}
 
char strResult[];//保存语音识别返回结果
/*语言识别方法一
*languageType：（1:英文识别，2：中文识别，）
*file_name： （wav音频文件路径）
*/
EXPORT_DLL char* wavfile_speech_rec(int languageType,char *modelDir,char *file_name)
{
    ps_decoder_t *ps;
    int rv;
    int16 buf[];
    int32 score;
    FILE *fh;
    char const *hyp, *uttid;
    cmd_ln_t *config=get_config(modelDir,languageType);
    if(config==NULL)
    {
        strcpy(strResult,"语音模型配置文件读取失败！");
        return strResult;
    }
    ps=ps_init(config);
    if (ps == NULL)
    {
        strcpy(strResult,"解码器初始化失败！");
        return strResult;
    }
    fh = fopen(file_name, "rb");
    if (fh == NULL)
    {
        strcpy(strResult,"不是有效的wav文件！");
        return strResult;
    }
    rv = ps_start_utt(ps);
    if (rv < )
    {
        strcpy(strResult,"解码失败！");
        return strResult;
    }
    while (!feof(fh)) {
        size_t nsamp;
        nsamp = fread(buf, , , fh);
        rv = ps_process_raw(ps, buf, nsamp, FALSE, FALSE);
    }
    rv = ps_end_utt(ps);
    if (rv < )
    {
        strcpy(strResult,"解码失败！");
        return strResult;
    }
    hyp = ps_get_hyp(ps, &score);
    if (hyp == NULL)
    {
        strcpy(strResult,"");
        return strResult;
    }else
    {
        strcpy(strResult,hyp);
    }
    fclose(fh);
    fh=NULL;
    ps_free(ps);
    cmd_ln_free_r(config);
    return UTF8ToANSI(strResult);
}

c#中调用的代码如下：

using System;
using System.Collections.Generic;
using System.Linq;
using System.Runtime.InteropServices;
using System.Text;
 
namespace SpeechRec
{
    /// <summary>
    /// 语音识别工具类
    /// </summary>
    public class SpeechRecTool
    {
        public SpeechRecTool()
        {
 
        }
        [DllImport("pocketsphinx_speech_rec.dll", EntryPoint = "GetProgramDir", CharSet = CharSet.Ansi, CallingConvention = CallingConvention.Cdecl)]
        public static extern IntPtr GetProgramDir();
        /// <summary>
        /// wav文件识别
        /// </summary> CharSet = CharSet.Ansi, EntryPoint = "wavfile_speech_rec")
        /// <returns></returns>
        [DllImport("pocketsphinx_speech_rec.dll", EntryPoint = "wavfile_speech_rec", CharSet = CharSet.Ansi, CallingConvention = CallingConvention.Cdecl)]
        private static extern IntPtr wavfile_speech_rec(int lang, string modelPath, string fileName);
        /// <summary>
        /// wav文件识别
        /// </summary>
        /// <param name="language"></param>
        /// <param name="fileName"></param>
        public string WavFileSpeechRec(LanguageType language, string fileName)
        {
            string strResult = "";
            if (System.IO.File.Exists(fileName))
            {
                WavTools wTool = new WavTools();
                if (!new WavTools().IsStandardWavFile(fileName))
                {
                    fileName = wTool.FormateWavFile(fileName);
                }
                IntPtr intPtrResult = wavfile_speech_rec((int)language, @"E:\SoftWare\语音识别\狮身人面像\pocketsphinx\bin\Release\Win32", fileName);
                strResult = Marshal.PtrToStringAnsi(intPtrResult);
                System.IO.File.WriteAllText("D:\\aa.txt", strResult, System.Text.Encoding.GetEncoding("GB2312"));
                Console.WriteLine("执行结果：" + strResult);
            }
            else
            {
                Console.WriteLine("不是有效的音频文件");
            }
            return strResult;
        }
    }
    /// <summary>
    /// 语言类型
    /// </summary>
    public enum LanguageType
    {
        /// <summary>
        /// 中文
        /// </summary>
        En = ,
        /// <summary>
        /// 英文
        /// </summary>
        Zh =
    }
}

注意事项：音频要是wav，而且格式要和它demo里面的一致，我用了Naudio开源组件来实现wav音频格式的转换，如果音频比特率和采样率和它demo里面的不一样的话，会导致识别率降低

pocketsphinx实现连续大词汇量语音识别的更多相关文章

MySQL随机获取数据的方法，支持大数据量
最近做项目,需要做一个从mysql数据库中随机取几条数据出来. 总所周知,order by rand 会死人的..因为本人对大数据量方面的只是了解的很少,无解,去找百度老师..搜索结果千篇一律.特发到 ...
MySQL大数据量快速分页实现（转载）
在mysql中如果是小数据量分页我们直接使用limit x,y即可,但是如果千万数据使用这样你无法正常使用分页功能了,那么大数据量要如何构造sql查询分页呢? 般刚开始学SQL语句的时候,会这 ...
大数据量查询优化——数据库设计、SQL语句、JAVA编码
数据库设计方面: 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将 ...
sql大数据量查询的优化技巧
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
提高MYSQL大数据量查询的速度
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
Mysql千万级大数据量查询优化
来源于:https://blog.csdn.net/A350204530/article/details/79040277 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 ord ...
大数据量下的SQL Server数据库自身优化
原文: http://www.d1net.com/bigdata/news/284983.html 1.1:增加次数据文件从SQL SERVER 2005开始,数据库不默认生成NDF数据文件,一般情 ...
DB开发之大数据量高并发的数据库优化
一.数据库结构的设计如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. ...
大数据量高并发的数据库优化详解(MSSQL)
转载自:http://www.jb51.net/article/71041.htm 如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能. ...

随机推荐

git Auto packing the repository in background for optimum performance
遇到问题: git本地仓库,如果长时间不进行清理,几个月以后的某一天,可能拉取代码的时候突然提示你 git Auto packing the repository in background for ...
视频格式转换mp4
第一步:https://ffmpeg.zeranoe.com/builds/下载ffmpeg 或者:百度云下载: 链接:https://pan.baidu.com/s/1x_QogbV8xFjkYTe ...
前端页面中：jsp和HTML的区别之处
JSP和HTML的区别 HTML页面是静态页面,也就是事先由用户写好放在服务器上,固定内容,不会变,由web服务器向客户端发送,平时上网看的网页都是大部分都是基于html语言的. JSP页面是有JSP ...
深入浅出Mybatis系列六-objectFactory、plugins、mappers简介与配置
注:本文转载自南轲梦注:博主 Chloneda:个人博客 | 博客园 | Github | Gitee | 知乎上篇文章<深入浅出Mybatis系列(五)---TypeHandler简介及配 ...
C#中怎样获取System.Drawing.Color的所有颜色对象并存到数组中
场景需要在生成一组多条曲线时,随机从一颜色数组中取颜色,至少一百种颜色以上. 而System.Drawing.Color自带140多种颜色那么怎样将其自带的颜色对象取出并存在数组中. 注: 博客主 ...
jQuery---下拉菜单案例
下拉菜单案例 <!DOCTYPE html> <html> <head lang="en"> <meta charset="UT ...
Mac 多版本 JDK 管理
Mac 多版本 JDK 管理 1. 准备 ZSH Homebrew Oracle JDK 1.8 安装包(Homebrew 官方源和第三方源不再提供老版本的 Oracle JDK) 2. 安装 JDK ...
RYU安装教程
一.使用pip的形式安装RYU 1.首先检查ubuntu中是否存在pip,命令为 sudo pip3 --version 2.如果存在则使用默认版本8.1.1就行不必跟新,否则自己下载一个pip 3. ...
关于在Ubuntu中无法使用tree命令的原因
初学linux系统的时候使用的是Ubuntu的操作系统,边看视频边学习,却发现很多命令行在自己使用的时候没有效果,只会盲目的百度,后面回过头来仔细一看才发现,原来终端早就给你答案了,只是自己一看到英语 ...
关于List比较好玩的操作
作为Java大家庭中的集合类框架,List应该是平时开发中最常用的,可能有这种需求,当集合中的某些元素符合一定条件时,想要删除这个元素.如: public class ListTest { publi ...

pocketsphinx实现连续大词汇量语音识别

pocketsphinx实现连续大词汇量语音识别的更多相关文章

随机推荐

热门专题