win7语音识别开发(sapi)
参考:http://msdn.microsoft.com/en-us/library/ee125663(v=vs.85).aspx (sapi5.4 reference)
http://msdn.microsoft.com/zh-cn/library/ms723634 Grammar Format Tags (SAPI 5.3)
http://blog.csdn.net/zhubenfulovepoem/article/details/6803505 语音控制
http://hi.baidu.com/bxybao/item/693fc8098aa36c17acdc704f sapi5.1介绍
开发步骤:
1 sapi 是基于com的接口,所以应用程序开发需要遵循com调用规则
- hr = ::CoInitialize(NULL);
- .........
- ::CoUninitialize();
2 sapi 语音识别主要接口
(1) 语音识别引擎(ISpRecognizer)接口:用于创建语音识别引擎的实例。语音识别引擎对象有两种:独占(InProcRecognizer)的引擎和共享(SharedRecognizer)的引擎。独占的引擎对象只能由创建的应用程序使用,而共享的引擎可以
供多个应用程序共同使用。
(2) 语音识别上下文(ISpRecoContext)接口:主要用于发送和接收与语音识别相关的消息通知,创建语法规则对象。
(3) 语法规则(ISpRecoGrammar)接口:定义引擎需要识别的具体内容,用于创建、载入和激活识别用的语法规则。而语法规则定义了期望识别的单词、短语和句子,通常有两种语法规则:听写语法(DictationGrammer)和命令控制语法(Command and Control Grammer)。命令控制语法主要用于识别用户在语法文件里自定义的一些特定的命令词汇和句子,这些语法规则以XML文件的格式编写,通过(ISpRecoGrammar)接口载入,并激活。
(4) 识别结果(ISpPhrase)接口:用于获取识别的结果,包括识别的文字,识别的语法规则等。
(5) 语音合成(ISpVoice)接口:主要功能是通过访问TTS引擎实现文本到语音的转换,从而使电脑会说话。
- CComPtr<ISpRecoContext> cpRecoCtxt; //语音识别上下文接口
- CComPtr<ISpRecoGrammar> cpGrammar; //语法规则接口
- CComPtr<ISpVoice> cpVoice; //<span style="font-family: Arial; font-size: 14px; line-height: 26px;">语音合成接口 <span style="font-family: Arial; font-size: 14px; line-height: 26px;">主要功能是通过访问TTS引擎实现文本到语音的转换,从而使电脑会说话。</span></span>
- CComPtr<ISpRecognizer> cpRecognizer; // 语音识别引擎
- CComPtr<ISpAudio> m_pAudio; // 创建进程内语音识别引擎需要的音频接口
- CComPtr<ISpRecoResult>
3 example
- // cpp_Aes.cpp : 定义控制台应用程序的入口点。
- //
- #include "stdafx.h"
- /*
- #include "aes.h"
- #include <string.h>
- using namespace std;
- void AES_cbc_encrypt(const unsigned char *in, unsigned char *out,
- size_t len, const AES_KEY *key,
- unsigned char *ivec, const int enc)
- int _tmain(int argc, _TCHAR* argv[])
- {
- unsigned char iv[16] ;
- strncpy((char*)iv,"0102030405060708",16);
- const char* intext = "http://www.baidu.com";
- AES_KEY key ={0};
- AES_set_encrypt_key((unsigned char*)"0102030405060708",128,&key);
- unsigned char out[1024] ={0};
- unsigned char in[1024] ={0};
- memset(in,0x0c,1024);
- memcpy(in,intext,20);
- AES_cbc_encrypt((unsigned char*)in,out,32,&key,iv,1);
- for (int i=0; i < 32 ;i ++)
- {
- printf("%02X ", out[i]);
- }
- return 0;
- }
- */
- #include <windows.h>
- #include <sapi.h>
- #include <stdio.h>
- #include <string.h>
- #include <atlbase.h>
- #include "sphelper.h"
- //Copyright (c) Microsoft Corporation. All rights reserved.
- inline HRESULT BlockForResult(ISpRecoContext * pRecoCtxt, ISpRecoResult ** ppResult)
- {
- HRESULT hr = S_OK;
- CSpEvent event;
- while (SUCCEEDED(hr) &&
- SUCCEEDED(hr = event.GetFrom(pRecoCtxt)) &&
- hr == S_FALSE)
- {
- hr = pRecoCtxt->WaitForNotifyEvent(INFINITE);
- }
- *ppResult = event.RecoResult();
- if (*ppResult)
- {
- (*ppResult)->AddRef();
- }
- return hr;
- }
- const WCHAR * StopWord()
- {
- const WCHAR * pchStop;
- LANGID LangId = ::SpGetUserDefaultUILanguage();
- switch (LangId)
- {
- case MAKELANGID(LANG_JAPANESE, SUBLANG_DEFAULT):
- //case MAKELANGID(LANG_ENGLISH, SUBLANG_DEFAULT):
- pchStop = L"}42N86/0b70e50fc0ea0e70fc/05708504608a087046";;
- break;
- default:
- pchStop = L"Stop";
- break;
- }
- return pchStop;
- }
- void __stdcall SPNOTIFYCALLBACK1(WPARAM wParam, LPARAM lParam)
- {
- int x = 0;
- return ;
- }
- int main(int argc, char* argv[])
- {
- HRESULT hr = E_FAIL;
- bool fUseTTS = true; // turn TTS play back on or off
- bool fReplay = true; // turn Audio replay on or off
- // Process optional arguments
- if (argc > 1)
- {
- int i;
- for (i = 1; i < argc; i++)
- {
- if (_stricmp(argv[i], "-noTTS") == 0)
- {
- fUseTTS = false;
- continue;
- }
- if (_stricmp(argv[i], "-noReplay") == 0)
- {
- fReplay = false;
- continue;
- }
- printf ("Usage: %s [-noTTS] [-noReplay] ", argv[0]);
- return hr;
- }
- }
- if (SUCCEEDED(hr = ::CoInitialize(NULL)))
- {
- {
- CComPtr<ISpRecoContext> cpRecoCtxt;
- CComPtr<ISpRecoGrammar> cpGrammar;
- CComPtr<ISpVoice> cpVoice;
- CComPtr<ISpRecognizer> cpRecognizer;
- CComPtr<ISpAudio> m_pAudio;
- //hr = cpRecoCtxt.CoCreateInstance(CLSID_SpSharedRecoContext);
- hr = cpRecoCtxt.CoCreateInstance(CLSID_SpInProcRecoContext);
- if(SUCCEEDED(hr))
- {
- hr = cpRecoCtxt->GetVoice(&cpVoice);
- }
- hr = cpRecoCtxt->GetRecognizer(&cpRecognizer);
- hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN,&m_pAudio);
- hr = cpRecognizer->SetInput(m_pAudio,TRUE);
- cpRecognizer->SetRecoState(SPRST_ACTIVE);
- hr = cpRecoCtxt->SetNotifyWin32Event();
- hr = cpRecoCtxt->SetInterest(SPFEI(SPEI_RECOGNITION), SPFEI(SPEI_RECOGNITION));
- hr = cpRecoCtxt->SetAudioOptions(SPAO_RETAIN_AUDIO, NULL, NULL);
- hr = cpRecoCtxt->CreateGrammar(0, &cpGrammar);
- hr = cpGrammar->LoadCmdFromFile(L"cmd.xml",SPLO_DYNAMIC);
- int err = FAILED(hr);
- hr = cpGrammar->SetRuleState( NULL,NULL,SPRS_ACTIVE );
- //hr = cpRecoCtxt->SetNotifyCallbackFunction(SPNOTIFYCALLBACK,)
- /*if (cpRecoCtxt && cpVoice &&
- SUCCEEDED(hr = cpRecoCtxt->SetNotifyWin32Event()) &&
- SUCCEEDED(hr = cpRecoCtxt->SetInterest(SPFEI(SPEI_RECOGNITION), SPFEI(SPEI_RECOGNITION))) &&
- SUCCEEDED(hr = cpRecoCtxt->SetAudioOptions(SPAO_RETAIN_AUDIO, NULL, NULL)) &&
- SUCCEEDED(hr = cpRecoCtxt->CreateGrammar(0, &cpGrammar)) &&
- SUCCEEDED(hr = cpGrammar->LoadCmdFromFile(L"cmd.xml",SPLO_DYNAMIC)) &&
- SUCCEEDED(hr = cpGrammar->SetRuleState( NULL,NULL,SPRS_ACTIVE )))*/
- //SUCCEEDED(hr = cpRecoCtxt->CreateGrammar(0, &cpGrammar)) &&
- //SUCCEEDED(hr = cpGrammar->LoadDictation(NULL, SPLO_STATIC)) &&
- //SUCCEEDED(hr = cpGrammar->SetDictationState(SPRS_ACTIVE)))
- {
- USES_CONVERSION;
- const WCHAR * const pchStop = StopWord();
- CComPtr<ISpRecoResult> cpResult;
- printf( "I will repeat everything you say. Say \" %s \" to exit. ", W2A(pchStop) );
- while(true)
- //while (SUCCEEDED(hr = BlockForResult(cpRecoCtxt, &cpResult)))
- {
- //cpGrammar->SetDictationState( SPRS_INACTIVE );
- hr = cpRecoCtxt->WaitForNotifyEvent(INFINITE);
- cpGrammar->SetRuleState( NULL,NULL,SPRS_INACTIVE );
- CSpDynamicString dstrText;
- hr = BlockForResult(cpRecoCtxt, &cpResult);
- if (SUCCEEDED(cpResult->GetText(SP_GETWHOLEPHRASE, SP_GETWHOLEPHRASE,
- TRUE, &dstrText, NULL)))
- {
- printf("I heard: %s ", W2A(dstrText));
- if (fUseTTS)
- {
- cpVoice->Speak( L"I heard", SPF_ASYNC, NULL);
- cpVoice->Speak( dstrText, SPF_ASYNC, NULL );
- }
- if (fReplay)
- {
- if (fUseTTS)
- cpVoice->Speak( L"when you said", SPF_ASYNC, NULL);
- else
- printf (" when you said... ");
- cpResult->SpeakAudio(NULL, 0, NULL, NULL);
- }
- cpResult.Release();
- }
- if (_wcsicmp(dstrText, pchStop) == 0)
- {
- break;
- }
- //cpGrammar->SetDictationState( SPRS_ACTIVE );
- cpGrammar->SetRuleState( NULL,NULL,SPRS_ACTIVE );
- }
- }
- }
- ::CoUninitialize();
- }
- return hr;
- }
4 配置文件
- <GRAMMAR>
- <DEFINE>
- <ID NAME="TheNumberFive" VAL="5"/>
- </DEFINE>
- <!-- Note that the ID takes a number, which is actually "5" -->
- <RULE ID="TheNumberFive" TOPLEVEL="ACTIVE">
- <List>
- <P>打开灯源</P>
- <P>关闭灯源</P>
- <P>开一号灯</P>
- <P>开二号灯</P>
- <P>关闭一号灯</P>
- <P>增亮一号灯</P>
- <P>全部关闭</P>
- <P>打开厨房灯</P>
- </List>
- </RULE>
- </GRAMMAR>
win7语音识别开发(sapi)的更多相关文章
- 转:基于科大讯飞语音API语音识别开发详解
原文来自于: http://www.52wulian.org/android_voice/ 最近项目需要用到android语音识别,立马就想到科大讯飞,结合官方实例及阅读API文档,初步的完成了And ...
- cocos2d-x -3.81+win7+vs2013开发环境创建新的项目
cocos2d-x -3.81+win7+vs2013开发环境创建新的项目 1.准备阶段 (1) vs2013下载及安装 (2)cocos2d-x 3.8.1下载及解压 (3)python下载及安装( ...
- opencv 2.4.9+pcl 1.6+vs2010+win7 32开发环境配置
最近在做图像方面的开发,需要对软件开发平台进行配置,我查找了关于这些方面的内容,由于软件版本很多,每个人的开发平台又不一样所以在对平台进行搭建过程中遇到了很多问题,下面我将我搭建平台的流程做一个记录. ...
- Win7 Python开发环境搭建
1. 下载Anaconda并安装 地址: https://www.anaconda.com/download/ Anaconda包括Python基础包与一系列科学计算包,安装后不用再单独安装Pyth ...
- WPF win7+vs2010开发的打印功能,怎么在XP系统上无法打印
在wpf 中打印功能很强大,但最近是在win7上可以但是布置到xp上就不可以了,查了好多资料终于知道怎么回事了原来xp里没有.net framework3.5 安装一个就OK了要先安装4.0.
- win7 web开发遇到的问题-由于权限不足而无法读取配置文件,无法访问请求的页面
错误一: HTTP Error 500.19 - Internal Server Error配置错误: 不能在此路径中使用此配置节.如果在父级别上锁定了该节,便会出现这种情况.锁定是默认设置的 (ov ...
- 利用微软Speech SDK 5.1开发语音识别系统主要步骤
利用微软Speech SDK 5.1开发语音识别系统主要步骤 2009-09-17 10:21:09| 分类: 知识点滴|字号 订阅 微软语音识别分两种模式:文本识别模式和命令识别模式.此两种模式的 ...
- win7下安装Sass和compass
由于项目需要我们使用到sass来编译css文件.本人在win7下开发 由于国内安装sass遇到了一些困难,后来不得不网查询,后来终于解决了,这里介绍一下 1.要安装sass环境必须要先安装rubyIn ...
- Android开发环境建立
一.For windows 7(注:XP会有问题) 1.JDK-Java SE download: http://www.oracle.com/technetwork/java/javase/down ...
随机推荐
- mysql (已解决)Access denied for user 'root'@'localhost' (using password: NO)
找到mysql中的my.ini,在最后一行加入 skip-grant-tables 在“管理工具”-”服务” 中重启mysql 解决问题
- 开发Yii2过滤器并通过behaviors()行为调用(转)
在Yii2的几乎每个controller中,我们都会看到一个函数behaviors(),通常,我们用这个函数来配置控制器的权限,例如:public function behaviors() { ...
- ubuntu中pip安装redis-py及pip的使用
安装redis-py的前提是已经将redis成功安装,redis安装过程请看博文 ubuntu14安装redis 1.安装pip sudo apt-get install python-pip 2.使 ...
- ios网络层优化深入浅出
网络层是iOS开发必须掌握的部分,苹果已经将网络请求封装得非常易用了,看看NSURLRequest和NSURLConnection的文档,你就知道怎么用了,这里我就不细讲了.本文主要讲网络层的调用逻辑 ...
- 客户端负载均衡:Ribbon
Ribbon是一个客户端的负载均衡器,可以提供很多HTTP和TCP的控制行为.Feign已经使用了Ribbon,所以如果你使用了@FeignClient,Riboon也同样被应用了. Ribbon核心 ...
- 批处理学习笔记12 - 拷贝大文件到特定目录 Copy命令
~z 获取文件容量大小,配合变量使用 copy 拷贝命令, copy 原地址 新地址 ok,下面上代码 @echo off setlocal enabledelayedexpansion for %% ...
- ISE和Modelsim联合仿真(详细步骤讲解)
ISE和Modelsim联合仿真(转) 地址:http://www.cnblogs.com/feitian629/archive/2013/07/13/3188192.html 相信很多人会遇到过这个 ...
- 使用python的email、smtplib、poplib模块收发邮件
使用python的email.smtplib.poplib模块收发邮件 一封电子邮件的旅程是: MUA:Mail User Agent——邮件用户代理.(即类似Outlook的电子邮件软件) MTA: ...
- ngApp指令,也就是ng-app属性
翻译:https://docs.angularjs.org/api/ng/directive/ngApp 使用这个指令去 自动引导 一个AngularJS 应用程序. ngApp 指令规定了html ...
- 基于CSS3图片悬停放大特效
今天我们要来分享一款很酷的CSS3图片特效,这款图片特效可以利用鼠标滑过图片使其悬停放大,并使图片的周围出现发光的效果.配合黑色的背景,这款CSS3图片悬停放大效果显得更加立体大气,非常适合产品图片的 ...