使用OLAMISDK实现一个语音输入数字进行24点计算的iOS程序
前言
在目前的软件应用中,输入方式还是以文字输入方式为主,但是语音输入的方式目前应用的越来越广泛。这是一个利用 Olami SDK 编写的一个24点iOS程序,是通过语音进行输入。
Olami SDK的介绍在下面这个网址
https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html
在这个网址中详细的介绍了Olami SDK包含了那些函数和定义的委托。
App实现
下面就通过24点这个程序来介绍一下如何使用这个SDK。
这个APP可在 https://github.com/lym-ay/OlamiRecognizerMath24 下载
- 去上面的网址下载Olami SDK.包括两个文件,其中的一个是Olami的静态函数库,一个是其头文件
第一步是初始化Olami的语音识别对象,并设置代理
olamiRecognizer= [[OlamiRecognizer alloc] init];
olamiRecognizer.delegate = self;
2.调用setAuthorization函数进行授权
[olamiRecognizer setAuthorization:@"d13bbcbef2a4460dbf19ced850eb5d83"
api:@"asr" appSecret:@"3b08b349c0924a79869153bea334dd86" cusid:OLACUSID];
这个函数的参数的说明在OlamiRecognizer中有说明,也可以去在线API说明去查看
https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html
有些参数必须去Olami的开发平台上注册才可以获的,网址是https://olami.ai,注册登陆以后创建应用才可以看到了
3.设置语系
[olamiRecognizer setLocalization:LANGUAGE_SIMPLIFIED_CHINESE];
在进行录音之前必须要先进行设置,否则会得不到结果。目前只支持简体中文(LANGUAGE_SIMPLIFIED_CHINESE)
4.开始录音
调用 start()接口开始进行录音
[olamiRecognizer start];
5.得到录音的文字和语义,并对其进行处理
通过调用stop()函数或者自动停止,都会获得录音的文字和对其进行的语义分析的结果
实现OlamiRecognizerDelegate onResult函数可以获得结果,其结果以一个json字符串的形式回调过来,对这个字符串进行解析,就可以获得想要的数字。例如对着话筒说”2345算24点”,得到的结果如下
{
"data": {
"asr": {
"result": "二 三 四 五 算 二 十 四 点",
"speech_status": 0,
"final": true,
"status": 0
},
"nli": [
{
"desc_obj": {
"status": 0
},
"semantic": [
{
"app": "math24",
"input": "二三四五算二十四点",
"slots": [
{
"num_detail": {
"recommend_value": "",
"type": "number"
},
"name": "number3",
"value": "4"
},
{
"num_detail": {
"recommend_value": "",
"type": "number"
},
"name": "number4",
"value": "5"
},
{
"num_detail": {
"recommend_value": "",
"type": "number"
},
"name": "number1",
"value": "2"
},
{
"num_detail": {
"recommend_value": "",
"type": "number"
},
"name": "number2",
"value": "3"
}
],
"modifier": [
"play_calculate"
],
"customer": "58df685e84ae11f0bb7b4893"
}
],
"type": "math24"
}
]
},
"status": "ok"
}
这个是根据OSL语法描述语言定义的一套规则,返回的结果。这个结果的说明在 https://cn.olami.ai/wiki/?mp=api_nlu&content=api_nlu3.html 这个网址上有说明。
看到这里大家可能会有疑惑,APP怎么知道我说的是什么意思呢?这就涉及到了OSL语法描述语言,OLAMI 语法描述语言(OLAMI Syntax Language,简称:OSL)是 OLAMI 平台针对自然语言处理所发展出的独特语法标记语言,自然语言语义互动(Natural Language Interaction, 简称:NLI)管理系统采用 OSL 取代复杂的编码编程,使用简单、容易学习而且灵活有弹性。可以在这个网址查看详细的说明
https://cn.olami.ai/wiki/?mp=osl&content=osl1.html
在编写这个APP之前,会按照OSL的要求编写好一套语法,这套语法可以被Olami的服务器所理解,并进行语义分析然后给出结果,就是上面的json字符串。在Olami官网上有写好的一些领域的模块,可以直接使用。在 https://cn.olami.ai/wiki/?mp=nli&content=nli1.html 网址可以看到介绍如何使用以后的模块。这个24点就是利用已有的模块来编写代码的。
6.创建应用,设置和导入grammar
首先去olami的主页去登陆和注册。登陆以后转到这页面
在这个页面可以看到我的应用 math24,还可以查看key
当然这个页面必须创建应用以后才有,点击“创建新应用”,转到下面这个页面
填写 应用名称,应用描述,应用介绍以后,就可以创建了。回到上一个页面,就可以看到创建的应用了。
点击”进入NLI系统”就可以进入模块页面
在官网已经内置了很多领域的grammar.在模块页面大家点击“导入”按钮,查看已有领域的模块
选择一个要使用的,例如我要导入”math24”这个模块,先选择它,点击“导入” 按钮
然后进入 math24模块,就可以看到例句
但是这个时候还是不能使用,需要先进行发布。点击页面上方的”发布”按钮,进入发布页面
点击“发布”按钮
发布成功,现在就可以使用24模块了。
Olami还提供了测试grammar的功能,点击“测试”按钮,可以在页面进行测试,而不必要先开发APP
最后还要回到“我的应用”界面,点击”配置NLI模块”按钮,让自己创建的应用和模块关联起来
7.onResult 函数的说明
在整个程序中,最主要的一个函数就是onResult函数
- (void)onResult:(NSData *)result {
NSError *error;
__weak typeof(self) weakSelf = self;
NSDictionary *dic = [NSJSONSerialization JSONObjectWithData:result
options:NSJSONReadingMutableContainers
error:&error];
if (error) {
NSLog(@"error is %@",error.localizedDescription);
}else{
NSString *jsonStr=[[NSString alloc]initWithData:result
encoding:NSUTF8StringEncoding];
NSLog(@"jsonStr is %@",jsonStr);
NSString *ok = [dic objectForKey:@"status"];
if ([ok isEqualToString:@"ok"]) {
NSDictionary *dicData = [dic objectForKey:@"data"];
NSDictionary *asr = [dicData objectForKey:@"asr"];
if (asr) {//如果asr不为空,说明目前是语音输入
[weakSelf processASR:asr];
}
NSDictionary *nli = [[dicData objectForKey:@"nli"] objectAtIndex:0];
NSDictionary *desc = [nli objectForKey:@"desc_obj"];
int status = [[desc objectForKey:@"status"] intValue];
if (status != 0) {// 0 说明状态正常,非零为状态不正常
NSString *result = [desc objectForKey:@"result"];
dispatch_async(dispatch_get_main_queue(), ^{
_resultTextView.text = result;
});
}else{
NSDictionary *semantic = [[nli objectForKey:@"semantic"]
objectAtIndex:0];
[weakSelf processSemantic:semantic];
}
}else{
dispatch_async(dispatch_get_main_queue(), ^{
_resultTextView.text = @"请说出10以内的4个数";
});
}
}
}
这个函数就是对传过来的结果进行处理
在这个函数中,调用了三个函数,分别来处理josn格式中的三个比较重要的节点
- (void)processASR:(NSDictionary*)asrDic {
NSString *result = [asrDic objectForKey:@"result"];
if (result.length == 0) { //如果结果为空,则弹出警告框
UIAlertController *alertController = [UIAlertController
alertControllerWithTitle:@"没有接受到语音,请重新输入!"
message:nil
preferredStyle:UIAlertControllerStyleAlert];
[self presentViewController:alertController animated:YES completion:^{
dispatch_time_t time=dispatch_time(DISPATCH_TIME_NOW, 1*NSEC_PER_SEC);
dispatch_after(time, dispatch_get_main_queue(), ^{
[alertController dismissViewControllerAnimated:YES completion:nil];
});
}];
}else{
dispatch_async(dispatch_get_main_queue(), ^{
NSString *str = [result stringByReplacingOccurrencesOfString:@" " withString:@""];//去掉字符中间的空格
_inputTextView.text = str;
});
}
}
这个用来处理ASR节点,获得语音识别的结果,如果没有结果,则弹出一个对话框进行提示。ASR识别的文字显示在第一个TextView中
- (void)processSemantic:(NSDictionary*)semanticDic {
NSArray *slot = [semanticDic objectForKey:@"slots"];
[_slotValue removeAllObjects];
if (slot.count != 0) {
for (NSDictionary *dic in slot) {
NSString* val = [dic objectForKey:@"value"];
[_slotValue addObject:val];
}
}
NSArray *modify = [semanticDic objectForKey:@"modifier"];
if (modify.count != 0) {
for (NSString *s in modify) {
[self processModify:s];
}
}
}
这个用来处理Semantic节点,这个节点中包含了slot的值和modifier的值。OSL 语法描述语言中的 slot 可理解为语义中的变量,用于传递、提取信息,是代码处理的数据的来源。对于24点这个程序来说,就是进行计算的4的数的来源。关于slot的值可以参考 https://cn.olami.ai/wiki/?mp=osl&content=osl_slot.html,这里有详细说明。在24点程序中我们的要计算的数字就是从这里获得的。
- (void)processModify:(NSString*) str {
if ([str isEqualToString:@"play_want"]
|| [str isEqualToString:@"play_want_ask"]
|| [str isEqualToString:@"needmore"]
|| [str isEqualToString:@"needmore_ask"]) {//要求用户输入值
dispatch_async(dispatch_get_main_queue(), ^{
_resultTextView.text = @"请说出10以内的4个数";
});
}else if ([str isEqualToString:@"rules"]){
dispatch_async(dispatch_get_main_queue(), ^{
_resultTextView.text = @"四个数字运算结果等于二十四";
});
}else if ([str isEqualToString:@"play_calculate"]){
NSString* str = [[Math24 shareInstance] calculate:_slotValue];
dispatch_async(dispatch_get_main_queue(), ^{
_resultTextView.text = str;
});
}else if ([str isEqualToString:@"attention"]){
dispatch_async(dispatch_get_main_queue(), ^{
_resultTextView.text = @"四个数字必须是10以内的,不能超过10";
});
}
}
这个用来处理语音和语义的结果。这个函数主要是处理json字符串中的modifier节点。modifier 语法描述规则是 OSL 语法描述语言中,除了 slot 以外的另一种内置的信息传递机制,一般用来表示语义目的,也可以理解为对于语义的一种注释方式,以便让应用程序的开发者得知 grammar 所代表的相应意图。详细说明参考
https://cn.olami.ai/wiki/?mp=osl&content=osl_regex.html#11,通过modifier,我们才能知道程序的意图是什么?例如是想发问,还是计算结果。
如上代码所示,在24点钟我们定义了7个modifier,根据字面意思大家也可以猜出来。这些都可以在OSL语法中自定义,然后通过Josn字符串获得,在程序中进行处理。这个是我们程序进行处理的一个判断机制。
下载资源
可以在csdn下载频道下载
http://download.csdn.net/detail/dfman1978/9840447
github
https://github.com/lym-ay/OlamiRecognizerMath24
另外这里还有几篇使用Olami SDK开发程序的文章
这个是一个听书的程序
http://blog.csdn.net/ls0609/article/details/71519203
这个是一个关于天气的程序
http://blog.csdn.net/zhangxy0605/article/details/71601604
这是一个根据OLAMI平台开发的日历demo
http://blog.csdn.net/xinfinityx/article/details/72840977
使用OLAMISDK实现一个语音输入数字进行24点计算的iOS程序的更多相关文章
- iOS 10中如何搭建一个语音转文字框架
在2016WWDC大会上,Apple公司介绍了一个很好的语音识别的API,那就是Speech framework.事实上,这个Speech Kit就是Siri用来做语音识别的框架.如今已经有一些可用的 ...
- 最后一个非零数字(POJ 1604、POJ 1150、POJ 3406)
POJ中有些问题给出了一个长数字序列(即序列中的数字非常多),这个长数字序列的生成有一定的规律,要求求出这个长数字序列中某个位上的数字是多少.这种问题通过分析,找出规律就容易解决. 例如,N!是一个非 ...
- js控制input框输入数字时,累计求和
input框输入数字时,自动开始计算累加 <div class="form-group"> <label for="inputPassword3&quo ...
- js实例:验证只能输入数字和一个小数点
分享一个javascript脚本代码,用于验证只能输入数字和一个小数点,检测数字输入是否符合要求,效果不错,有用到的朋友拿去吧. 原文地址:http://www.jbxue.com/article/1 ...
- JS实现input中输入数字,控制每四位加一个空格(银行卡号格式)
前言 今天来讲讲js中实现input中输入数字,控制每四位加一个空格的方法!这个主要是应用于我们在填写表单的时候,填写银行卡信息,要求我们输入的数字是四位一个空格!今天主要介绍两种方式来实现这个方法! ...
- 执行这些代码, Edit1只能输入数字,小数点和负号,负号和小数点只能输入一个,负号必须在最前,粘贴的数字必须完全正确.
执行这些代码, Edit1只能输入数字,小数点和负号,负号和小数点只能输入一个,负号必须在最前,粘贴的数字必须完全正确. type TForm1 = class(TForm) Edit1: TEdit ...
- 提示用户输入一个1-40之间的数字,使用if语句根据输入数字的大小进行判断,如果输入的数字在
提示用户输入一个1-40之间的数字,使用if语句根据输入数字的大小进行判断,如果输入的数字在 num_user=input('输入一个1-40之间的整数:') num_int=int(num_user ...
- 04实现累加和计算功能并且实现textbox不允许输入数字以外的字符但不包括退格键同时不允许第一个数值为0
private void button1_Click(object sender, EventArgs e) { double number1, number2; if (double.TryPars ...
- 限制HTML的input只能输入数字、英文、汉字...
限制HTML的input只能输入数字.英文.汉字... 关键词:正则表达式, JavaScript, HTML, input 常用HTML正则表达式1.只能输入数字和英文的:<input onk ...
随机推荐
- 第二次作业——个人项目实战(Sudoku)
Github:Sudoku 项目相关要求 利用程序随机构造出N个已解答的数独棋盘 . 输入 数独棋盘题目个数N 输出 随机生成N个 不重复 的 已解答完毕的 数独棋盘,并输出到sudoku.txt中, ...
- 201521123099《java程序设计》第五周学习总结
本周学习总结 1.1 尝试使用思维导图总结有关多态与接口的知识点. 2. 书面作业 代码阅读:Child压缩包内源代码 1.1 com.parent包中Child.java文件能否编译通过?哪句会出现 ...
- 201521123057 《Java程序设计》第13周学习总结
1. 本周学习总结 以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu ...
- 201521123022 《Java程序设计》 第十一周学习总结
1.本章学习总结 2.书面作业 本次PTA作业题集多线程 Q1.互斥访问与同步访问 完成题集4-4(互斥访问)与4-5(同步访问 Q1.1 除了使用synchronized修饰方法实现互斥同步访问,还 ...
- 多线程:多线程设计模式(二):Future模式
一.什么是Future模型: 该模型是将异步请求和代理模式联合的模型产物.类似商品订单模型.见下图: 客户端发送一个长时间的请求,服务端不需等待该数据处理完成便立即返回一个伪造的代理数据(相当于商品订 ...
- idea下使用autowire注解注入对象,结果初始化不到类
如果idea下使用autowire注解注入对象,结果初始化不到类,明明使用快捷键alt+insert是可以找到该注入的对象的. 而我们在使用的时候,缺报错了??? 注意,当我们在注入对象的时候,我们留 ...
- SDP开发
1.1 前言 在企业间的商业竞争越来越激烈的今天,如何快速实现客户需求,如果快速方开发.修改.更新系统功能,如何降低软件研发的成本等等,在此目标基础上研发了软件快速开发(SDP)工具.通过平台设计器快 ...
- mongodb 面试题总结
mongodb 面试题总结 1 nosql和关系型数据库的区别 2 nosql数据库有哪些 redis mongodb hbase 3 MySQL与mongodb本质之间最基本的差别是什么 差别在多方 ...
- 框架应用:Mybatis (一) - 入门案例
ORM框架 在实际开发中,工程中本质的任务是从数据库中获取数据,然后对数据进行操作,又或者写入数据.开发时语言是大多是面向对象的工程语言,这个时候就必须进行工程语言和数据库连接语言的转换,也就是所谓的 ...
- 强大的桌面用 PDF 重排工具:K2pdfopt 简明教程
用 Kindle 阅读 PDF 一直以来都遭到小伙伴们的无限吐槽,在那 Kindle 还能越狱的时代,我们有 Koreader 之类优秀的 Kindle 第三方插件实现 PDF 文档的实时重排,但是随 ...