机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落地的第一代产品。

一、语音交互流程简介

AI 对话所需要的技术模块有 4 个部分,分别为:

  1. 自动语音识别(Automatic Speech Recognition, ASR)
  2. 自然语言理解(Natural Language Understanding, NLU)
  3. 自然语言生成(Natural Language Generation, NLG)
  4. 文字转语音(Text to Speech, TTS)

以叮咚开发文档中的语音交互流程图来看Ai 对话技术的主要路径:

从上图中可以看到,用户与设备之间的交互,主要是采用语音方式处理和完成的。

二、语音交互流程设计

一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。

1.交互流程的核心—意图

所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。

如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。

  • 用户:七星彩的开奖时间是什么时候?
  • Ai:体育彩票七星彩每周二、周四和周日开奖。

2. 如何识别意图—语义解析

对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。

用户:我要{听} {周杰伦}的{稻香}

Ai:稻香.mp3

3.如何处理意图—云端交互

调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。

4.上下文意图的处理-对话管理

在用户进行自然对话时,可能会因为表达事情的复

度、时间、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。

用户:明天北京天气如何?

Ai:明天北京天气晴,温度16到23度

用户:后天呢?{后天北京天气如何?}

Ai:后天北京天气晴,温度17到28度

5,语言合成模块 – 组织语言

根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 同时将生成模块生成的句子转换成语音输出。(把回答的机器语言再转换成 口语语言)

三、 中文自然语言处理的关键技术

1、词法分析

词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。

2、句法分析

句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

3、语义分析

语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

4、语用分析

语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

5、语境分析

语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。

四、 Ai对话目前存在的问题

人机对话过程中,用户难免会出现表达失误的情况,导致机器对用户语言理解出现偏差,在这时,纠错机制对机器而言则非常重要,如缺少这个机制,用户需要花费相当长的时间将其意图解释清楚,相应的用户体验也会十分糟糕。另一方面,虽然可以很好的识别语音,但是却不能理解你的对话目的,语义理解上有偏差。

当前,包括Alexa在内的国内外智能音箱之所以没有表现的那么智能,出现了“人工智障”的嘲笑也是因为在以上两方面没有处理太好。

因此语音交互最终需要解决的关键问题是歧义消解问题,和未知语言现象的处理问题。

五、 智能语音助手背后的生态服务

Amazon Echo 的胜利在于其语音助手 Alexa 掌握的无数技能,Google Assistant 以及Google Home之所以被人看好是在于其 Android 后发优势所具备的开放性。

智能语音助手类的产品要想在中国落地开花,它不仅仅是简单的语音识别那么简单,还有集成服务,一整套的中文生态、内容、服务等配套设施,是一种涵盖很多基础能力的生态系统。

未来基于语音交互的语义技能,必须要能够达到几万、几十万甚至上百万种的时候,才能促使语音交互时代操作系统真正走向成熟,未来语音交互产品的形态和样式也将越来越丰富。

AI 语音对话技术的更多相关文章

  1. 百度ai和图灵123实现简单的语音对话

    百度ai和图灵123实现简单的语音对话

  2. 【将门创投】AI 往期技术分享

    计算机视觉 1. 嘉宾:商汤科技CEO 徐立 文章回顾:计算机视觉的完整链条,从成像到早期视觉再到识别理解 2. 嘉宾:格灵深瞳CTO 赵勇 文章回顾:计算机视觉在安防.交通.机器人.无人车等领域的应 ...

  3. 百度大脑UNIT3.0智能对话技术全面解析

    智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...

  4. 曼孚科技:AI语音交互领域常用的4个术语

    ​语音交互是基于语音输入的新一代交互模式,比较典型的应用场景是各类语音助手. 本文整理了语音交互领域常用的4个术语,希望可以帮助大家更好地理解这门学科. 1. 语音合成标记语言(SSML) 语音合成标 ...

  5. 【第5篇】AI语音简介

    1.3  AI语音简介 AI语音既人工智能语音技术,以语音识别技术为开端,实现人机语言的通信,包括语音识别技术(ASR).自然语言处理技术(NLP)和语音合成技术(TTS).通俗点说就是通过语音这个媒 ...

  6. 网络语音视频技术浅议 Visual Studio 2010(转)

    我们在开发实践中常常会涉及到网络语音视频技术.诸如即时通讯.视频会议.远程医疗.远程教育.网络监控等等,这些网络多媒体应用系统都离不开网络语音视频技术.本人才疏学浅,对于网络语音视频技术也仅仅是略知皮 ...

  7. 网络语音视频技术浅议(附多个demo源码下载)

    我们在开发实践中常常会涉及到网络语音视频技术.诸如即时通讯.视频会议.远程医疗.远程教育.网络监控等等,这些网络多媒体应用系统都离不开网络语音视频技术.本人才疏学浅,对于网络语音视频技术也仅仅是略知皮 ...

  8. 美景听听Ai语音导游,助力华为荣耀PLAY手机发布

    6月6日,荣耀PLAY科技酷玩新品发布会在北京大学生体育馆如期举办,美景听听Ai语音讲解助力新EUMI系统智慧旅行成新卖点,震撼登场! 随着生活水平的不断提升,出门旅行已经成了许多亲们释放压力.调节自 ...

  9. AI语音验证码识别

    欢迎使用AI语音验证码识别v4.0程序程序调用方法:http://code.hbadmin.com/?url=http://code.hbadmin.com/demo/2118534.wav [试听] ...

随机推荐

  1. 【python】r+,w+ 全局变量

    来源:http://www.educity.cn/wenda/352188.html r+:可读可写,若文件不存在,报错w+: 可读可写,若文件不存在,创建文本模式:遇换行符时根据操作系统不同自动转换 ...

  2. linux命令(41):watch命令

    watch是一个非常实用的命令,基本所有的Linux发行版都带有这个小工具,如同名字一样,watch可以帮你监测一个命令的运行结果,省得你一遍遍的手动运行.在Linux下,watch是周期性的执行下个 ...

  3. Hive 体系学习

    Hive简介 Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并使用HQL作为查询接口.HDFS作为存储底层.MapReduce作为执行层,将HQL语句转换成M ...

  4. 《深入浅出MyBatis技术原理与实战》——4. 映射器,5. 动态SQL

    4.1 映射器的主要元素 4.2 select元素 4.2.2 简易数据类型的例子 例如,我们需要统计一个姓氏的用户数量.应该把姓氏作为参数传递,而将结果设置为整型返回给调用者,如: 4.2.3 自动 ...

  5. js里给变量拼接双引号

    先来看一下最终效果: 但是p标签是要用js生成的.data_attr自定义属性值是一个变量. var data='qq289483936'; var p='<p data_attr='+data ...

  6. OpenStack 计算服务 Nova介绍和控制节点部署 (八)

    一)nova在keystone上服务注册 1.1创建nova务实体 [root@controller ~]# source admin-openrc [root@controller ~]# open ...

  7. Linux操作命令(三)

    本次实验将介绍 Linux 命令中 more.less.head.tail 命令的用法. more less head tail 1.more ·more功能类似cat,cat命令是将整个文件的内容从 ...

  8. ZOJ 3327 Friend Number

    构造. (1)如果数字中带有$0$: 1.只有个位是$0$,这种情况就是给输入的数字$+10$再输出即可. 2.其余情况就是给输入的数字$+1$再输出即可. (2)如果数字中没有$0$: 从个位开始一 ...

  9. 图灵杯 E 简单的RMQ(UVA 11235)(RMQ)

    E: 简单的RMQ 时间限制: 2 Sec  内存限制: 64 MB提交: 934  解决: 165[提交][状态][讨论版] 题目描述 给定一个数组,其中的元素满足非递减顺序.任意给定一个区间[i, ...

  10. Jedis笔记

    Sting: Jedis jedis=RedisClient.getResource(); jedis.set("hello", "world"); Syste ...