2月初,AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruP97grEpmCwA5Sms2kHtrFBcDK0lRcsAuchFicRtP9iaGkOBPqHkb6upw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
一、研究背景

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景,具有重要的研究价值和广阔的应用前景。

近年来,随着人工智能技术在语音、翻译等相关领域的蓬勃发展,语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成,方法简单,但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷,它通过直接建立源语言语音到目标语言文本的映射关系,一步实现跨模态跨语言的翻译,一旦技术成熟,理论上可以让语音翻译更准更快,极大地提升模型的性能。论文作者发现语音识别和语音翻译两个任务是相辅相成的。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruPHfqQfyFIroppGLJNN75w5IXNtRWKLzqzRS3VoeoJoeibd63iaEFiaTXA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图1

如图1所示,语音识别和语音翻译交互示例相比于直接将原始语音作为输入,如果能够动态获取到识别出的文本信息,语音翻译将变得更加容易;而翻译出的结果也有助于同音词识别的消歧,使识别结果更加准确。

因此,论文作者们希望设计一种交互式的模型,让语音识别与语音翻译两个任务可以动态交互学习,实现知识的共享和传递。

二、技术方案

针对上述问题,作者们在论文中提出了一种基于交互式解码的同步语音识别与语音翻译模型。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruYiaB2EbwibZCnbZv6lBoSxhB1Nr3lVSKxMphHXQmtGMGdanyB9NG4icJA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图2 基于交互式解码的同步语音识别与语音翻译

如图2所示,论文作者使用基于自注意力机制的Transformer模型作为主框架,语音识别任务和语音翻译解码任务共享同一个编码器,在解码器中加入一个交互注意力机制层,实现两个任务的知识交互和传递。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruqkMSLKoqV7ABkunkKgHq79Ubdtb5udeADCZjgmw2YZwxdtDMJQPCKQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图3 交互注意力机制层

如图3所示,交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示,后者用于提取另一个任务输出端的特征表示,两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段,两个任务同时优化;在解码阶段,两个任务同步进行。如此,在预测下一个词的过程中既可以用到当前任务的已生成的词语,也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能,论文作者采用了一种wait-k的方法,使得语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多更可靠的文本信息作为辅助。

三、实验结果

目前语音翻译数据十分匮乏且质量不高,为此论文作者构建了一个新的语音翻译数据集,数据来自TED网站视频和字幕文件,包含语音、识别文本、翻译文本的对齐语料。这里使用了英德、英法、英中、英日四种语言,前两种属于较为相似的语言对,后两种是不相似的语言对。

语音识别和语音翻译的结果分别使用词错误率(WER)和BLEU进行衡量。论文作者与多个强基线模型进行了对比,包括由语音识别和机器翻译模型串联组成的级联系统(Pipeline),在语音识别语料上进行预训练的端到端语音翻译模型(E2E),语音识别和语音翻译共享编码器的多任务模型(Multi-task),以及一个两阶段模型(Two-stage)(第一阶段解码器用于获取识别文本的中间表示,第二阶段解码器基于编码器的表示和第一阶段解码器的中间表示生成对应的翻译)。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrub3j3u113ub6MOzreY4ONP2hRwuvyziaa4REboCzXGIwYBibWyDLMkTEA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表1 不同模型在多个语言对上的实验结果

表1给出了不同模型在英德、英法、英中、英日不同语言对上的识别和翻译效果。可以看出在大多数情况下,基于交互式解码的同步语言识别与语音翻译模型的性能表现不管在语音识别任务还是语音翻译任务上都要显著高于预训练的端到端模型、多任务模型和两阶段模型。在相似的语言对上基于交互式解码的模型可以超越级联系统,在不相似的语言对上也与级联系统可比。值得注意的是之前端到端的语音翻译模型几乎都很难达到级联系统的性能。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrumvXEW2QwXY0N4RBR67xcTqX3HjZud1tdfvNq5fGVgicGnyRQxwMzEtg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表2 wait-k对翻译性能的影响

为了进一步提升语音翻译的性能,论文作者让语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多的文本信息作为辅助。表2给出了在开发集和测试集上不同的延迟词语数对于模型性能的影响。可以看出,虽然延迟词语会轻微影响识别任务的表现,但是语音翻译任务的性能可以得到提升。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruiamx2ST7iatL3Z3PTp9DsLXW8icWbpVicialLGnMfcQRMfyVhG2WCD1bMlg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表3 模型参数、训练速度和解码速度

论文中也对比了不同模型的参数量、训练和解码速率。表3给出了模型的参数量大小、每秒的训练步数和每秒的解码句子数。可以看出,论文中的模型较好地平衡了参数量和解码速率,相比级联系统,参数量获得的大幅降低;训练和解码速率显著低于两阶段模型;虽然解码速率略低于预训练端到端模型和多任务模型,但是论文中的方法可以实现两个任务的同步解码。

这篇论文也是百度翻译团队在端到端语音翻译领域的持续性研究成果,相比于之前在Interspeech2019发表的《End-to-End Speech Translation with Knowledge Distillation》,此次提出的新模型进一步提升了端到端语音翻译的性能,给学术界和企业界带来了新的思路。

论文地址:https://arxiv.org/abs/1912.07240

至此,《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》论文的分享到此结束,我们将继续对AAAI 2020中百度入选的其余3篇NLP领域论文进行详细解读,敬请关注!

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

AAAI 2020论文分享:通过识别和翻译交互打造更优的语音翻译模型的更多相关文章

  1. 京东云与AI 10 篇论文被AAAI 2020 收录,京东科技实力亮相世界舞台

    美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...

  2. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法 2018-01-18 16:13蚂蚁金服/雾霾/人工智能 导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机 ...

  3. Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020)

    Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020) 1. Motivation 可见 ...

  4. Region Normalization for Image Inpainting, AAAI 2020

    论文:Region Normalization for Image Inpainting, AAAI 2020 代码:https://github.com/geekyutao/RN 图像修复的目的是重 ...

  5. 论文分享NO.4(by_xiaojian)

    论文分享第四期-2019.04.16 Residual Attention Network for Image Classification,CVPR 2017,RAN 核心:将注意力机制与ResNe ...

  6. 论文分享NO.3(by_xiaojian)

    论文分享第三期-2019.03.29 Fully convolutional networks for semantic segmentation,CVPR 2015,FCN 一.全连接层与全局平均池 ...

  7. 论文分享NO.2(by_xiaojian)

    论文分享第二期-2019.03.26 NIPS2015,Spatial Transformer Networks,STN,空间变换网络

  8. 论文分享NO.1(by_xiaojian)

    论文分享第一期-2019.03.14: 1. Non-local Neural Networks  2018 CVPR的论文 2. Self-Attention Generative Adversar ...

  9. [论文分享] DHP: Differentiable Meta Pruning via HyperNetworks

    [论文分享] DHP: Differentiable Meta Pruning via HyperNetworks authors: Yawei Li1, Shuhang Gu, etc. comme ...

随机推荐

  1. Downton Abbey

    1. 当女儿以为泰坦尼克号不会沉的时候,父亲用了一个有意思的比喻: - I thought it was supposed to be unsinkable. - Every mountain is ...

  2. DocCms_2016 代码审计

    0x00 结构浏览 按照代码审计的惯例,拿到这款cms之后首先浏览了一下目录结构,在基本了解之后,首先进入/index.php,这里包含了两个文件:/admini/config/qd-config.p ...

  3. video文件转blob

    //创建 XMLHttpRequest 对象 var xhr = new XMLHttpRequest(); //配置请求方式.请求地址以及是否同步 xhr.open('POST', './play' ...

  4. Thinkphp中js报错,Uncaught SyntaxError: Unexpected token }

    tp中js在行末使用注释报错Uncaught SyntaxError: Unexpected token } if (new_directors==1) {// 注释 解决办法:注释换成单行 if ( ...

  5. vim的背景配置

    1.vim背景颜色的配置 在usr/share/vim/vim74/colors   目录下有可以配置的颜色方案,可以查看: 命令:vim/etc/vimrc 打开vim的配置文件,   在最后加入一 ...

  6. html中table的px与百分比格式设置

    PX是Pixel的缩写,也就是说像素是指基本原色素及其灰度的基本编码,由 Picture(图像) 和 Element(元素)这两个单词的字母所组成的 Html设置table格式时面临着百分比还是px的 ...

  7. 共克时艰,停工不停学 Serverless 在线课堂免费开课

    二月份,Serverless 团队联合腾讯云大学与云+社区免费推出 Serverless 在线直播课程,课程涵盖 Serverless 架构解密.技术解析以及不同应用场景下的最佳实战指导,让你从 0 ...

  8. linux 上安装 keepalive

    1.keepalive 单机安装 1.1 安装环境 yum -y install kernel-devel* openssl-* popt-devel lrzsz openssh-clients li ...

  9. 【Linux_Shell 脚本编程学习笔记五、Oracle JDK1.8 安装shell 脚本】

    脚本使用说明: 首先在脚本的同级目录下有个 jdk的安装包 脚本和安装包必须在同级目录下才能够安装(脚本没有优化,还可以使用  wget  从网上下载指定版本的  jdk 安装包) #!/bin/sh ...

  10. 羽翼sqlmap视频笔记

    access 注入 ./sqlmap.py -u "url"          注入判断./sqlmap.py -u "url" --tables  跑表./s ...