AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型

2月初，AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruP97grEpmCwA5Sms2kHtrFBcDK0lRcsAuchFicRtP9iaGkOBPqHkb6upw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
一、研究背景

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景，具有重要的研究价值和广阔的应用前景。

近年来，随着人工智能技术在语音、翻译等相关领域的蓬勃发展，语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成，方法简单，但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷，它通过直接建立源语言语音到目标语言文本的映射关系，一步实现跨模态跨语言的翻译，一旦技术成熟，理论上可以让语音翻译更准更快，极大地提升模型的性能。论文作者发现语音识别和语音翻译两个任务是相辅相成的。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruPHfqQfyFIroppGLJNN75w5IXNtRWKLzqzRS3VoeoJoeibd63iaEFiaTXA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图1

如图1所示，语音识别和语音翻译交互示例相比于直接将原始语音作为输入，如果能够动态获取到识别出的文本信息，语音翻译将变得更加容易；而翻译出的结果也有助于同音词识别的消歧，使识别结果更加准确。

因此，论文作者们希望设计一种交互式的模型，让语音识别与语音翻译两个任务可以动态交互学习，实现知识的共享和传递。

二、技术方案

针对上述问题，作者们在论文中提出了一种基于交互式解码的同步语音识别与语音翻译模型。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruYiaB2EbwibZCnbZv6lBoSxhB1Nr3lVSKxMphHXQmtGMGdanyB9NG4icJA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图2 基于交互式解码的同步语音识别与语音翻译

如图2所示，论文作者使用基于自注意力机制的Transformer模型作为主框架，语音识别任务和语音翻译解码任务共享同一个编码器，在解码器中加入一个交互注意力机制层，实现两个任务的知识交互和传递。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruqkMSLKoqV7ABkunkKgHq79Ubdtb5udeADCZjgmw2YZwxdtDMJQPCKQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图3 交互注意力机制层

如图3所示，交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示，后者用于提取另一个任务输出端的特征表示，两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段，两个任务同时优化；在解码阶段，两个任务同步进行。如此，在预测下一个词的过程中既可以用到当前任务的已生成的词语，也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能，论文作者采用了一种wait-k的方法，使得语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多更可靠的文本信息作为辅助。

三、实验结果

目前语音翻译数据十分匮乏且质量不高，为此论文作者构建了一个新的语音翻译数据集，数据来自TED网站视频和字幕文件，包含语音、识别文本、翻译文本的对齐语料。这里使用了英德、英法、英中、英日四种语言，前两种属于较为相似的语言对，后两种是不相似的语言对。

语音识别和语音翻译的结果分别使用词错误率(WER)和BLEU进行衡量。论文作者与多个强基线模型进行了对比，包括由语音识别和机器翻译模型串联组成的级联系统(Pipeline)，在语音识别语料上进行预训练的端到端语音翻译模型(E2E)，语音识别和语音翻译共享编码器的多任务模型(Multi-task)，以及一个两阶段模型(Two-stage)(第一阶段解码器用于获取识别文本的中间表示，第二阶段解码器基于编码器的表示和第一阶段解码器的中间表示生成对应的翻译)。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrub3j3u113ub6MOzreY4ONP2hRwuvyziaa4REboCzXGIwYBibWyDLMkTEA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表1 不同模型在多个语言对上的实验结果

表1给出了不同模型在英德、英法、英中、英日不同语言对上的识别和翻译效果。可以看出在大多数情况下，基于交互式解码的同步语言识别与语音翻译模型的性能表现不管在语音识别任务还是语音翻译任务上都要显著高于预训练的端到端模型、多任务模型和两阶段模型。在相似的语言对上基于交互式解码的模型可以超越级联系统，在不相似的语言对上也与级联系统可比。值得注意的是之前端到端的语音翻译模型几乎都很难达到级联系统的性能。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrumvXEW2QwXY0N4RBR67xcTqX3HjZud1tdfvNq5fGVgicGnyRQxwMzEtg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表2 wait-k对翻译性能的影响

为了进一步提升语音翻译的性能，论文作者让语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多的文本信息作为辅助。表2给出了在开发集和测试集上不同的延迟词语数对于模型性能的影响。可以看出，虽然延迟词语会轻微影响识别任务的表现，但是语音翻译任务的性能可以得到提升。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruiamx2ST7iatL3Z3PTp9DsLXW8icWbpVicialLGnMfcQRMfyVhG2WCD1bMlg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表3 模型参数、训练速度和解码速度

论文中也对比了不同模型的参数量、训练和解码速率。表3给出了模型的参数量大小、每秒的训练步数和每秒的解码句子数。可以看出，论文中的模型较好地平衡了参数量和解码速率，相比级联系统，参数量获得的大幅降低；训练和解码速率显著低于两阶段模型；虽然解码速率略低于预训练端到端模型和多任务模型，但是论文中的方法可以实现两个任务的同步解码。

这篇论文也是百度翻译团队在端到端语音翻译领域的持续性研究成果，相比于之前在Interspeech2019发表的《End-to-End Speech Translation with Knowledge Distillation》，此次提出的新模型进一步提升了端到端语音翻译的性能，给学术界和企业界带来了新的思路。

论文地址：https://arxiv.org/abs/1912.07240

至此，《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》论文的分享到此结束，我们将继续对AAAI 2020中百度入选的其余3篇NLP领域论文进行详细解读，敬请关注！

百度自然语言处理（Natural Language Processing，NLP）以『理解语言，拥有智能，改变世界』为使命，研发自然语言处理核心技术，打造领先的技术平台和创新产品，服务全球用户，让复杂的世界更简单。

AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型的更多相关文章

京东云与AI 10 篇论文被AAAI 2020 收录，京东科技实力亮相世界舞台
美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...
AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法
AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法 2018-01-18 16:13蚂蚁金服/雾霾/人工智能导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机 ...
Infrared-Visible Cross-Modal Person Re-Identiﬁcation with an X Modality (AAAI 2020)
Infrared-Visible Cross-Modal Person Re-Identiﬁcation with an X Modality (AAAI 2020) 1. Motivation 可见 ...
Region Normalization for Image Inpainting, AAAI 2020
论文:Region Normalization for Image Inpainting, AAAI 2020 代码:https://github.com/geekyutao/RN 图像修复的目的是重 ...
论文分享NO.4（by_xiaojian）
论文分享第四期-2019.04.16 Residual Attention Network for Image Classification,CVPR 2017,RAN 核心:将注意力机制与ResNe ...
论文分享NO.3（by_xiaojian）
论文分享第三期-2019.03.29 Fully convolutional networks for semantic segmentation,CVPR 2015,FCN 一.全连接层与全局平均池 ...
论文分享NO.2（by_xiaojian）
论文分享第二期-2019.03.26 NIPS2015,Spatial Transformer Networks,STN,空间变换网络
论文分享NO.1（by_xiaojian）
论文分享第一期-2019.03.14: 1. Non-local Neural Networks 2018 CVPR的论文 2. Self-Attention Generative Adversar ...
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks authors: Yawei Li1, Shuhang Gu, etc. comme ...

随机推荐

codeforce 1188A1 Add on a Tree 树
题意:给你一个树,有一种操作,选择两个叶子节点,然后把这两个叶子节点间的路径全部加或减一个值.问你给出的树上的每一条边经过若干次操作是否可以为任意值. 分析:画几个图后可以发现,如果树中存在一个点的度 ...
Android之UI View与ViewGroup
1.基本概念 View:所有可视化控件的父类,Android App屏幕上用户可以交互的对象(例如按钮下拉框文本框等). ViewGroup:View的子类,存放View和ViewGroup对象 ...
Java中使用PrepateStatement并且like模糊查询
在使用PreparedStatement进行模糊查询的时候废了一番周折,以前一直都没有注意这个问题.一般情况下我们进行精确查询,sql语句类似:select * from table where na ...
Maven 仓库搜索服务和私服搭建
Maven 仓库搜索服务使用maven进行日常开发的时候,一个常见问题就是如何寻找需要的依赖,我们可能只知道需要使用类库的项目名称,但是添加maven依赖要求提供确切的maven坐标,这时就可以使用 ...
转：lightGBM的黑科技--plot函数
本来想研究一下lightGBM的plotting相关的接口,发现网上已经有人做了,而且还挺不错的(lightGBM的黑科技--plot函数),就直接给转过来了 # -*- coding: utf-8 ...
python学习笔记（15）pymysql数据库操作
pymysql数据库操作 1.什么是PyMySQL 为了使python连接上数据库,你需要一个驱动,这个驱动是用于与数据库交互的库. PyMySQL : 这是一个使Python连接到MySQL的库,它 ...
IPC之——信号量集
信号量集用于对存在竞争的资源加锁 1.semId=semget(key,nsems,semflg) key:为信号量集名称,可以指定为0455等数字,也可以为PC_PRIVATE nsems:创建几个 ...
[LC] 244. Shortest Word Distance II
Design a class which receives a list of words in the constructor, and implements a method that takes ...
mac osx 下浏览器开启 java
工作环境mac osx 浏览器 chrome:63.0.3239.132 (Official Build) (64-bit)firefox: 57.0.4 (64 位)safari:Version 1 ...
VSAN磁盘扩容与收缩（二）

AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型

AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型的更多相关文章

随机推荐

热门专题