今天,我们正式宣布在中国市场推出Skype
Translator实时语音翻译技术的中文预览版。自此,英文和中文普通话之间的实时语音对话将成为现实。Skype
Translator不仅凝聚了微软在语音识别、自动翻译和机器学习等科技领域几十年的研究成果,更深刻地体现了微软“用户体验至上”的理念。自2014年12月Skype
Translator 推出英文和西班牙文之间的实时语音翻译之后,此次在中国市场的发布是Skype
Translator旅程中又一个令人无比兴奋的里程碑,Windows 8.1用户在Skype
Translator注册页面
完成中文版的注册后,就可以立即试用了。

众所周知,中文的美丽无与伦比,同时它也是一门极具挑战性的语言,甚至对于Skype
Translator来说也是如此。中文有大约一万个常用汉字以及多种多样的语音、语调,这对于母语为英语的学习者来说是最大的困难之一,有类似困难的语言还有阿拉伯语、日语和韩语。

微软作为语音翻译领域的先驱者,在2012年首次演示了英文和中文普通话之间的实时语音翻译技术原型。微软在北京的研究团队与位于美国雷蒙德的同事们密切合作,经过多年的辛勤研究和专注投入,完成了普通话的语言模型,使Skype
Translator的中文语音翻译在今天变为现实。

不仅如此,近段时间,得益于深层神经网络与微软成熟的统计机器翻译技术的结合,语音识别能力被进一步提高,随之得到的更准确的翻译结果让一对一的语音交谈成为现实。Skype一直致力于帮助人们进行无障碍的沟通,而Skype
Translator就是达到这一目标的最新科技产物。

Skype
Translator预览版适用于Windows 8.1或Windows
10技术预览版的客户端或平板电脑客户端。除了英文和中文普通话的语音翻译之外,还支持四十多种语言的即时文本翻译。预览阶段对Skype
Translator的开发与优化极其重要,因为用户在使用产品的同时所提供的有价值的反馈,可帮助我们进行产品优化,不断帮助该技术进行智能化的提升,支持更多种语言的应用。

Skype
Translator如何运作

Translator 中文预览版登陆中国" title="挑战中英实时语音翻译——Skype Translator 中文预览版登陆中国">

机器学习是指软件学习训练数据的能力。Skype
Translator构建于强大的机器学习平台之上。通过在预览版阶段获取的训练数据,加之其中的细微差别,软件就能够针对真实使用者的不同话题、口音与语言转换进行学习,实现更好的识别和翻译。

Skype
Translator的机器学习协议训练并优化语音识别和机器翻译任务,就像黏住这些元素的胶水一样,该协议促进对被识别的文本进行更好的翻译。这个过程包括去除造成不流利的字词(例如“啊”“嗯”以及重复措辞)、将文本分解成句子、添加标点符号和大小写识别。

语音识别和机器翻译的训练数据来源多种多样,包括翻译的网页、配有字幕的视频,以及预先翻译且转录成文字的一对一谈话。Skype
Translator通过记录这些对话来分析对话文本并训练系统更好地“学习”各种语言。已经有很多人与我们分享了他们过去的对话记录,我们对其进行了分析并为统计模型创造训练数据,该统计模型教会语音识别和机器翻译引擎如何将收集到的语音转换为文本信息,然后将文本信息转换为另一种语言。使用Skype
Translator的用户都会在对话开始前得到清晰的系统提示,即对话将被录制并用于提高微软翻译和语音识别服务的质量。

在准备好的数据被录入机器学习系统后,机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型。当用户说话时,软件会在该统计模型中寻找相似的内容,之后应用到预先“学到”的转化程序中,使得音频转换为文本再从文本转换成另一种语言。

虽然语音识别一直是近几十年来的重要研究课题,但是该技术的发展普遍被错误率高、麦克风敏感度差异、噪音环境等因素阻碍。微软研究院率先将深层神经网络(DNNs)技术引入语音识别,极大程度地降低了错误率,提高了可靠性,最终使这项语音翻译技术得以更广泛地应用,包括Skype
Translator。

Skype
Translator的机器翻译部分负责将文本从一种语言翻译成另一种语言。它采用了和必应在线翻译同样的技术:开创性地结合了句法和统计模型,此外更加有针对性地训练对话性语言。这点非常有挑战性,因为现在用来搭建文本翻译系统的典型训练数据都是优化过的清晰、结构严谨的书面语言。我们的系统在包含必应翻译的丰富语言知识的同时,还额外加入了口语对话中出现的单词及短语。

另外,我们创造了一个定制化的机器人程式来协调整个产品体验。如电话中的第三方一样,它负责建立电话连接、发送音频流至语音引擎获取翻译文本,并分别在双方结束说话时翻译其所说的内容。

要创造这样的程式,需要微软研究院和Skype团队集合双方共同的专业知识和工程能力,形成一个复杂的架构,但希望对用户来说获取的则是简单而直接的体验。

克服挑战

语言像是一只野兽,它时刻变化着,口音和语种层出不穷,书面语言和口语表达又有着非常大的区别。为提供最好的体验,我们不得不克服各种语言挑战。

人类终究不是神,人类会犯错误,会思考,会改变想法。这些思考过程在口语中则表现为不流利的沟通。就像之前提到的,人们在说话时会停顿、重复,并且会有例如“嗯”“啊”之类的语气词。理想情况下,这些细微之处都不应该出现在翻译和翻译文本中,但我们的机器学习模型针对以上问题会相应处理这些停顿。在预览版中您会看到部分语气词停顿被移除,而对于其他没有被移除的部分,我们希望通过用户的反馈进行优化。

人类的独特之处在于,我们沟通时的口语和俚语会相应地体现出我们所在的地区、国家以及文化特征。基于多年在各社交媒体网站的实践,Microsoft
Translator已经在俚语翻译方面拥有了不错的表现。这也帮助Skype
Translator进一步提高了日常短语和术语的翻译能力。Skype
Translator预览版会帮助系统观察和学习更多的日常对话,从而将真实的对话语言更加准确的翻译出来。

Translator 中文预览版登陆中国" title="挑战中英实时语音翻译——Skype Translator 中文预览版登陆中国">

另外,在语言翻译的用户体验中也存在一些固有的挑战。比如,Skype
Translator的自动翻译器会以类似于第三方通话者的角色出现。我们发现,过去使用过现场翻译服务的用户能很快适应这种沟通方式,而其他用户则需要更多的时间来适应。

虽然此次预览版的发布对于参与开发的团队来说是一个重大的突破,但这只是我们在创造最佳翻译体验之路上迈出的一步。我们将在预览版用户提供的反馈和数据基础上提升技术并优化Skype
Translator所创造的独特体验。虽然我们打下了稳固的基础,但对此项技术来说,这只是起步,在某些方面我们的工作才刚刚开始。

相较于2014年12
月推出的英文和西班牙文之间的实时语音对话,本次推出中文预览版的功能更新如下:

  • 语音读取文字信息

用户可以通过语音收听到对话方发送给自己的即时消息,语音的语言可以自选。

  • 持续性识别

在对方发送语音信息期间可持续性的进行文字翻译。

  • 自动声量控制

您的对话方可以在实时语音翻译期间不间断地说话。同时,您可收听到较高音量的语音翻译,对话方本身的语音信息呈现出较低音量,所以您只要将注意力集中在语音翻译上即可,这可以保证翻译信息的收听流畅。

  • 语言翻译静音功能

您可以任意开启或关闭语音翻译的声音,并直接读取文字翻译。

除了语音翻译现有的四种语言(英语,西班牙语,中文普通话,意大利语),
Skype Translator
的即时通讯文本翻译更是在原有40多种语言的基础上加入了塞尔维亚语,波斯尼亚语,克罗地亚语,玛雅语和奥托米语。

今天,我们将见证Skype
Translator的另一个新篇章,世界各地的人们与亲朋好友沟通交流的方式变得更加丰富。我们的愿景,是在尽可能多的平台实现尽可能多的语种翻译,为全球3亿多的Skype用户在各个相关平台提供最佳体验。我们将继续研发这项技术,期待与您在未来一同分享更多的里程碑。谢谢您的一路同行!

现在开始,中英实时语音翻译的大幕已经拉开。现在通过Skype
Translator预览版网页注册
,开启您的体验之旅吧。


推荐阅读

Skype Translator – How
it Works

通往Skype
Translator的技术之路

Translator 中文预览版登陆中国" title="挑战中英实时语音翻译——Skype Translator 中文预览版登陆中国">


欢迎关注

微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码​:​

Translator 中文预览版登陆中国" title="挑战中英实时语音翻译——Skype Translator 中文预览版登陆中国">

挑战中英实时语音翻译——Skype Translator 中文预览版登陆中国的更多相关文章

  1. 【译】.NET 7 预览版 1 中的 ASP.NET Core 更新

    原文 | Daniel Roth 翻译 | 郑子铭 .NET 7 预览版 1 现已推出!这是 .NET 下一个主要版本的第一个预览版,其中将包括使用 ASP.NET Core 进行 Web 开发的下一 ...

  2. 实时人工智能:微软发布Project Brainwave预览版 现场可编程门阵列(Field Programmable Gate Array,简称FPGA) 硬件设计可以迅速演进

    https://mp.weixin.qq.com/s/bAPiPURZd-YsbV5PbzwpQQ 编者按:随着各大公司对于数据计算的要求越来越高,实时AI成为了研究者们关注的重点.在美国西雅图举行的 ...

  3. Print2flash在.NET(C#)64位中的使用,即文档在线预览

    转:http://www.cnblogs.com/flowwind/p/3411106.html Print2flash在.NET(C#)中的使用,即文档在线预览   office文档(word,ex ...

  4. VS2015预览版中的C#6.0 新功能(二)

    VS2015预览版中的C#6.0 新功能(一) VS2015预览版中的C#6.0 新功能(三) 自动属性的增强 只读自动属性 以前自动属性必须同时提供setter和getter方法,因而只读属性只能通 ...

  5. VS2015预览版中的C#6.0 新功能(三)

    VS2015预览版中的C#6.0 新功能(一) VS2015预览版中的C#6.0 新功能(二) Using static 使用using StaticClass,你可以访问StaticClass类里的 ...

  6. VS2015预览版中的C#6.0 新功能(一)

    VS2015预览版中的C#6.0 新功能(二) VS2015预览版中的C#6.0 新功能(三) VS2015的预览版在11月12日发布了,下面让我们来看看C#都提供了哪些新的功能. 字符串添写(Str ...

  7. Asp.net Core中SignalR Core预览版的一些新特性前瞻,附源码(消息订阅与发送二进制数据)

    目录 SignalR系列目录(注意,是ASP.NET的目录.不是Core的) 前言 一晃一个月又过去了,上个月有个比较大的项目要验收上线.所以忙的脚不沾地.现在终于可以忙里偷闲,写一篇关于Signal ...

  8. 根据 Power BI Desktop(预览版)中的报表页创建工具提示

    根据 Power BI Desktop 中创建的报表页,可创建直观丰富的报表工具提示,这些提示在你将鼠标悬停在视觉对象上时显示. 通过创建用作工具提示的报表页,使自定义工具提示包含视觉对象.图像以及在 ...

  9. Windows 10 开发人员预览版中的新增功能(转自 IT之家)

    Windows 10 开发人员预览版中的新增功能 在Win10预览版中安装工具与SDK后,即可着手创建Windows通用应用或先浏览目前的环境与此前相比都发生了什么变化. 应用建模 文件资源管理器: ...

随机推荐

  1. Is the MIME type 'image/jpg' the same as 'image/jpeg'?

    https://stackoverflow.com/questions/33692835/is-the-mime-type-image-jpg-the-same-as-image-jpeg No, i ...

  2. Maven高级:01.maven分模块构建&&02.私服的应用

    IntelliJ IDEA 2018.3.6 x64 07 Maven高级:01.maven分模块构建(上) 07 Maven高级:01.maven分模块构建(中) 07 Maven高级:01.mav ...

  3. nfs 支持ipv6

    mount 一个ipv6 nfs 项目在docker里mount 一个nfs来读写,而现在需要支持ipv6,所以先写了各小demo,最后成功mount,这里记录一下 #include <sys/ ...

  4. 关于laravel的一些操作

    1.创建控制器 eg: php artisan make:controller  controllerName 如果是带命名空间需要创建控制器 则不需要加前面的  App/Http/Controlle ...

  5. docker安装文档

    Docker离线安装以及本地yum源构建http://blog.csdn.net/joniers/article/details/64122820http://blog.csdn.net/wsscy2 ...

  6. Microsoft COCO 数据集

    本篇博客主要以介绍MS COCO数据集为目标,分为3个部分:COCO介绍,数据集分类和COCO展示. 本人主要下载了其2014年版本的数据,一共有20G左右的图片和500M左右的标签文件.标签文件标记 ...

  7. PyTorch基础——词向量(Word Vector)技术

    一.介绍 内容 将接触现代 NLP 技术的基础:词向量技术. 第一个是构建一个简单的 N-Gram 语言模型,它可以根据 N 个历史词汇预测下一个单词,从而得到每一个单词的向量表示. 第二个将接触到现 ...

  8. PAT甲级——1035 Password (20分)

    To prepare for PAT, the judge sometimes has to generate random passwords for the users. The problem ...

  9. logstash 使用glusterfs网络存储偶发性文件解析异常的问题

    其实问题到现在为止也没有解决 因为服务是部署在k8s上,挂载的,偶发性的出现文件解析异常 bom头已经验证过了 手动重新解析这些文件完全正常,问题无法复现,文件本身并没有问题. 最后怀疑到了最不该怀疑 ...

  10. python tricks 01

    01: 考察range/sort/lambda 对以下数据进行排序 原数据: [-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5] 目标数据: [0, -1, 1, -2, 2 ...