谷歌黑科技WaveNet,更先进的语音合成
导读 | Google 的 DeepMind 研究实验室昨天公布了其在计算机语音合成领域的最新成果——WaveNet。该语音合成系统能够模仿人类的声音,生成的原始音频质量优于目前的文本转语音系统(text to speech,简称 TTS)。 |
DeepMind 宣称,通过人耳测试,该技术使得模拟生成的语音与人类声音之间的差异缩小了一半。当然,这种测试不可避免地存在主观性。WaveNet 目前还没有被应用到谷歌的任何产品中,而且该系统需要强大的计算能力,近期也无法应用到真实世界场景。
让人类跟机器自由交谈是人机交互研究领域长久以来的梦想。在过去几年,深度神经网络的应用大幅度了提高计算机理解自然语音的能力。然而,运用计算机生成语音(语音合成,或者 TTS 系统)仍然主要依靠拼接式 TTS——先录制单一说话者的大量语音片段,建立一个大型数据库,然后将语音片段合成完整的话语。这种语音合成方式很难对声音加以修饰,无法表达强调或者情感。
为了解决语音合成的这一难题,迫切需要运用一种参量改频式(Parametric)TTS。在这种 TTS 系统中,生成数据所需要的所有信息被存储于模型的参数中,语音所传达的内容及语音特征可以通过模型的输入信息得以控制。然而,目前参量改频式 TTS 生成的语音听起来还不如拼接式 TTS 模型生成的语音自然。现有的参量改频式模型通常将输出的信息交给信号处理算法处理,从而生成音频信号。
WaveNet 改变了这种范式,直接用音频信号的原始波形建模,而且是一次处理一个样本。通过这种方式生成的语音不但听起来更加自然,而且使用原始波形还能为任何声音建模,包括模仿任何人的声音,还能生成音乐。在测试中,WaveNet 通过分析古典音乐,生成了一段钢琴曲。
谷歌 DeepMind 的人工智能 AlphaGo 在今年早些时候打败了韩国围棋大师李世石九段,引起了世人的关注。谷歌一直对如何应用其人工智能技术守口如瓶,只是称其已经利用这些技术降低了冷却公司数据中心所需的电量,让从 YouTube 到谷歌广告产品的一系列服务得到了巨大改善。
谷歌黑科技WaveNet,更先进的语音合成的更多相关文章
- “体检医生”黑科技|让AI开发更精准,ModelArts更新模型诊断功能
摘要:华为云AI开发平台ModelArts黑科技加持AI研发,让模型开发更高效.更简单,降低AI在行业的落地门槛.全面的可视化评估以及智能诊断功能,使得开发者可以直观了解模型各方面性能,从而进行针对性 ...
- 【转载】史上最全:TensorFlow 好玩的技术、应用和你不知道的黑科技
[导读]TensorFlow 在 2015 年年底一出现就受到了极大的关注,经过一年多的发展,已经成为了在机器学习.深度学习项目中最受欢迎的框架之一.自发布以来,TensorFlow 不断在完善并增加 ...
- qt的应用层主要是大型3d,vr,管理软件和器械嵌入软件(有上千个下一代软件黑科技项目是qt的,美国宇航局,欧洲宇航局,超级战舰DDG1000)
作者:Nebula.Trek链接:https://www.zhihu.com/question/24316868/answer/118944490来源:知乎著作权归作者所有.商业转载请联系作者获得授权 ...
- 黑科技如何制造人类V2.0?
黑科技泛指人类尚未成熟但具有巨大潜力的科学技术,智能手机.大数据.扫码支付.电子地图等等都曾属于黑科技范畴,随着时间的推移,它们慢慢成熟,且展现出巨大的能力,影响人类进程,最终黑科技转变成人类伟大的创 ...
- 美业黑科技 ▏肌肤管家SkinRun V3S智能肌肤测试仪,实现“护肤”私人定制
肌肤如同身体,也需要定时的"健康检查",但仅凭肉眼难以窥见深层的肌肤问题.而现在,肌肤管家SkinRun前沿黑科技护肤测试仪--SkinRun V3S便能帮助用户对症下药.肌肤管家 ...
- Cnblogs关于嵌入js和css的一些黑科技
#pong .spoiler{cursor:none;display:inline-block;line-height:1.5;}sup{cursor:help;color:#3BA03B;} Pon ...
- Python3实现ICMP远控后门(中)之“嗅探”黑科技
ICMP后门 前言 第一篇:Python3实现ICMP远控后门(上) 第二篇:Python3实现ICMP远控后门(上)_补充篇 在上两篇文章中,详细讲解了ICMP协议,同时实现了一个具备完整功能的pi ...
- 基于Twitter的Snowflake算法实现分布式高效有序ID生产黑科技(无懈可击)
参考美团文档:https://tech.meituan.com/2017/04/21/mt-leaf.html Twitter-Snowflake算法产生的背景相当简单,为了满足Twitter每秒上万 ...
- 这些JavaScript编程黑科技
1.单行写一个评级组件 "★★★★★☆☆☆☆☆".slice(5 - rate, 10 - rate);定义一个变量rate是1到5的值,然后执行上面代码,看图 才发现插件什么的都 ...
随机推荐
- webstorm9.3 安装less 编译css教程
第一步:安装node.js webstrom9.3汉化下载:http://pan.baidu.com/s/1ntGNNiL 密码:1fbh node.js 下载地址:https://nodejs ...
- Linux系统信息查看命令大全
系统# uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostna ...
- easyUI中tree的简单使用
一.在JS中的代码 $('#tt').tree({ url: baseCtx + 'lib/easyui-1.4/demo/tree/tree_data1.json',//tree数据的来源,json ...
- Android学习笔记——Button
该工程的功能是实现在activity中显示一个TextView和一个Button 以下代码是MainActivity中的代码 package com.example.button; import an ...
- Maven打包可执行jar
参考文献:http://blog.csdn.net/xiao__gui/article/details/47341385 方法:使用assembly插件,生成的jar包名为xxx-jar-with-d ...
- Linux下Redis服务器安装配置
说明:操作系统:CentOS1.安装编译工具yum install wget make gcc gcc-c++ zlib-devel openssl openssl-devel pcre-devel ...
- JabRef 文献管理软件
JabRef 文献管理软件简明教程 大多只有使用LaTeX撰写科技论文的研究人员才能完全领略到JabRef的妙不可言,但随着对Word写作平台上BibTeX4Word插件的开发和便利应用,使用Word ...
- 一个 Sql语句优化的问题- STATISTICS 统计信息
前段时间,同事遇到一个 Sql语句的问题,一个列表分页功能响应在30 s以上,看数据库里面的数据条数,数据量也不大,相关字段的一些索引也都有,可就是慢.于是找出具体的sql 语句出来分析,分页功能主要 ...
- Microsoft.Web.Redis.RedisSessionStateProvider
https://github.com/Azure/aspnet-redis-providers https://www.nuget.org/packages/Microsoft.Web.RedisSe ...
- Python开发【第四篇】:Python基础之函数
三元运算 三元运算(三目运算),是对简单的条件语句的缩写. ? 1 2 3 4 5 # 书写格式 result = 值1 if 条件 else 值2 # 如果条件成立,那么将 “值1” 赋值给 ...