声音,为数字人注入灵魂。

2023云栖大会上,阿里云视频云接受了CCTV-2财经频道的采访,分享并演示了如何利用云端智能剪辑,一站式完成数字人渲染及视频精编二创。

正如视频开头所呈现的AI重现演员“原声”,近年来,随着AI技术的发展,越来越多的AI之声也被运用于虚拟数字人、语音社交、咨询播报等场景。

视频:生成式大模型进军视频领域 “数字人”应用场景拓展

(视频来源:CCTV-2 财经频道)

#01 AI之声,如何重现生动

僵硬感、机器感、电音、语流语调不自然......这是过去语音合成技术主要面临的效果难题。

如何实现音色逼真、韵律自然的AI复刻效果?

首先,阿里云视频云技术团队会对用户语料数据的音频进行降噪、修复等预(前)处理,降低语料质量要求,提升语料清晰度和音质;

同时,基于视频云多场景、多来源、多语言的基础物料训练模型,可以模拟对话的自然效果及方言能力,并支持自定义调节情感和色彩;

当音频合成后,再对其进行超分修复等后处理,从而全流程、多维度提升推演合成音频的音质及播报自然度

这也意味着减少了真实声音的录音条件限制,在极少量的语料数据下,最短甚至20句话的简单录制,也能完成声音克隆。

在此基础之上,智能媒体服务人声克隆还充分考虑了自主灵活定制的便捷性、安全性、高效性

在便捷性上,基于视频云多年算法积累对原声质量提升预处理,用户收集日常播报语料即可形成训练素材,以保证训练语料的情绪场景贴合度和声音自然度。

在内容安全性上,用户可通过按系统设定的文案录制从流程上限制输入的内容,或自由发挥再叠加定向录制、声纹比对的方式,规避侵权风险

在当完成素材录制后,即会高效生成捕捉了重点声纹特征的克隆人声Code,可快速投入语音合成应用。

#02 高保真还原音色,满足各类场景

当前人声克隆定制服务,分为高级定制版、轻量定制版和基础版三档定制方案。

l 基础版:

在线可用,系统自动分配20句文案简单录制,覆盖故事、交互、导航三大细分场景,便捷快速复刻人声。通过用户上传的录音内容,30min即可快速、低成本捕捉关键声纹特征克隆人声,达到用户级娱乐效果。基础版适用于快速捕捉典型声纹特征的互娱应用。

基础版-20句语料录制界面及步骤

l 大众版(轻量定制):

自助提交丰富、清晰、高质量的语音物料,融合音质检测、音频降噪和数字克隆的多维度算法,基于15-30min有效音频,即可高保真还原音色。同时还可随着使用需求不同,指定音色情绪,满足不同应用场景的声音灵活适配。大众版(轻量定制)适用于大众互联网级高清人声应用。(NEW 推荐)

原始训练声音(截取)

声音克隆结果

(人声克隆大众版效果)

l 高级定制版:

阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。高级版适用于广电传媒级超高清人声应用。

#03 产品力与生动力

当完成人声克隆定之后,不仅可以通过文字转语音TTS,智能生成配音。也可通过文字驱动的方式,完成数字人视频合成。

阿里云「云端智能剪辑」提供专业的音视频剪辑(多层级元素、专业字幕、转场过渡、特效滤镜)能力及完善的视频模版工具。

浏览器剪辑界面

通过浏览器非线性编辑器或AE制作模版库,将复刻后的声音结合数字人自动化渲染,可实现数字人名片、数字人慕课等标准模版组合方案,满足短视频、教学视频、广告宣传等各类数字人视频制作的要求。

#04 打造一个“声动”数字人

“限时福利”倒计时!在活动有效期内发起定制数字人和人声克隆大众版(轻量定制)服务,即可享受终身免费续期的特权!

活动有效期

限时福利活动有效期为2023年12月31日24点前请在规定期内完成数字人定制任务提交操作。

适用平台

当前限时福利仅适用于通过阿里云智能媒体服务发起数字人定制的用户。

活动开始前已定制的数字人是否适用当前活动?

适用。只要在活动结束时间之前发起定制任务,均满足活动条件,自动享受福利特权。

福利页详情链接:「限时福利」数字人定制终身免费续期

欢迎加入官方答疑「钉钉群」咨询交流:48335001108

音色逼真、韵律自然的AI人声克隆限时福利!的更多相关文章

  1. 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记

    贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...

  2. 如何复制一个java对象(浅克隆与深度克隆)

    在项目中,有时候有一些比较重要的对象经常被当作参数传来传去,和C语言的值传递不同,java语言的传递都是引用传递,在任何一个地方修改了这个对象的值,就会导致这个对象在内存中的值被彻底改变.但是很多时候 ...

  3. 神奇的AI:将静态图片转为3D动图

    近日我们从外媒获得消息,位于莫斯科的三星AI中心和Skolkovo科学技术研究所的研究人员发表了一篇新论文,详细介绍了从单个静止人像照片生成3D动画人像的创建.与此前能够生成照片般逼真肖像的人工智能A ...

  4. 如何使用正则做文本数据的清洗(附免费AI视频福利)

    手工打造文本数据清洗工具 作者 白宁超 2019年4月30日09:43:59 前言:数据清理指删除.更正错误.不完整.格式有误或多余的数据.数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据 ...

  5. anyRTC 重磅推出在线实时 K 歌解决方案

    在线音乐领域一直是各大资本巨头投资的热点,从抢占版权到现在的"云上之争", 主流平台的战火从版权资源转向创新领域扩延.而如今,在线K歌正在成为抢占"云音乐"市场 ...

  6. 声网推出首个完整实时合唱解决方案 即将上线“咪哒”全国线下K歌房

    4月20日,声网Agora宣布对实时合唱技术方案全面升级,帮助国内知名迷你KTV品牌"咪哒"实现国内首个支持多终端.多人合唱.高音质的完整实时合唱解决方案的落地,结束了国内K歌行业 ...

  7. AIGC时代:未来已来

    摘要:人工智能的快速发展使得我们进入了AIGC时代.AIGC时代的到来,将会带来巨大的机遇和挑战. 本文分享自华为云社区<GPT-4发布,AIGC时代的多模态还能走多远?系列之一: AIGC时代 ...

  8. android用讯飞实现TTS语音合成 实现中文版

    Android系统从1.6版本开始就支持TTS(Text-To-Speech),即语音合成.但是android系统默认的TTS引擎:Pic TTS不支持中文.所以我们得安装自己的TTS引擎和语音包. ...

  9. 【证明】【一题多解】布尔不等式(union bound)的证明

    布尔不等式(Boole's inequality)也叫(union bound),即并集的上界,描述的是至少一个事件发生的概率(P(⋃iAi)" role="presentatio ...

  10. 你的GAN训练得如何--GAN 的召回率(多样性)和精确率(图像质量)方法评估

    生成对抗网络(GAN)是当今最流行的图像生成方法之一,但评估和比较 GAN 产生的图像却极具挑战性.之前许多针对 GAN 合成图像的研究都只用了主观视觉评估,一些定量标准直到最近才开始出现.本文认为现 ...

随机推荐

  1. proxysql修改默认系统配置

    前言 proxysql在第一次启动后,配置就从sqlite db中加载了,而不是配置文件. 有时候我们需要修改proxysql的默认配置,其相关配置在main.global_variables表中,可 ...

  2. nlp入门(三)基于贝叶斯算法的拼写错误检测器

    源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 数据来源:norvig.com/big.txt 贝叶斯原理可看这里:机器学习算法学习笔记 - 过客匆匆,沉沉浮浮 ...

  3. 一文详解自然语言处理两大任务与代码实战:NLU与NLG

    自然语言处理(NLP)涵盖了从基础理论到实际应用的广泛领域,本文深入探讨了NLP的关键概念,包括词向量.文本预处理.自然语言理解与生成.统计与规则驱动方法等,为读者提供了全面而深入的视角. 作者 Te ...

  4. 干了这么多年C#,后悔没早点用这种“分页”,简单/高效/易维护

    [前言] 干了这么多年C#,后悔没早点用这种"分页",简单/高效/易维护,比其它的分页方式强多了,不信你自己看. [正文] 支持.Net Core(2.0及以上)与.Net Fra ...

  5. 9、Spring之代理模式

    9.1.环境搭建 9.1.1.创建module 9.1.2.选择maven 9.1.3.设置module名称和路径 9.1.4.module初始状态 9.1.5.配置打包方式和依赖 <?xml ...

  6. qBittorrent如何运行脚本 BT实现自动改名并方便Jellyfin的搜刮器

    qBittorrent如何运行脚本 BT实现自动改名并方便Jellyfin的搜刮器 很多影视网站下载的视频名字大概是为了规避监测,命名非常奇葩,比如:z灼f流,y骨y等等.如果你使用了Jellyfin ...

  7. LeetCode952三部曲之一:解题思路和初级解法(137ms,超39%)

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 题目描述 难度:困难 编程语言:Java 给定一个由不 ...

  8. QA|Pycharm:allure : 无法将“allure”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。|Allure

    Pycharm中生成allure测试报告时报错如图: 单独执行allure --version也不行,cmd这样执行也报同样的错 网上查了 说是环境变量问题,加一下cmd可以了,重启pycharm也可 ...

  9. 华为云ECS上搭建Hadoop集群环境启动时报错“java.net.BindException: Cannot assign requested address”问题的解决

    启动时使用: ./sbin/start-all.sh 1 报错: java.net.BindException: Problem binding to [test7972:9000] java.net ...

  10. 杰哥教你面试之一百问系列:java集合

    目录 1. 什么是Java集合?请简要介绍一下集合框架. 2. Java集合框架主要分为哪几种类型? 3. 什么是迭代器(Iterator)?它的作用是什么? 4. ArrayList和LinkedL ...