摘要:互联网视频经过几代发展,用户体验快速升级,对创新玩法、互动性要求越来越高。那如何解决这些问题? 媒体AI,是行业共识。华为云提供云原生实时媒体AI能力,联合伙伴打造AI算法开放生态市场,加速视频业务创新,云端特效就是其中一个用例。

随着视频业务不断升级,用户对体验的要求越来越高,比如要互动性更强、玩法更多样,体验更酷炫等。另外,直播业务、RTC业务,内容同质化比较严重,内容创造、用户体验也都遇到了天花板,这些都需要一些技术去打破它。华为云跟斗鱼长期碰撞,共同探索后,得到一个命题:通过媒体AI去做这个事情。现在的直播视频里面有很多直播特效,包括像美颜、美型、虚拟主播、背景替换等,同时华为云面向在线教育的场景,也会有一些像课堂评测的能力,都是基于媒体AI去做的。

构建媒体AI目前面临的三大痛点

当前,媒体AI的构建有几大痛点:

  • 终端:类型多、算力弱。

目前很多的媒体AI能力都是在终端实现的,虽然终端的算力在不断提升,但像一些高复杂度的特效是做不了的,比如虚拟人物。背景替换当前的效果也很一般,你能看出一个明显的轮廓,当然更不要说实现对标电影级特效的背景替换了。

  • 云端:实时互动弱、成本高。

现在很多在云端去做的视频AI,一般都是偏向于离线的业务,它对互动体验的满足性相对比较低。在直播实时互动的时代,这是无法满足需求的。而且因为音视频数据在边缘和云端源站相互传输,引入较高的带宽成本。

  • 创新门槛高、生态封闭。

现在AI的能力,各厂家都是独立开发,各玩各的,生态相对是比较封闭的。

华为云希望基于云原生,和伙伴一起构建一个边云协同的实时媒体AI的能力,去解决上述痛点,加速视频业务创新。

实时媒体AI的定义及核心价值

华为云给实时媒体AI做了一个定义,基于华为云原生的边缘、计算、容器、存储、网络等服务能力,构建丰富的实时媒体AI处理能力,同时联同伙伴打造生态开放的AI算法市场,加速视频业务创新,为客户提供差异化竞争力,为用户提供更优质的体验。

先举个简单的例子,我们把当前直播和RTC里端侧做的一些特效,通过边缘云的方式来实现,加入更多更酷炫的特效,比如效果更好的背景替换,提升互动性的AR卡通、虚拟人物等等。

当前,实时媒体AI还处在一个探索推进的状态中,我们希望其能实现如下4个核心价值:

  1. 玩法更多。以后直播和RTC业务有更多的AI能力可以用,可以组合,来实现更多更酷炫的创新玩法;
  2. 体验更优。有了这些创新玩法后,用户对实时互动的体验要求是比较高的,我们希望实现“延迟无感”的体验,与本地使用高端机是同样的体验效果。还有一点针对算法开发者来说的,可以基于云的平台,更快地发布、更快地开发,更快地去体验验证。
  3. 成本更低。目前大部分媒体AI的能力是基于端侧实现的,因为一提到云侧,就会想到GPU、各种硬件平台的成本会比较高,但我们希望能把这块的成本降下来。这里包括两个部分,一是用华为云统一的软硬件资源,提高资源的复用率,降低每一路资源成本,二是基于云上统一平台,一键更新,无需适配多种终端,来降低算法开发和APP更新的成本。
  4. 生态开放。我们希望构建一个开放的AI算法生态市场,避免各家闭门造车、各玩各的的状态,希望能通过AI算法的互通共享,来降低算法开发门槛。

这些核心价值的实现,都是基于云原生,下面将从实时媒体AI的云原生架构、实时处理框架、算法开放几个方面详细介绍一下如何通过云原生实现核心价值的。

实时媒体AI云原生架构

首先介绍一下实时媒体AI基于云原生的架构。

从下往上看,首先它是基于华为云的边缘节点,用华为云IEF边缘管理服务对整个的节点软硬件资源做一个纳管,进行调度。其次,框架基于华为云EI平台,提供ModelArts训练等多种能力,支持Tensorflow、PyTorch等主流深度学习框架。框架里还包含一个SWR(镜像仓库)的服务,这个服务既可以集成发布华为EI自研算法镜像,也可以集成第三方基于EI的算法镜像。还有一个关键点要介绍,我们提供一个高性能边缘函数计算能力,这个能力实际上是面向实时媒体AI业务做的一个函数级处理框架结构,它可以非常高性能地将所有的AI算法实时调度到边缘节点上,并对边缘函数进行编排。实时媒体AI平台,用于卸载终端上的媒体处理能力,减少媒体处理适配不同终端平台的开发量,并保证不同终端平台体验效果一致,面向不同解决方案提供归一化的媒体处理能力。

我们通过这个架构,提供更多更优的媒体AI玩法,同时,它统一算法的创新发开平台,可以避免多终端适配。

实时处理函数框架

如前面所述,实时媒体AI的核心是实时,如何最大程度的降低端到端处理时延,让用户对延迟“无感”。

实时媒体AI除了将实时处理能力下沉到边缘,就近提供处理、降低链路时延之外,还重点构建了实时处理函数框架,用来降低处理时延。该处理框架主要以下几个方面降低端到端处理时延:1)基于华为云昇腾、鲲鹏等硬件,对AI算法、视频编解码算法做加速处理;2)通过高速总线加速AI算法容器之间视频原始数据传输;3)通过函数资源池预热机制提前加载AI算法,降低启动时延等。 整个处理流程,我们是希望能做到100毫秒以内,加上网络的时延,能做到300毫秒以内。这样的话,对用户而言,延迟是无感知的。

云原生算法开放

如前面所说,华为云不仅仅是构建一个实时媒体AI服务能力,更希望的是构建面向多种业务场景的实时媒体AI算法生态,希望更多的伙伴参与进来,一起推动业务创新、用户体验提升。

基于这个想法,华为云构建了一个算法开放的流程,包括所有实时媒体AI算法的标准算法接口和集成流程,也包括算法生态市场的构建,我们都会陆续的推出。这样的话,不管是基于华为EI平台去构建的AI算法,还是考虑到数据的隐私性,基于自己的平台去构建的AI算法,都可以通过这个流程集成到我们实时媒体AI里面。

实时媒体AI应用案例—斗鱼

基于华为云云原生RTC实时音视频服务以及实时媒体AI能力,斗鱼实现实时云端特效,将端侧难以实现的特效能力向云侧转移,为用户提供“延迟无感”的实时互动体验,促进业务创新,提升业务粘性。华为云领先的云原生技术,让斗鱼可以专注云侧创新,避免适配多种终端,快速验证创新效果,大幅提升研发效能。同时,还能避免SDK频繁更新带来的用户多次下载,提升用户使用体验。

基于华为云和斗鱼的算法,双方还构筑了一个富有想象空间的算法生态。面向未来,双方将持续深化合作,基于AR/VR提供更多创新玩法,结合华为云算法商城为主播带来更多场景选择,追求更优用户体验。

目前我们正在跟斗鱼一起做美颜、美型、滤镜、贴纸等实时云端特效,这些特效会集成在斗鱼的直播平台里面,后续虚拟形象、背景替换等特效也会陆续上线。

低时延云端美颜、背景替换DEMO

第一个DEMO是当前跟斗鱼一起做的一个低时延云端美颜特效,里面包括美白,磨皮等一系列的处理。这个端到端的时延,目前我们在网络比较好的情况下,可以做到150毫秒。正如我们看到的两个对比视频,基本上是同步的,肉眼看不出差异性。

另外的一个DEMO是背景替换的。是一个知识视频里面做的背景替换。后面还会把背景替换效果做得更好,能像电影级的,比如说把背景替换和美颜美型、虚拟形象等组合叠加,做出更好更炫的效果。

华为云希望实时媒体AI是作为加速视频业务创新的一个关键手段,能够提供更多的处理能力,更优的互动体验,更低的创新成本,当然也希望更多AI算法合作伙伴们的加入,一起来共同打造一个开放生态!

本文分享自华为云社区《实时媒体AI,打破内容创作天花板,加速视频创新》,原文作者:音视频大管家 。

点击关注,第一时间了解华为云新鲜技术~

实时媒体AI,打破内容创作天花板,加速视频创新的更多相关文章

  1. 全球顶尖的内容创作引擎,Unity为创造而生

    5月11日晚,Unite Beijing 2018 Keynote主题演讲于国家会议中心圆满落幕.今年的Keynote主题演讲汇聚了12位重量级嘉宾,为参会者呈现出了一场属于Unity 2018的技术 ...

  2. 解密优酷智能生产技术,看 AI 赋能内容数字化

    2021 年,随着社会节奏的加快,用户碎片化消费时间不断增加,当前短视频的消费用户规模已超 7.73 亿人,短视频的市场规模超过 2000 亿元.短视频行业发展迅速,但也存在低质内容泛滥,精品内容稀缺 ...

  3. 游戏AI系列内容 咋样才能做个有意思的AI呢

    游戏AI系列内容 咋样才能做个有意思的AI呢 写在前面的话 怪物AI怎么才能做的比较有意思.其实这个命题有点大,我作为一个仅仅进入游戏行业两年接触怪物AI还不到一年的程序员来说,来谈这个话题,我想我是 ...

  4. 网易云易盾CTO朱浩齐:我们是如何用AI赋能内容安全?

    本文由  网易云发布. 5月19日,LiveVideoStack携手网易云易盾,共同打造了“娱乐多媒体开发应用实践”专题,帮助开发者和泛娱乐平台运营人员,提升技术能力,突破难点,拓展思路与视野. 在专 ...

  5. 了解实时媒体的播放(RTP/RTCP 和 RTSP)

    http://blog.csdn.net/span76/article/details/12913307 RTP/RTCP RTP是基于 UDP协议的, UDP不用建立连接,效率更高:但允许丢包, 这 ...

  6. 【转载】 了解实时媒体的播放(RTP/RTCP 和 RTSP)

    http://blog.csdn.net/span76/article/details/12913307 离线媒体只是用 Http协议去读取服务器端文件而已,而对于实时直播如何实现, 这里就要用到 R ...

  7. 可编辑的表格:jQuery+PHP实现实时编辑表格字段内容

    在本例中,我们会通过jQuery实现单击将一个文本信息变为可编辑的表单,你可以对文本内容进行编辑,然后点击“确定”按钮,新的内容将发送到后台PHP程序处理,并保存到数据库:当点击“取消”按钮,则页面恢 ...

  8. JS实时检测文本框内容长度

    通过js代码实时监测,文本框内容的变化以及长度,下图是一个实际使用场景. HTML部分: <input id="Text1" type="text" on ...

  9. AI赋能音乐创作,人人都是音视频创作者

    华为HMS Core音频编辑服务(Audio Editor Kit)依托自身AI技术的研发优势,上线全新的歌声合成音色及伴奏,给音视频创作者提供更多的创作可能.在短视频场景中,用户自定义歌词的歌声结合 ...

  10. 中国风?古典系?AI中文绘图创作尝鲜!⛵

    作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 本文地址:https://www.showmeai.tech/artic ...

随机推荐

  1. Maze 1D 题解

    题目大意 在数轴上给定一串行动指令,类型有两种:向左移动一个单位 / 向右移动一个单位.要求最后一步到达一个没有到达过的位置.可以在数轴上放置若干个障碍物阻碍移动,问在放置的障碍物最少的情况下有多少放 ...

  2. zabbix监控Tomcat/JVM 实例性能

    1.背景 zabbix-4.0 环境已部署好 JDK .Tomcat环境已部署好 2.配置Tomcat JMX 编辑catalina.sh加入以下配置 # vim /usr/local/tomcat/ ...

  3. Unity 代码调用重新生成csproj文件

    结论 先放结论:editor代码中直接调用 Unity.CodeEditor.CodeEditor.CurrentEditor.SyncAll(); 原因 在一些操作后,比如修改csc.rsp的内容之 ...

  4. JavaScript:垃圾收集机制

    JavaScript具有自动垃圾收集机制.也就是说,执行环境会负责管理代码执行过程中使用的内存.开发人员不必关心内存分配和回收问题. 垃圾收集机制的原理:找到不再继续使用的变量,然后进行释放其占用的内 ...

  5. c#中单例模式详解

    基础介绍:   确保一个类只有一个实例,并提供一个全局访问点.   适用于需要频繁实例化然后销毁的对象,创建对象消耗资源过多,但又经常用到的对象,频繁访问数据库或文件的对象.   其本质就是保证在整个 ...

  6. OpenGL 纹理详解

    1. 纹理 在OpenGL中,纹理是一种常用的技术,用于将图像或图案映射到3D模型的表面上,以增加图形的细节和真实感 2. 纹理坐标 纹理坐标在x和y轴上,范围为0到1之间(注意我们使用的是2D纹理图 ...

  7. Go 接口:Go中最强大的魔法,接口应用模式或惯例介绍

    Go 接口:Go中最强大的魔法,接口应用模式或惯例介绍 目录 Go 接口:Go中最强大的魔法,接口应用模式或惯例介绍 一.前置原则 二.一切皆组合 2.1 一切皆组合 2.2 垂直组合 2.2.1 第 ...

  8. 《最新出炉》系列初窥篇-Python+Playwright自动化测试-31-JavaScript的调用执行-上篇

    1.简介 在做web自动化时,有些情况playwright的api无法完成以及无法应对,需要通过或者借助第三方手段比如js来完成实现,比如:去改变某些元素对象的属性或者进行一些特殊的操作,本文讲解pl ...

  9. C++ MiniZip实现目录压缩与解压

    Zlib是一个开源的数据压缩库,提供了一种通用的数据压缩和解压缩算法.它最初由Jean-Loup Gailly和Mark Adler开发,旨在成为一个高效.轻量级的压缩库,其被广泛应用于许多领域,包括 ...

  10. ubuntu20 安装 mysql5.7.31 , 卸载mysql 8.0, Mysql只能本地登录,无法远程登录

    ubuntu 18 可以直接命令安装:# 安装mysql服务sudo apt-get install mysql-server# 安装客户端sudo apt install mysql-client# ...