在 2021 云栖大会《产业视频化创新与最佳实践》视频云主题论坛中,阿里云智能高级技术专家在《AliRTC 开启视频互动 "零处理" 时代》的主题演讲中,发布了阿里云视频云下一代实时交互解决方案 —RTC “零处理”,同时分享了阿里云视频云在 RTC 产品的探索和实践,以下为演讲内容整理。

一、交互演进与挑战

在过去几年,视频交互产品发生了什么变化?

我们认为 RTC 产品对行业产生了两次非常重要的变革。

第一次变革是 2014 年开始的交互从图文到音视频的升级。

2014 年,互联网创业者与 RTC 产品供应商一起探索视频互动的商业化, 教育、娱乐成为主要的突破方向, 基于全球范围内的互动授课、秀场视频连麦、多人交友互动,也大多在这时间点完成了商业与技术的成功结合。

2017 年是一个标志性的时间点,RTC 产品已经帮助头部互联网客户实现了颠覆性发展,标志着互动视频技术与在线互动商业模式的成熟。

接下来几年更多的是不同体量、不同场景的规模复制,所以我们能看到,在 2018 年以及后续的几年,市场上并没有新场景、新互动的创新,而是基于不同内容、不同客群的业务复制, 视频互动从头部走向更多的细分市场。

第二个重要变革发生在 2020 年,受疫情影响,让云视频会议全面渗透,让这个时间提前了至少 5 年。

这次市场的变化,我们不能称之为一次技术革命,实际上对 RTC 产品并没有新的诉求,也没有产生新的互动场景和技术,但这次大规模的渗透,重新定义了供应商的市场格局,第一次让云厂商成为了市场极其重要的一部分,让市场从单一的会议厂商,分裂为云平台 + 会议终端供应商,让我们的客户有了更多的选择。

从 2018 年到现在我们没有场景上的根本突破,是不是因为我们的技术上遇到了瓶颈?

带着这样的问题,阿里云对 RTC 场景技术进行了深入的技术评测,我们试图发现整个行业大家的技术水位是什么样的,不同于单项的视频技术,RTC 的评测要更为复杂。

例如,对视频编码,我们可以通过 PSNR,SSIM,VMAF 等来分析,对于视频分类等视觉算法,我们可以通过 ROC 曲线来分析,但对视频 RTC 来说,涉及的主观感受非常多,是一件比较复杂的事情,目前业界也没有统一的评测标准。

我们从这些影响用户感受的指标里面抽出六个维度表征 RTC 的表现质量。

对评测感兴趣的话可以关注我们的「视频云技术」公众号,里面详细介绍了我们怎么进行自动化评测的,评测过程中我们会创造不同的网络环境,检测 RTC 在各方面的表现。

我们对行业里的 RTC 做了一些评测,发现有两个特点。

第一,RTC 有明显的技术门槛,比如说绿色的框代表一类典型的 RTC 能力,由规模较小的团队自研,投入较小,会有明显的差距。

第二个是几个比较大的供应商,包括在阿里云在内,外面这一圈,红色的线、蓝色的线,以及黄色的线,他们都处于相对比较一致的水平,但是没有一家有特别优秀的地方,所以技术同质化特别严重,大家基本上处于同样的水平。

我们当前视频的实时互动主要集中在线上线下场景,未来可能会有更广阔的应用场景,比如说一些交互场景,VR 操控类、虚拟现实类。

这时候我们会思考一个问题,我们的技术是不是已经发展到了瓶颈期,我们无法满足未来更广泛的需求,这后面的原因是什么?会不会是我们的技术发展到某个瓶颈了?因为技术通常是阶跃式的发展,不能突破就会陷入在一个层次上。

二、“零处理” 加速交互升级

我们希望分析一下,现在用户的体验到底怎么样?我们现在的技术存在什么问题?

通过比较各家 RTC 供应商,我们发现一个比较有意思的点,就是大家有千分之二的卡顿率是难以消除的。50%、60% 的丢包都可以做的很好,但是如果网络带宽受限,千分之二的卡顿就难以消除了。

我们有一些手段可以解决类似的问题,比如利用窄带高清技术,我们可以通过复杂计算解决这些问题,也可以通过非标屏幕编码类技术解决,但是实际上我们很难把这些技术进行非常广泛的利用。

最根本的原因是我们会发现端侧能力是有限制的,大家的手机各不相同,有可能有些人的手机特别好,可以做复杂算法,有些人手机差,无法进行复杂算法,同时,端的碎片化比较严重,要对所有端适配是比较困难的。

在应用上我们希望能够提供更有趣的交互,比如说实时生成卡通人物形象,这在端上可以运行,但是只有少数非常强大的设备才能运行。

一个自然的想法是,我们是不是能突破当前的应用架构?

我们把一个完全依赖端能力的架构,逐步转变成依靠云和端一起配合进行视频传输处理的架构,基于这个想法我们提出了云处理 + 端渲染技术,目的是希望从云上提供强大的处理能力,端上负责渲染,只需要提供很少的处理能力就能完成比较好的处理效果,使大家在不同的手机上都能得到一样的体验。

这就是视频云“零处理” 解决方案的基本架构图,在端上只需要进行比较简单的视频采集以及视频传输,然后通过我们构建的覆盖全球的 GRTN 网络到达云端,云端使用 GRTP 的云端实时处理引擎对视频进行处理,再把处理好的视频传到端上,端上只需要做简单的呈现。这样可以很好的解决刚才提到端计算能力不够和碎片化的问题。

但是天下没有免费的午餐,采用上面的架构,很容易发现几个问题。

第一,我们的云上是不是能承受这么大规模的处理。

第二,云上能不能承担这么大规模的成本。

第三,云上能不能持续提供这么多类型的处理服务。

我们自己的信心来自于几个方面。

第一,通过阿里多年的积累,我们积累了业界最大规模的云上视频处理集群,所以我们在技术上已经具备承担超大规模处理的能力。

第二,关于成本。

下图是我们处理的一张业务图的示例图,横坐标是时间,纵坐标是资源使用量,黑色的线一种业务,红色线是另一种业务,可以看到,每种业务都存在大量的业务空闲期,业务空闲期可以让我们有大量资源供我们复用,当我们把多种业务混跑时,就能把资源利用起来,大幅度降低成本。

除了在时间上的混跑,我们也可以通过空间上的混跑和异构的混跑,将整体的成本降下来。

第三,由于我们背靠阿里集团,包括我们自己也有很多视频算法处理积累,所以我们有机会持续不断的提供丰富的算法和处理能力。

三、“零处理” 实践分享

接下来是阿里云视频云在零处理的实践。

第一个场景是使用 MCU 解放端侧算力

通常情况下,我们做 RTC 直播时,观众看到的直播画面是通过 RTMP 协议来完成的,这种情况下由于延迟的原因观众是无法参与到直播互动的。要增强观众的互动性,需要大家都加入 RTC 网络,每个端订阅多个流对端的算力和网络流量都是非常大的负担。

我们通过云端的 MCU 把流合并,重新进入到 RTC 会议里,这样观众可以通过 RTC 方式看到直播流,非常方便进行互动,同时也无需消耗过多的端上资源。这种模式我们称为互动低延时模式,已经是我们一个成熟的产品能力。

第二个场景,云转推

这是一个我们打通阿里内部服务能力的例子,我们通过和阿里集团安全部的合作,将 RTC 的流通过内网和安全部的产品打通,减少了中间环节,实现低成本、低延迟的内容审核。

第三个场景,云特效

相信这个场景大家已经看过,利用云端的处理,我们实现了虚拟会议室,通过云端的 MCU 将所有人进行抠图 + 贴图,来提升视频会议时的参会体验,这是阿里内部开会时已经可以运用到、并看到的技术。

上面展示的实时虚拟形象,是依托 GRTN 实时传输网络,将视频流传输到云端,云端对视频进行抠图,变声,卡通化等复杂的 AI 处理,终端只负责展示,从而实现了端侧零处理。

“零处理“作为下一代实时交互解决方案,在云厂商中率先推出,解决了新交互时代因端侧算力受限而无法实现的虚拟交互场景难题,充分利用云端一体的超精细算力,以云特效构建实时虚拟场景,是全面打开沉浸交互新世界的一项重要演进。

AliRTC 系列内容

阿里云 RTC QoS 屏幕共享弱网优化之若干编码器相关优化

阿里云 RTC QoS 弱网对抗之变分辨率编码

阿里云 RTC QoS 弱网对抗之 LTR 及其硬件解码支持

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

AliRTC 开启视频互动 “零计算” 时代的更多相关文章

  1. 让我们开启数据库无Linq、零sql时代

    让我们开启数据库无Linq.零sql时代 Moon.Orm 5.0总论 第一部分 MQL Moon.Orm 5.0 (MQL版) 版本维护及下载 (跟踪发布)  Moon.Orm 5.0系列文章 1. ...

  2. IBM的“认知计算时代”

    IBM 提出信息技术进入“认知计算时代”.所有电子设备都有潜力发展出认知能力,换言之,都可以像人一样‘思考’. 何为认知计算时代呢?  认知计算系统能够学习并与人类自然地交流,以扩展人类或机器可亲自执 ...

  3. 实时音视频互动系列(上):又拍云UTUN网络详解

    如何定义实时音视频互动, 延迟 400ms 内才能无异步感 实时音视频互动如果存在1秒左右的延时会给交流者带来异步感,必须将视频播放延迟限制在400ms以内,才能给用户较好的交互体验. 当延迟控制在4 ...

  4. 实时音视频互动系列(下):基于 WebRTC 技术的实战解析

    在 WebRTC 项目中,又拍云团队做到了覆盖系统全局,保证项目进程流畅.这牵涉到主要三大块技术点: 网络端.服务端的开发和传输算法 WebRTC 协议中牵扯到服务端的应用协议和信令服务 客户端iOS ...

  5. 【视频】零基础学Android开发:蓝牙聊天室APP(四)

    零基础学Android开发:蓝牙聊天室APP第四讲 4.1 ListView控件的使用 4.2 BaseAdapter具体解释 4.3 ListView分布与滚动事件 4.4 ListView事件监听 ...

  6. 【视频】零基础学Android开发:蓝牙聊天室APP(二)

    零基础学Android开发:蓝牙聊天室APP第二讲 2.1 课程内容应用场景 2.2 Android UI设计 2.3 组件布局:LinearLayout和RelativeLayout 2.4 Tex ...

  7. 【视频】零基础学Android开发:蓝牙聊天室APP(三)

    零基础学Android开发:蓝牙聊天室APP第三讲 3.1 ImageView.ImageButton控件具体解释 3.2 GridView控件具体解释 3.3 SimpleAdapter适配器具体解 ...

  8. 【视频】零基础学Android开发:蓝牙聊天室APP(一)

    零基础学Android开发:蓝牙聊天室APP第一讲 1. Android介绍与环境搭建:史上最高效Android入门学习 1.1 Google的大小战略 1.2 物联网与云计算 1.3 智能XX设备 ...

  9. H.265:网络视频的高清时代

    去年八月,爱立信公司推出了首款H.265编解码器,而在仅仅六个月之后,国际电联(ITU)就正式批准通过了HEVC/H.265标准,标准全称为高效视频编码(High Efficiency Video C ...

随机推荐

  1. 制作ppt最少必要知识

    设计PPT的最少必要知识是什么呢?其实,只要记住两个词就可以了. 简洁,留白. 简洁,就是有很简单的实施方案:在任何一个视觉框架之中,都要尽量减少元素的数量(如形状.线条样式.颜色的数量等),将它们控 ...

  2. ~/.emacs emacs 配置文件

    windows ~/.emacs (when (>= emacs-major-version 24) (require 'package) (add-to-list 'package-archi ...

  3. Java学习之随堂笔记系列——day03

    内容回顾:1.标识符和类型转换    1.1 标识符:给类.方法.变量取得名字就是标识符.        命名规则:            1.必须是字母.数字._.$组成            2. ...

  4. vue-cli3 取消eslint 校验代码

    项目生成后会有个.eslintrc.js文件 module.exports = { root: true, env: { node: true }, 'extends': [ 'plugin:vue/ ...

  5. 定要过python二级 第二套

    1.name=random.choice(brandlist)    与第一套中的  random.randint() 2. eval(input())   看到一段代码,判读输入的数字,用的是eva ...

  6. list集合根据字段分组统计转换成map

    前言 表格需要对数据进行统计 代码实现 public Map getUnitStoreSum(String unitId, String billCode) { List store=listUnit ...

  7. Docker小白到实战之Docker网络简单了解一下

    前言 现在对于Docker容器的隔离性都有所了解了,但对容器IP地址的分配.容器间的访问等还是有点小疑问,如果容器的IP由于新启动导致变动,那又怎么才能保证原有业务不会被影响,这就和网络有挂钩了,接下 ...

  8. Redis之品鉴之旅(二)

    2)hash类型,上代码 using (RedisClient client = new RedisClient("127.0.0.1", 6379, "12345&qu ...

  9. LOJ6469 Magic(trie)

    纪念我菜的真实的一场模拟赛 首先看到这个题目,一开始就很毒瘤.一定是没有办法直接做的. 我们考虑转化问题 假设,我们选择枚举\(x\),其中\(x\)是\(10\)的若干次方,那么我们只需要求有多少对 ...

  10. Apache Beam入门及Java SDK开发初体验

    1 什么是Apache Beam Apache Beam是一个开源的统一的大数据编程模型,它本身并不提供执行引擎,而是支持各种平台如GCP Dataflow.Spark.Flink等.通过Apache ...