2021 年,超高清迈入 “8K” 时代。超高清视频将带来全新视听体验,但超高清生产在内容生产层面也面临着超高清存量少、生产设备更新换代慢、制作周期成倍增加的困境。在 7 月 10 日的 Imagine 阿里云视频云全景创新峰会上,达摩云资深算法专家谢宣松,发表了《AI 技术驱动超高清 “视” 界》的主题演讲,从超高清产业的生产现状与困境出发,深度剖析 AI 技术如何驱动视听升级,并分享了达摩院在超高清生产领域的实践经验,以下为演讲内容整理。

超高清产业发展现状

视觉是一个生理学词汇。通过视觉,人和动物感知外界物体的大小、明暗、颜色、动静,获得对机体生存具有重要意义的各种信息。从物理现象角度来看,也就是视网膜对光的各种感应,包括光的亮度、细节描述,还包括跟时间相关的这些信息。而对视觉冲击力最大的就是视频

AI 在视频方面能发挥什么作用?

AI 在视频发挥的作用主要分成两部分,第一部分是最基础的,AI 对视频或者图像的理解,体现在我们视频中常见的分类、打标、检测、分割等。AI 是与人相关的,因为人肯定一上来先理解世界,所以 AI 要发挥它的作用,第一步就是理解学习。

第二部分和生产类相关,比如生产、编辑、加工、擦除、插入等,其中 AI 在底层视觉就是发挥它的增强作用。那么 AI 是如何在底层视觉上发挥它的作用的呢?

视觉是人类最重要的感觉,所以视频的体验的问题是重中之重。体验会和很多东西相关,人类也在不断追求着体验,第一是清晰度的追求,从 4K 到 8K,信息包含量越来越多,细节的丰富程度也越来越高。2021 年 4k 超高清视频已经普及,并迈入 8K 高清时代。

第二是色彩,更生动的色彩,这也是影响人体验的一个非常重要的地方。第三个则是更沉浸式的体验。

那 AI 可以发挥些什么作用呢?能不能在各行各业进行应用呢?

首先是超高清视频,2014 年国家发布 4K 的战略,到现在已经过去了 7 年,4K 开始朝着更高的 8K 方向发展。在这个过程当中内容永远是滞后的,基础设施反而是超前的,像 4K 电视,现在消费者仍然不会去购买一台最基本配置的 4K 电视,而信号的基础设施已经迈向了 8K、5G

去年春节进行了第一次 8K 直播,东京奥运会、北京冬奥会都会有 8K 直播,而且 8K 的直播会越来越多。

但 8K 直播有很多困难,因为视频是完整内容生产的过程。其实有很多环节,例如素材采集,素材采集现在已经消费级别化了,1080P、4K 级别的素材采集,利用手机就可以满足。但怎么生产内容,拍一下视频是否就算是生产了?

其实它只是最基本最简单的生产,对内容生产来说分两块:第一块是存量的内容,从古老的黑白到后来有色画面但分辨率很低的内容。技术和人的体验的要求越来越高,所以之后的内容制作的周期和要求越来越高。

技术在内容生产方面可以发挥巨大的价值,因为技术无外乎两个东西,第一个降本提效,这是最根本的。第二是创新,能够快速快捷低成本创造新的机会。

所以技术在这块会发挥非常大作用,包括网络传输、终端是需要完善整个产业链的。而我今天所讲的只是其中的一个点,但这一点也需要非常多技术来补完。

AI 技术驱动视听升级

要提高视觉体验,最基本的是增加可以观察到的细节,而跟细节最相关的就是分辨率,但分辨率需要终端设备支持,所以这是第一点,也是最重要的。

第二是流畅丝滑的视觉体验,目前大部分是显示器是 60 赫兹,但也有 120 赫兹、240 赫兹、甚至 360 赫兹的显示器,赫兹代表着屏幕每秒的刷新率,也就是每秒钟屏幕出现图像画面的次数。屏幕支持的赫兹数越高,每秒显示的画面也就越多,视频观感也更流畅。

之前的带宽不足,不足以支持那么多的画面信号传输,而视频本身的帧数也达不到流畅的体验。

当然,技术可以弥补视频自身上的不足,来提高视频的视觉体验。

第一个是关注细节,第二关注流畅度,第三关注色彩。4K 内容是有国家明确规范的,你要想称之为 4K 内容,你要先满足这些条件。

从这三个层次来看,技术上追求细节可能就会出现很多瑕疵,因为这里很多初试者,经常用 GAN 系列技术,在生产过程当中会经常出现不可控因素,导致出现瑕疵。

实话说,我一直想把视觉生产定义成可控的视觉内容生产,既能够保证细节的还原,同时又能够保证瑕疵的控制,这需要很核心的技术,这是第一。

第二个,算法除了要控制超分辨率以外,另外算法的源头是什么?是数据,大家普遍觉得数据有两种,低分辨率和高分辨率,因为低画质和高画质是一对的。

这些数据怎么获取,有很多手段。主要的办法是用人工的方式、高成本的方式,获取这两种数据,能不能用技术的方式真正生产高仿真、高真实的数据对(data pair),这是未来很大的一个课题。

最后要使 AI 技术在实践当中使用,把效果和效率上平衡做好,这本身也是个问题。

第一个要解决的是数据规模。因为 AI 的数据规模是海量的,在这些场景大家感受到的比较差的画质,很多细节都已经损失掉了。很多模糊的东西,色彩不对的地方,AI 是无法凭空绘制出这些数据的,所以能不能设计个方案,使 AI 用算法自动获取真实的数据,目前,这是非常难的一个课题。

在比较早的时候大家用简单的方式,要想追求更好一点,可能用一些数据核,使得清晰的画面变得不清晰,然后去制造一个数据对。当然可能做了核之后加一些东西,加一些噪声,那有了这些以后是不是就行了?其实也不行,因为所有的视频要通过编码、解码,在传输过程中又会产生很多损失。

所以怎么模拟损失的那部分?设计一个好的算法,对编解码本身也是很好的,这一系列考虑下来,低质和高质的数据对可以做非常多事情,这里面牵扯到对噪声的分析、场景的分析,不同场景关注点的不一样,动漫画更关注边缘,运动场景比较高的关注运动的动作,还有复杂的场景可能会关注很多的细节。

所以在这些方面需要做非常多的数据分析和数据生产,也许平时大家就是做一个算法,让一堆人打标,画框就行了,所以在这个问题中,数据对的生成是个命题,怎么获取到真实的训练数据。当然这个数据除了真实以外还要有规模,达摩院在技术这一方面花费了很多的努力。

超高清生产实践

接下来怎么增强?比如怎么增强人像,我们现在比较重要的方法就是加入 GAN 系列技术进去,达摩院开源了 GPEN 的高清算法。

在各种视频新闻中,很多人像基于这个算法做了修复,在 B 站等各平台播放,起到了很好的 PR 作用,这些都是基于达摩院的算法去修复的。

这里面第一个加入了 GAN 的先验网络也加了生成式数据发生器。基本分三大类,第一类针对内容的,当然针对特征层面的,还有针对 GAN 层面的 Loss 在里面,所以可以得到针对人像非常好的基础模型。这是其中一种。

当然对真实的物理世界来说人虽然是最重要的,但文字、风景等各种细节,也需要算法来完善增强。

关于解决流畅度的问题,在很多时候,尤其在运动变化率非常大时经常会出现瑕疵,所以怎么在不同的尺度、出现不同的瑕疵时,检测并弥补修复,然后提升流畅度,这需要很多的工作来完善。

除了细节增强,数据的还原、生成,还有瑕疵的检测,差分的检测,颜色的调准,非常多算法可以发挥它的作用,这一系列组合起来视频才能够完成从低清到 4K 到 8K 的演进,这本身也是个系统工程。

所以从这三个维度也无所谓传统与不传统的方法,大家都是利用深度学习的方法增强分辨率,帧率、色彩还有细节,还有在不同场景下怎么完善算法更好。

有了这些算法,形成真正可用的产品和服务还有很长的路要走,这就是系统工程要做的事情。基本来说,从原创的素材,加上 AI 视觉生产、智能生产,画面增强,还有内容加工,得到内容之后怎么编辑、修改、生成封面、拆条,这里面都可以做很多的技术来发挥作用。

上图展现了人物照片 AI 增强后的效果,利用开源的 GPEN 高清算法实现面部增强,增强后的视觉效果很棒,但实际上还有很多难点在里面,如果这个照片源头非常差或者受到很严重的污损,要想做好的增强还是很困难的。

另外这是一个综合的东西,可能用到面部的增强,但也不能脱离环境生产,要和背景相结合。如果是很古老的照片,还要做色彩还原,包括黑白变成彩色等。

画质增强,当然对于视频来说更复杂,原始画面的比较暗,但加上色彩会更加生动,再加上超分以后细节更突出,这时车不是那么流畅,加一个差分使得汽车行驶画面更流畅。从色彩到细节再到流畅度再加上场景增强,形成了完整的视觉增强,这是属于视频视觉处理技术。

达摩院视频综合增强 效果展示

https://v.youku.com/v_show/id_XNTE5MTkzODIxMg==.html

最后 AI 驱动高清往前走,智能是最基本的,达摩院是做 AI 技术的,所以能不能自适应去做事情非常重要。自适应好像很简单,但事实上在不同的场景,AI 技术并没有所谓的普适性的能力。

在有卡通时,有新闻人物时,有纪录片时,我们希望 AI 能够有适应的完整系统,用万能的模型去处理,而不是单一的模型,使 AI 自适应的针对不同场景采用最优质的算法。

最后自我评估这是很重要的有意思的话题,对于主观的视频增强技术好不好,如何去评判它,本身也是很困难的事情,达摩院也会在视频增强技术投入很多的时间去做,去完善。

当然还需要系统去承载它,视频云就是这个基础设施平台,使得可以高效率规模化地做各种各样 AI 视频视觉增强的任务

当然现在 AI 慢慢朝着两个维度走,第一个走向消费者,平民百姓,为大家服务。另外深入到各行各业为大家提供降本提效,以及创新各种各样的机会。AI 技术将基于视频云,驱动未来的高清视界。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

迈入 8K 时代,AI 驱动超高清 “视” 界到来的更多相关文章

  1. 腾讯明眸极速高清升级2.0,助力韩国赛事超高清5G直播

    近期,由腾讯云联合韩国CUDO通信研究所及intel推出的tile方式的viewport流服务编码,已正式通过测试.届时韩国最新5G网络将基于腾讯明眸-极速高清2.0和腾讯云直播产品能力,在韩国国内率 ...

  2. 阿里云朱照远: AI打开新视界 8K时代已来!

    2018年4月11-12日,2018亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖论坛.电视云论坛.短视频论坛.视频云论坛.新技术论坛.运营商论坛.国际云论坛等7大部分组成.在亚太CDN领袖峰会上 ...

  3. AI驱动的超分辨技术落地实践

    近年来,随着深度学习技术的快速发展,基于AI的超分辨技术在图像恢复和图像增强领域呈现出广阔的应用前景,受到了学术界和工业界的关注和重视.但是,在RTC视频领域中,很多AI算法并不能满足实际场景下的应用 ...

  4. NPC AI驱动最基本过程

    NPC AI驱动最基本过程 NPCmgr中比较重要的是加载NPC和一个NPCAI的一个指针 他利用map那个线程的定时到底做了啥呢 void NPCmgr::npcAITimer() { time_t ...

  5. 只需 5 秒钟,你就能取到 WPF 程序的超高分辨率超高清截图

    我想要截取一个 WPF 程序的图标,但是它太小了.如果我就这样截屏截下来,是很不高清的.由于我需要制作一份课件,所以我需要超高清版本,可是,如何做才能最快速拿到 WPF 程序的超高清截图呢? 本文分享 ...

  6. 微软发布云端基因服务:推动AI驱动的精准医疗

    微软发布云端基因服务:推动AI驱动的精准医疗 2018年03月07日 00:00:00 微软研究院AI头条 阅读数:117    版权声明:本文为博主原创文章,未经博主允许不得转载. https:// ...

  7. 如何获取 bing 每日壁纸(超高清版)

    目录 需求描述 实现方式 简单粗暴 如何下载 如何更高清 排坑指南 初级 优点 给有好奇心的孩子 进阶 接口 自动保存 网站集成 爬虫 需求描述 必应作为一个在壁纸圈做搜索引擎最优秀的站点,其每日壁纸 ...

  8. 意味着JNPF迈入新时代的3.4版本,与3.3.3版本有着哪些功能区别呢?

    在线开发‍ 3.3.3版本 同一个功能分功能设计和移动设计 功能设计没有更换模式 功能设计没有同步菜单 功能设计和移动设计无表模式 3.4.1版本 同一个功能可以在功能设计里面设计,根据客户需求自己选 ...

  9. android 不失真 显示 超高清 图片 长图

    韩梦飞沙  韩亚飞  313134555@qq.com  yue31313  han_meng_fei_sha 通过计算 位图工厂.选项  对象的 inSamleSize 值 等比压缩 图片. 使用 ...

随机推荐

  1. 一次 RocketMQ 顺序消费延迟的问题定位

    一次 RocketMQ 顺序消费延迟的问题定位 问题背景与现象 昨晚收到了应用报警,发现线上某个业务消费消息延迟了 54s 多(从消息发送到MQ 到被消费的间隔): 2021-06-30T23:12: ...

  2. 乘风破浪,Windows11预览版升级和安装,积极准备中的大跃进

    安装Windows11 暂时官方还没出可靠的ISO 升级到Windows11 预览版 关于一些限制 目前DEV预览通道对从老系统升级到Windows11暂时没有什么限制,只是会提示你可能不太好,但是安 ...

  3. ES服务的搭建(八)

    看下图的淘宝页面,可以看到搜索有多个条件及搜索产品,并且支持多种排序方式,例如按价格:其实这块有个特点,就是不管你搜索哪个商品他都是有分类的,以及他对应的品牌,这两个是固定的,但其它参数不一定所有商品 ...

  4. SpringBoot Redis 2.0.x

    redis的安装 在笔者之前的文章中有介绍redis的安装,不会的可以去看 笔者之前写的文章redis安装 完成安装后如果不熟悉redis的操作,redis官方文档也有基本操作指南,redis基本操作 ...

  5. acwing 4 多重背包问题 I

    多重背包 有 n种物品 一共有 m大小的背包,每种物品的价值 大小 个数 为 s[i],v[i],num[i]; #include<bits/stdc++.h>//cmhao #defin ...

  6. Java程序设计(2021春)——第二章笔记与思考

    Java程序设计(2021春)--第二章笔记与思考 本章概览: 面向对象方法的特征 抽象:从同类型对象中抽象出共同属性 封装:把数据和处理数据的方法封到一个类中 继承:在已有的类的基础上开发新的类 多 ...

  7. 资源:Hadoop安装包下载路径

    下载路径 Hadoop所有版本:http://archive.apache.org/dist/hadoop/common/

  8. Python之面向对象编程【小明跑步】、【置办家具】

    #!usr/bin/python 2 #encoding=utf-8 3 #-----------------小明跑步------------- 4 #1.小明体重75.0公斤 5 #2.小明每次跑步 ...

  9. Leetcode 递归题

    24. 两两交换链表中的节点 题目描述: 给定一个链表,两两交换其中相邻的节点,并返回交换后的链表. 你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换. 示例: 给定 1->2-&g ...

  10. 第四章 python的turtle库的运用

    我们可以尝试用python的自带turtle库绘制一条蟒蛇 首先我们设计一下蟒蛇的基本形状 我们先把这段蟒蛇绘制的实例代码贴出来,各位可以在自己的本地运行一下看看效果,然后我们再继续分析代码: 1 # ...