昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强！

摘要：近日，CVPR 2022放榜，基于CANN的AI论文《Interactive Image Synthesis with Panoptic Layout Generation》强势上榜。

本文分享自华为云社区《昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强！》，作者：昇腾CANN 。

近日，CVPR 2022放榜，基于CANN的AI论文《Interactive Image Synthesis with Panoptic Layout Generation》强势上榜。这为AI发烧友们开辟了一条新的图像生成之路，让疫情肆虐下足不出户的你，随手选择几个类别的基础元素，并做大小和位置的拖动，便能自动生成一副摄影作品，堪比专业摄影师！

CVPR全称IEEE Conference on Computer Vision and Pattern Recognition，是计算机视觉领域三大顶会之一，并且是唯一一个年度学术会议。在快速更新迭代的计算机学科中，CVPR已然成为了计算机视觉领域的“顶流”。

本论文基于交互式的图像生成，提出基于全景布局（Panoptic Layout）辅助图像生成的方法，即PLGAN（Panoptic Layout Generation）算法，提高了交互场景下生成图像的质量及其稳定性。该论文在COCO-Stuff和VG两个公开数据集和自行收集的Landscape风景数据集上，进行了实验验证并取得了很好的效果。目前已经在华为Atlas系列服务器上实现了该算法，其配备了昇腾AI处理器提供算力支持，并借助异构计算架构CANN（Compute Architecture for Neural Networks）充分释放硬件澎湃算力，发挥极致AI性能。

论文链接：https://arxiv.org/abs/2203.02104

下面我们来看下对比交互式图像生成方法Grid2Im，本论文PLGAN算法的表现效果：LINK

大多数交互式图像生成方法，都采用生成图像布局（Layout）为中间结果，来辅助最终的图像合成（例如 Grid2Im [1]）。为了解决交互场景下图像生成质量稳定性问题，我们从图像布局（Layout）构建入手。通常的图像布局（Layout）有逐像素填充的语义图层（例如GauGAN），还有基于Bounding Box的实例图像布局（Instance Layout）。

语义图层在空间布局上逐像素对应生成的图像，可以很好的控制需要合成的图像，但其构建比较复杂，因此大多数多模态图像生成和交互场景采用实例图像布局（Instance Layout）。然而，实例图像布局（Instance Layout）本质上是采用由不同物体的位置方框（Bounding Box）和形状（Mask）组合而成的，不同物体的位置方框（Bounding Box）之间和形状边缘的不匹配，都会出现图像布局填不满的情况，在用户交互的场景下尤其明显，这使得以此为条件的条件生成模型，在最终生成图像中出现伪影和噪声，如图1所示。因此构建一个可以解决此“区域缺失”问题的图像布局（Layout），是我们所关注的重点。

针对上述问题，我们引入全景分割[3]的概念，提出了基于全景布局（Panoptic Layout）的图像合成方法。在全景分割问题中[3]，将物体类别分为了可数类（things）和不可数类（stuff），其中可数类（things）指有特定形状的前景类别，不可数类（stuff）指没有特定形状的背景类别。因此我们引入此概念，将通常的实例布局（Instance Layout）构建过程中分为Instance分支和Stuff分支分别处理可数类（things）和不可数类（stuff），如下图所示。

Instance分支采用通常的做法，先同时生成位置方框和形状，然后将其组合成实例布局（Instance Layout）。对于Stuff分支则使用全新的做法，直接生成填充布局（Stuff Layout），由于此结果是直接由模型通过Softmax层得到，其在整个图像空间上，不会有空缺部分，以此来解决“区域缺失”问题。因为对于不可数类别，其形状也不是固定的，这种整体生成的方式对于类别识别来说，不会带来很大的影响。分别生成的两个布局，可以通过ISA-Norm层来聚合到一起，形成最后的布局（Layout）。从布局（Layout）到最终的图像生成，我们采用SOTA模型CAL2I [2]方法，得到最终的合成图像。

在实验设计上，我们采用对公开数据集的标注信息做扰动的方式，模拟交互式场景下的输入，在指标和视觉对比上，都得到了SOTA（state of the art）水平，尤其在输入扰动的情况下，生成图像的质量更加稳定。

昇腾社区同步上新基于该论文的AI试玩应用，小伙伴们在给定的画布中，可以选择任意元素，大海、沙滩、天空，随心拼接拆合，然后通过华为Atlas 200DK推理，可实时生成独一无二的真实AI风景画，单击LINK快速访问。

特别福利：近期，我们也将邀请论文作者进行在线分享，欢迎关注“CANN训练营”活动，精彩不容错过！

参考文献：

[1] Oron Ashual and Lior Wolf. Specifying object attributes and relations in interactive scene generation. In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019.
[2] Sen He, Wentong Liao, Michael Yang, Yongxin Yang, Yi-Zhe Song, Bodo Rosenhahn, and Tao Xiang. Context-aware layout to image generation with enhanced object appearance. In CVPR, 2021.
[3] Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, and Piotr Doll´ar. Panoptic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9404–9413, 2019.

点击关注，第一时间了解华为云新鲜技术~

昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强！的更多相关文章

一键抠除路人甲，昇腾CANN带你识破神秘的“AI消除术”
摘要:都说人工智能改变了生活,你感觉到了么?AI的魔力就在你抠去路人甲的一瞬间来到了你身边.今天就跟大家聊聊--神秘的"AI消除术". 引语旅途归来,重温美好却被秀丽河山前的路人 ...
开发实践丨昇腾CANN的推理应用开发体验
摘要:这是关于一次 Ascend 在线实验的记录,主要内容是通过网络模型加载.推理.结果输出的部署全流程展示,从而快速熟悉并掌握 ACL(Ascend Computing Language)基本开发流 ...
全解┃OpenStack Newton发布，23家中国企业上榜(转载)
(转载自Openstack中文社区) 陈, 翔 2016-10-8 | 暂无评论美国奥斯汀时间10月6日(北京时间6日24点),OpenStack Newton版本正式发布,在可扩展性.可靠性和用户 ...
重磅榜单！互联网金融Top100总估值超1.1万亿，27家独角兽上榜！
时隔4个月,爱分析的“中国互联网金融企业估值排行榜”更新了! 在这4个月当中,我们调研了数十位企业创始人.专业投资人以及资深行业专家,尤其针对金服集团.消费金融.财富管理.征信等领域进行了深入研究.因 ...
2019年6月份Github上最热门的开源项目排行出炉，一起来看看本月上榜的开源项目
6月份Github上最热门的开源项目排行出炉,一起来看看本月上榜的开源项目有哪些: 1. the-art-of-command-line https://github.com/jlevy/the-ar ...
CB Insights,201608月174家独角兽榜单出炉，上榜的33家中国公司都是谁？
全球最新独角兽榜单出炉,上榜的33家中国公司都是谁? Monica 2016-09-15 近日,美国市场调研公司CB Insights发布了全球独角兽榜单(估值10亿美元以上),共有来自21个国 ...
Arctic Code Vault Contributor 上榜了 go-admin v1.1 beta 版本发布
Arctic Code Vault Contributor 上榜了,内心比较喜悦,谢谢开源社区的支持,也谢谢广大 coder 的支持: go-admin 是一个基于 Gin + Vue + Eleme ...
CVPR2020论文介绍： 3D 目标检测高效算法
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...
在Hadoop上运行基于RMM中文分词算法的MapReduce程序
原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词 ...

随机推荐

有手就行3——持续集成环境—maven、tomcat、安装和配置
有手就行3--持续集成环境-maven.tomcat.安装持续集成环境(5)-Maven安装和配置持续集成环境(6)-Tomcat安装和配置持续集成环境(5)-Maven安装和配置在Jenki ...
Kubernetes GitOps 工具
Kubernetes GitOps Tools 译自:Kubernetes GitOps Tools 本文很好地介绍了GitOps,并给出了当下比较热门的GitOps工具. 简介在本文中,将回顾一下 ...
make小tip
总所周知make一般需要Makefile才能编译相关源码,但也可以无需Makefile就能编译一些简单的源代码. 在算法竞赛里,一道题的源程序一般只有一个文件,此时用Makefile显得十分累赘,但如 ...
继承及属性查找+super()和mro()+多态
继承及属性查找+super()和mro()+多态一. ★继承 1. 什么是继承? 继承就是新建类的一种方式,新建的类我们称为子类或者叫派生类,被继承的类我们称为父类或者基类子类可以使用父类中的属性 ...
etcd受损节点重新加入集群
文章目录查看当前集群状态删除受损etcd节点的数据数据受损节点重新加入集群修改etcd启动参数,重启etcd 由于自己的误操作,将A节点的etcd备份数据复制到B节点的etcd备份节点目录下, ...
Python中特殊函数__str__()
在类中定义了__str__(self)方法,那么当使用print打印实例对象的时候,就会直接打印出在这个方法中return的数据. 案列: 1 class Book: 2 3 def __init__ ...
Kafka与ELK实现一个日志系统
1.概述客户端应用程序在运行过程中可能会产生错误,例如调用服务端接口超时.客户端处理业务逻辑发生异常.应用程序突然闪退等.这些异常信息都是会产生日志记录的,并通过上报到指定的日志服务器进行压缩存储. ...
华为模拟器在三层交换机上实现dhcp的配置
<Huawei>sysEnter system view, return user view with Ctrl+Z.[Huawei]sys sw1[sw1]dhcp enable Inf ...
目前数据可视化工具排名如何？好用的BI可视化软件
数据可视化用专业术语来就是通过视觉的方式向人类展示数据,这种在文本基础上的图表即简单又实用,而且相关性.趋势分析都非常明确,也非常可靠,通过图表一目了然.用通俗的话说就是画一张图表,将数据以比例的方式 ...
Hive常用函数大全-字符串函数
1.字符串长度函数:length(X)(返回字符串X的长度) select length('qwerty') from table --6 2.字符串反转函数:reverse(X)(返回字符串X反转的 ...

昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强！

昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强！的更多相关文章

随机推荐

热门专题