大型图像数据聚类匹配:ICCV2019论文解析

Jointly Aligning Millions of Images with Deep Penalised Reconstruction Congealing

论文链接:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Annunziata_Jointly_Aligning_Millions_of_Images_With_Deep_Penalised_Reconstruction_Congealing_ICCV_2019_paper.pdf

摘要

从大量错位图像中以完全无监督的方式外推细粒度像素级对应关系,可以解决多个计算机视觉和图形问题,例如共分割、超分辨率、图像编辑传播、运动结构和三维重建。为了解决这一问题,人们提出了几种联合图像对齐和凝结技术,但对初始化的鲁棒性、扩展到大数据集的能力和对齐精度似乎妨碍了它们的广泛应用。为了克服这些局限性,我们提出了一种无监督的联合对准方法,该方法利用一个密集融合的空间变压器网络来估计每幅图像的翘曲参数,并使用一个低容量的自动编码器作为联合对准的辅助测量。对多版本MNIST(原始、扰动、affinist和in-MNIST)的数字和LFW的人脸的实验结果表明,我们的方法能够对数百万张图像进行高精度对齐,并对不同的扰动水平和类型具有鲁棒性。此外,定性和定量结果表明,该方法在对准质量和初始化鲁棒性方面都优于现有方法。

1.       Introduction

本文的主要贡献是:

(i)一种能够同时处理100万个数据点的大规模联合对准问题的凝聚方法;

(ii)一种新的可微凝聚公式问题,它结合了先前提出的基于相似度和秩的方法的优点,并且可以很容易地通过端到端的随机梯度下降(SGD)进行优化;

(iii)在几个基准数据集上对所提出的方法和最新方法进行了广泛的实验评估,包括不同分辨率的数字和表面,评估联合对准性能和对不同大小和类型的线性和非线性几何扰动的鲁棒性。

2.       Methodology

我们采用最新的密集融合空间变换网络(DeSTNet)[3]作为模块学习,并将全局变换集(p)应用于图像堆栈。图2显示了所提出的大规模凝结方法。batch1中的每个输入图像首先由DeSTNet与参考Ij对齐,并且由基于相似度的损失D计算的对齐误差直接反向传播以更新DeSTNet的参数以实现与参考的更好对齐。一旦一批图像被对齐,它就进入惩罚自动编码器:由C计算的重建误差用于更新(i)自动编码器,即在对齐质量奇偶性下改进重建,以及(ii)进一步更新DeSTNet,即通过在自动编码器容量的奇偶校验处更好地对齐来改进重建。重要的是,我们的方法不需要梯度调整,因为总损耗的梯度(公式(8))涉及到可学习参数通过链式规则隐式无缝地分布到每个模块(自动编码器和对齐)。

3.       Experiments

我们广泛评估了所提出方法的性能,并将其与最新方法[35,15,32]在对准质量、可扩展性和MNIST上的噪声鲁棒性[24]和一些变体方面进行了比较。为了量化性能,我们采用对齐峰值信噪比。

然后,我们研究了损耗的每个单独项(D和C)对对准质量的影响,以及它们如何相互作用以在组合时达到改进的性能水平。为了将所提出的方法与深度凝固(DC)[16]2进行比较,并评估在更具挑战性的数据集上采用所提出方法的可能性,我们对框架进行了缩放,并使用它在不同的初始化下联合对齐LFW的多个子集[18]。

为了评估所提方法和基线的可伸缩性,我们首先创建多个MNIST子集,如下所示。对于{0,1,2,3,4,5,6,7,8,9}中的每个数字,我们从原始MNIST数据集中随机抽取{100020003000400050006000}个图像并分别对齐。对于所提出的方法,我们采用扩展率kF=32的DeSTNet-4[3]作为对准器,并使用表1中定义的惩罚重建自动编码器,其中我们在每一层后使用tanh非线性,除了使用sigmoid的编码器的最后一层外,将z的每个分量保持在0,1。

我们将λ=1设为同时使用基于相似性和复杂性的损失,γ=1和k=1。我们使用基于Adam的标准SGD优化程序(学习率为10-5),端到端优化整个架构。在[35,15,23]之后,我们通过计算对齐前后整个数据集的平均值和方差,定性地评估所提方法和基线的对齐结果。为了评估可伸缩性,我们测量RASL、t-GRASTA的相对处理时间,以及在对齐越来越多的图像时提出的方法。

由于硬件上的差异(基线使用的cpu,所提出的方法使用的gpu),我们将处理时间关于标准化为对齐1000个图像所需的时间,以提供公平的比较。如图3所示,对于数字“3”3的情况,所提出的方法比基线的尺度更好。此外,如图4所示,在最具挑战性的情况下,即具有6000个图像的数据集,更清晰的平均值和更低的方差图像(因此更高的APSNR)表明所提出的方法也实现了更好的对齐。

我们评估了每种方法对基于随机透视扭曲的合成失真的鲁棒性。具体来说,假设每个MNIST图像是s×s像素(s=28),每个图像的四个角用高斯噪声

独立随机缩放,然后用相同的噪声模型随机平移。我们评估了三个扰动水平下的对准质量,即

。为此,我们将此扰动模型应用于每6000个图像数据集,并在图4中报告结果的子集。我们观察到,尽管RASL和tGRASTA似乎能很好地处理10%的扰动,但在20%时对准性能会显著下降,在最具挑战性的30%时,它们往往会失败。另一方面,该方法在所有数字和显著噪声下对该扰动模型具有很强的鲁棒性。

如等式(8)所述,所提议的凝结方法利用了基于相似性和复杂性的损失(即,分别在等式(5)和等式(7)中的D和C)。为了弄清每一项对最终结果的贡献,我们评估了当两个损失中的一个被排除在优化之外时的联合对准性能。6(b)和(c)分别示出了不包括D和c时的对准结果,而在图6(D)中示出了使用两者时产生的对准结果。我们观察到,一般来说,排除D对最终对准结果的影响更大;此外,在计算D时使用参考图像使优化更加稳健,因为它隐式地避免了仅使用C时通常观察到的收缩效应。

后者是因为,在自动编码器的重建能力的奇偶性下,当要重建的对象显示出较少的空间可变性并且因此可以更好地重建4时,获得较低的复杂度度量(见等式(7))。我们观察到,(i)仅基于D的损失加上C,有助于进一步重新确定校准结果并实现更低的方差(见数字“6”和“9”);(ii)重要的是,C倾向于推动整体优化朝着有利于更(空间上)均匀校准的解决方案发展,如数字“3”所示;在从这个意义上讲,基于复杂性的损失可以解释为一个正则化。

到目前为止,所提出的方法已经显示出对全局af-fine/透视摄动和每个数字多达100000个样本的联合对准问题的鲁棒性。在这里,我们评估了在非线性(局部)变形(例如票务)和平移下的对齐性能,并解决了列表[28]5中采样的每个数字1000000个图像的联合对齐问题。注意,我们使用上述相同的参数设置来评估在更具挑战性的关节对准问题中提出的方法的稳健性和推广性。如图8所示,尽管随机平移比affinst中使用的平移相对较小,但非线性扰动增加了更高级别的类内可变性。然而,该方法在这种尺度和这种扰动下实现了显著的关节对准。

为了适应输入图像大小的差异,并考虑到更复杂的基于MNIST的任务数据集,如表1所示,我们对校准器和编码器-解码器块进行了缩放。在图9中,我们将所提出的方法与RASL[35]、PSSV[32]和深度凝固[16]进行了定性和定量的比较,可在http://vis-www.cs.umass.edu/lfw/上获得用Viola-Jones面部探测器初始化的联合对准结果。为了公平比较,我们对建议的方法和基线采用相同的初始化。我们观察到,总的来说,所提出的方法优于RASL、PSSV和深度凝固,在APSNR方面,这是由所有受试者更清晰的平均图像定性地证实的。此外,与RASL和PSSV不同,所提出的方法不受放大/缩小效应的影响,使得优化集中在感兴趣区域的较小/较大部分。这可以归因于D中参考图像的使用。

尽管近年来在人脸检测方面取得了重要进展[7,46,48,42],但在实际应用中,一定程度的不准确是不可避免的。因此,评估该方法对粗初始化的稳健性是很重要的。为此,我们将Viola-Jones人脸检测器返回的初始包围盒的宽度和高度分别增加了15%和30%,并在图10中报告关节对齐结果。我们观察到,当初始化不接近对象时,RASL(图10(b,e))和PSSV(图10(c,f))的性能都显著下降,这是由平均APSNR的急剧下降和平均对齐面模糊所证实的。相反,所提出的方法对初始化具有很强的鲁棒性:如图10(d,g)所示,我们的平均对齐面是干净和清晰的,这表明即使在30%大的包围盒中,对齐的程度也是显著的。

根据[35,15]中采用的协议,我们通过计算三个地标(眼睛外角和鼻尖)位置的平均误差,进一步量化对准性能,计算为估计位置到中心的距离,通过眼睛到眼睛的距离进行标准化。我们将我们的对齐性能与RASL(最佳基于秩的基线)和DC(深度学习方法)进行比较。我们对给定主题中每个标准化的性能进行平均,并在表2中报告它们。

基于上述考虑,当采用原始初始化时,所提出的方法在所有受试者中获得的误差最小。此外,在15%的粗初始化RASL开始显示出对一些主题的困难,在30%的性能下降显着。相反,所提出的方法显示出更强的鲁棒性跨学科和初始化。

4.       Conclusions

图像对齐是计算机视觉的一个重要研究领域。然而,以往提出的方法大多集中在识别一对图像之间的像素级对应关系上。相反,过多的其他任务,如共同分割、图像编辑传播和运动结构,将从在一组图像之间建立像素级的对应关系中受益匪浅。先前已经提出了几种凝聚或联合对齐方法;然而,对大型数据集的可伸缩性以及对初始化和类内可变性的有限鲁棒性似乎妨碍了它们的广泛应用。为了解决这些局限性,我们提出了一种新的凝聚方法,并证明它能够同时处理大规模的联合对准问题,即多达一百万个数据点。这是通过对凝结问题的一种新的可微公式实现的,该公式结合了相似性和基于秩的凝结方法的优点,可以很容易地使用标准SGD进行端到端的优化。在不同分辨率的数字和人脸等多个基准数据集上的大量实验结果表明,所提出的凝聚框架在可扩展性、对齐质量以及对不同量级和类型的线性和非线性几何扰动的鲁棒性等方面都优于现有方法。

大型图像数据聚类匹配:ICCV2019论文解析的更多相关文章

  1. 深度学习数据特征提取:ICCV2019论文解析

    深度学习数据特征提取:ICCV2019论文解析 Goal-Driven Sequential Data Abstraction 论文链接: http://openaccess.thecvf.com/c ...

  2. 结构感知图像修复:ICCV2019论文解析

    结构感知图像修复:ICCV2019论文解析 StructureFlow: Image Inpainting via Structure-aware Appearance Flow 论文链接: http ...

  3. 细粒度语义分割:ICCV2019论文解析

    细粒度语义分割:ICCV2019论文解析 Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved L ...

  4. 无监督域对抗算法:ICCV2019论文解析

    无监督域对抗算法:ICCV2019论文解析 Drop to Adapt: Learning Discriminative Features for Unsupervised Domain Adapta ...

  5. 摄像头定位:ICCV2019论文解析

    摄像头定位:ICCV2019论文解析 SANet: Scene Agnostic Network for Camera Localization 论文链接: http://openaccess.the ...

  6. 目标形体形状轮廓重建:ICCV2019论文解析

    目标形体形状轮廓重建:ICCV2019论文解析 Shape Reconstruction using Differentiable Projections and Deep Priors 论文链接: ...

  7. 深度学习白平衡(Color Constancy,AWB):ICCV2019论文解析

    深度学习白平衡(Color Constancy,AWB):ICCV2019论文解析 What Else Can Fool Deep Learning? Addressing Color Constan ...

  8. 人脸标记检测:ICCV2019论文解析

    人脸标记检测:ICCV2019论文解析 Learning Robust Facial Landmark Detection via Hierarchical Structured Ensemble 论 ...

  9. 对抗性鲁棒性与模型压缩:ICCV2019论文解析

    对抗性鲁棒性与模型压缩:ICCV2019论文解析 Adversarial Robustness vs. Model Compression, or Both? 论文链接: http://openacc ...

随机推荐

  1. Spring Security极简入门三部曲(上篇)

    目录 Spring Security极简入门三部曲(上篇) 写在前面 为什么要用Spring Security 数据库设计 demo时刻 核心代码讲解 小结 Spring Security极简入门三部 ...

  2. 网络基础概念(IP、MAC、网关、子网掩码)

    目录 IP地址 MAC地址 网关 子网掩码 反子网掩码 子网掩码 子网划分一: 子网划分二: 子网汇聚 广播域 冲突域 CSMA/CD IP地址 ip地址是用于标识网络中每台设备的标识.目前 IPV4 ...

  3. 易酷CMS2.5本地文件包含漏洞复现

    易酷CMS是一款影片播放CMS.该CMS2.5版本存在本地文件包含漏洞.我们可以利用这个漏洞,让其包含日志文件,然后再利用报错信息将一句话木马写入日志中.然后利用文件包含漏洞包含该日志文件,再用菜刀连 ...

  4. POJ3422简单费用流

    题意:      给一个n*n的矩阵,从左上角走到右下角,的最大收益,可以走k次,每个格子的价值只能取一次,但是可以走多次. 思路:       比较简单的一个费用流题目,直接拆点,拆开的点之间连接两 ...

  5. postman使用教程7-参数化引用外部文件测试数据

    前言 当同一个接口需要测试不同的参数时,需用到参数化的概念.postman支持从外部文件读取测试数据参数化 设置参数化变量 新建一个collections 专门测试登录接口 设置集合变量usernam ...

  6. Raspberry PI 4B 安装和配置 Raspbian

    做记录,以备之后需要,待完成中 目录 做记录,以备之后需要,待完成中 下载镜像和安装程序 ssh 远程访问 下载镜像和安装程序 Raspbian: installer: ssh 远程访问 开启ssh ...

  7. 如何将代码托管到Github

    Github是最火热的源代码管理平台,你可以通过这个平台,将代码托管起来,防止代码丢失,或者将自己的代码展示给世界. 首先要下载Git,请自行在各大应用平台下载. 下载完成后,在你的菜单上下文中就会出 ...

  8. JMeter关联陌生又熟悉

    JMeter关联是什么 JMeter关联,这几个字看着可能会有点陌生,实际上却是工作中经常会做的一件事情,尤其是接口自动化,它指的是把一个接口的响应作为另一个接口的参数,从而把接口关联起来. JMet ...

  9. SpringBoot系列——事件发布与监听

    前言 日常开发中,我们经常会碰到这样的业务场景:用户注册,注册成功后需要发送邮箱.短信提示用户,通常我们都是这样写: /** * 用户注册 */ @GetMapping("/userRegi ...

  10. 简单对比vue2.x与vue3.x响应式及新功能

    简单对比vue2.x与vue3.x响应式 对响应方式来讲:Vue3.x 将使用Proxy ,取代Vue2.x 版本的 Object.defineProperty. 为何要将Object.defineP ...