本文出自谷歌与普林斯顿大学研究人员之手并发表于计算机视觉顶会ECCV2018。本文首次提出了应用于主动双目立体视觉的深度学习解决方案，并引入了一种新的重构误差，采用自监督的方法来解决缺少ground truth数据的问题，本文所提供的方法在许多方面表现出了最好的结果

Abstract

本文首次提出了第一个主动双目视觉系统的深度学习解决方案 ActiveStereoNet。由于缺乏 ground truth，本文采用了完全自监督的方法，即使如此，本方法也产生了 1/30 亚像素精度的深度数据。它克服了过度平滑的问题，保留了边缘，并且能有效处理遮挡。在本文中，引入了一种对噪声，无纹理区域和光照更加鲁棒的新的重建损失，它使用基于窗口的自适应支持权重的成本聚合来进行优化。这种成本聚合函数能够保留边缘并且使损失函数平滑，是使模型达到惊人结果的关键。最后，本文展示了如何在没有ground truth下对无效的区域，遮挡区域的预测进行end-to-end的训练。这部分对减少模糊和改善预测数据的连续性至关重要。

Introduction

深度传感器（Depth sensors）为许多难题提供了额外的3D信息，如非刚性重构（non-rigid reconstruction）、动作识别和参数跟踪，从而给计算机视觉带来了革新。虽然深度传感器技术有许多类型，但它们都有明显的局限性。例如，飞行时间系统（Time of flight systems）容易遭受运动伪影和多路径的干扰，结构光（structured light ）容易受到环境光照和多设备干扰。在没有纹理的区域，需要昂贵的全局优化技术，特别是在传统的非学习方法中，passive stereo很难实现。

主动双目立体视觉（Active stereo）提供了一种潜在的解决方案：使用一对红外立体相机，使用一个伪随机模式，通过图案化的红外光源对场景进行纹理化（如图1所示）。通过合理选择传感波长，相机对捕获主动照明和被动光线的组合，提高了结构光的质量，同时在室内和室外场景中提供了强大的解决方案。虽然这项技术几十年前就提出了，但直到最近才出现在商业产品中。因此，从主动双目立体图像中推断深度的先前工作相对较少，并且尚未获得大规模的ground truth训练数据。

在主动双目立体成像系统中必须解决几个问题。有些问题是所有的双目系统问题共有的，例如，必须避免匹配被遮挡的像素，这会导致过度平滑、边缘变厚和/或轮廓边缘附近出现飞行像素。但是，其他一些问题是主动双目系统特有的，例如，它必须处理非常高分辨率的图像来匹配投影仪产生的高频模式；它必须避免由于这些高频模式的其他排列而产生的许多局部最小值；而且它还必须补偿附近和远处表面投影图案之间的亮度差异。此外，它不能接受ground truth深度的大型主动双目数据集的监督，因为没有可用的数据。

在这篇论文中，我们第一个提出了针对主动立体视觉系统的端到端深度学习方案。首先，本文提出了一种基于局部对比度归一化（local contrast normalization）的新的重建损耗，其从被动IR图像中去除低频分量并且局部地重新校准有源图像的强度以解决有源立体视觉系统中能量随距离的衰落的问题。第二，我们提出了一种基于窗口的损耗聚合，其中每个像素具有自适应权重，以增加其可辨识性并降低立体对成本函数中局部最小值的影响。最后，我们检测图像中的遮挡像素，并从损失计算中忽略它们。这些新特性为训练期间的提高了收敛速度，并在测试时提高了预测的精度。大量实验表明，我们使用这些想法进行训练的网络优于以往有关主动立体匹配的研究。

Method

现在来介绍ActiveStereoNet的网络结构和主要训练过程。算法的输入是一对矫正过的同步采集的IR图像, 输出是一对同原始分辨率的视差图像。在本实验中采用1280*720的图像。相机的焦距和两个相机间的基线假设已知。因此，深度的预测问题转化为了同一扫描线上的视差问题。给定视差，则深度是Z=bf/d。因为缺乏ground truth数据，本算的主要挑战是在没有直接监督的情况下，训练一个对遮挡和光照变化鲁棒的端对端网络。下面是算法细节：

Network Architecture

现在，在大部分视觉任务中，网络结构的选择和设计是最重要的，需要花费大量的精力。但是在本文中，最重要的问题是训练一个给定的网络结构，特别是，因为是无监督的网络，设计一个好的损失函数对总体的精度影响最大。因此，在本文中采用了谷歌另一篇论文 StereoNet 的网络结构，这个结构在被动的双目视觉系统中有很好的表现。而且，该结构在高配GPU下能对全分辨图像做到60HZ, 能达到实时性的要求。

---------------------
作者：古安
来源：CSDN
原文：https://blog.csdn.net/goodanchor/article/details/81557631
版权声明：本文为博主原创文章，转载请附上博文链接！

论文阅读《ActiveStereoNet:End-to-End Self-Supervised Learning for Active Stereo Systems》的更多相关文章

《Deep Learning of Graph Matching》论文阅读
1. 论文概述论文首次将深度学习同图匹配(Graph matching)结合,设计了end-to-end网络去学习图匹配过程. 1.1 网络学习的目标(输出) 是两个图(Graph)之间的相似度矩阵 ...
Deep Learning of Graph Matching 阅读笔记
Deep Learning of Graph Matching 阅读笔记 CVPR2018的一篇文章,主要提出了一种利用深度神经网络实现端到端图匹配(Graph Matching)的方法. 该篇文章理 ...
Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
Deep Learning 33：读论文“Densely Connected Convolutional Networks”-------DenseNet 简单理解
一.读前说明 1.论文"Densely Connected Convolutional Networks"是现在为止效果最好的CNN架构,比Resnet还好,有必要学习一下它为什么 ...
Deep Learning 26：读论文“Maxout Networks”——ICML 2013
论文Maxout Networks实际上非常简单,只是发现一种新的激活函数(叫maxout)而已,跟relu有点类似,relu使用的max(x,0)是对每个通道的特征图的每一个单元执行的与0比较最大化 ...
Discriminative Learning of Deep Convolutional Feature Point Descriptors 论文阅读笔记
介绍该文提出一种基于深度学习的特征描述方法,并且对尺度变化.图像旋转.透射变换.非刚性变形.光照变化等具有很好的鲁棒性.该算法的整体思想并不复杂,使用孪生网络从图块中提取特征信息(得到一个128维的 ...
Sequence to Sequence Learning with Neural Networks论文阅读
论文下载作者(三位Google大佬)一开始提出DNN的缺点,DNN不能用于将序列映射到序列.此论文以机器翻译为例,核心模型是长短期记忆神经网络(LSTM),首先通过一个多层的LSTM将输入的语言序列 ...
Deep Learning 24：读论文“Batch-normalized Maxout Network in Network”——mnist错误率为0.24%
读本篇论文“Batch-normalized Maxout Network in Network”的原因在它的mnist错误率为0.24%,世界排名第4.并且代码是用matlab写的,本人还没装caf ...
Deep Learning 25：读论文“Network in Network”——ICLR 2014
论文Network in network (ICLR 2014)是对传统CNN的改进,传统的CNN就交替的卷积层和池化层的叠加,其中卷积层就是把上一层的输出与卷积核(即滤波器)卷积,是线性变换,然后再 ...
Deep Learning 28：读论文“Multi Column Deep Neural Network for Traffic Sign Classification”-------MCDNN 简单理解
读这篇论文“ Multi Column Deep Neural Network for Traffic Sign Classification”是为了更加理解,论文“Multi-column Deep ...

随机推荐

【AIM Tech Round 5 (rated, Div. 1 + Div. 2) B】Unnatural Conditions
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 让a+b的和为100000000...0这样的形式就好了这样s(a+b)=1<=m就肯定成立了(m>=1) 然后至于s ...
MYSQL数据的安装、配置
linux安装mysql服务分两种安装方法: 1.源码安装,优点是安装包比较小,只有十多M,缺点是安装依赖的库多,安装编译时间长,安装步骤复杂容易出错. 2.使用官方编译好的二进制文件安装,优点是安装 ...
POI 海量数据
http://blog.csdn.net/Little_Stars/article/details/8266262
BA-siemens-ppm模块在ALN层通信
PPM作为新的扩展模块,有MS/TP通讯的能力,但是在常规设置的时候必须设置在PXC Modular下面,PPM上线也必须在PXC Modular上中超级终端设置,偶然通过一个项目实现了PPM挂载在A ...
双向链表的实现与操作(C语言实现)
双向链表也叫双链表,是链表的一种,它的每一个数据结点中都有两个指针,分别指向直接后继和直接前驱.所以,从双向链表中的随意一个结点開始,都能够非常方便地訪问它的前驱结点和后继结点. 单链表的局限 1.单 ...
Ubuntu16.04编译cmake源码
编译版本:cmake-3.8.0-rc2 为了能够编译出ccmake和cmake-gui,首先需要安装libncurses5-dev sudo apt install libncurses5-dev ...
[GraphQL] Mutations and Input Types
Sometimes, you want to resues object type when doing mutation, you can use 'input' type to help: inp ...
[Tailwind] Apply mobile-first Responsive Classes in Tailwind
In this lesson, we take a look at tailwind's mobile-first CSS architecture and learn how to apply st ...
折腾开源WRT的AC无线路由之路-5
-在Mac上设置无password连接SSH 1. 生成SSH密钥对 <pre name="code" class="html">ssh-keyge ...
Android——隐藏输入法的小技巧
今天偶然在百度地图提供的DEMO里看到这样一段代码.认为确实是个小技巧,就写下来分享一下. 针对的问题: 我们在开发android界面的时候,常常使用EditText控件.然后每次进入这个页面的时候, ...