论文阅读笔记十二：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation（DeepLabv3+）(CVPR2018)

【论文阅读笔记十二：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation（DeepLabv3+）(CVPR2018)】的更多相关文章

论文阅读笔记十二：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation（DeepLabv3+）(CVPR2018)

论文链接:https://arxiv.org/abs/1802.02611 tensorflow 官方实现: https: //github.com/tensorflow/models/tree/master/research/deeplab 实验代码:https://github.com/fourmi1995/IronSegExperiment-Deeplabv3_PLUS.git 摘要分割任务中常见的结构有空间池化模型与编码-解码结构,前者主要通过不同的卷积和不同rate的池化操作和感受野…

论文阅读笔记十四：Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation（CVPR2015）

论文链接:https://arxiv.org/abs/1506.04924 摘要该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类任务分离,并为每个任务单独学习一个分离的网络.分类网络识别与图片相关的标签,然后在每个识别的标签中进行二进制的分割.Decoupled网络可以基于图像级别标签学习分类网络,基于像素级别标签学习分割网络.该网络通过桥链接层获得类别明确的激活maps来减少分割的搜索空间.该文在少量训练数据的条件下仍优于…

论文阅读笔记（二十一）【CVPR2017】：Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identiﬁcation

Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失缺乏对label信息的考虑(???). (2)Contribution: 提出一个新的端到端网络框架,称为 CNN and RNN Fusion(CRF),结合了Siamese.Softmax 联合损失函数.分别对全身和身体局部进行模型训练,获得更有区分度的特征表示. Method (1)框架: (…

论文阅读笔记十九：PIXEL DECONVOLUTIONAL NETWORKS(CVPR2017)

论文源址:https://arxiv.org/abs/1705.06820 tensorflow(github): https://github.com/HongyangGao/PixelDCN 基于PixelDCL分割实验:https://github.com/fourmi1995/IronsegExperiment-PixelDCL 摘要反卷积被广泛用于深度学习的上采样过程中,包括语义分割的编码-解码网络与无监督学习的深度生成网络.反卷积的一个缺点是生成的特征图类似于棋盘状,相邻元素之间的…

论文阅读笔记十六：DeconvNet:Learning Deconvolution Network for Semantic Segmentation(ICCV2015)

论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-DeconvNet-Segmentation 基于DenconvNet的钢铁分割实验:https://github.com/fourmi1995/IronSegExperiment-DeconvNet 摘要通过学习一个反卷积网络来实现分割算法, 本文卷积部分基于改进的VGG-16,反卷积网络部分由反卷积层和…

论文阅读笔记十五：Pyramid Scene Parsing Network（CVPR2016）

论文源址:https://arxiv.org/pdf/1612.01105.pdf tensorflow代码:https://github.com/hellochick/PSPNet-tensorflow 基于PSPNet101的钢铁分割实验:https://github.com/fourmi1995/IronSegExperiment-PSPNet 摘要对于不非特殊条件的场景解析仍十分困难.该文利用金字塔池化模型,融合了图像中不同区域的上下文信息. 介绍分割可以预测完全理解场景,预测标签,…

论文阅读笔记（二十二）【CVPR2017】：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identiﬁcation

Introduction 在视频序列中,有些帧由于被严重遮挡,需要被尽可能的“忽略”掉,因此本文提出了时间注意力模型(temporal attention model,TAM),注重于更有相关性的帧. 常规的矩阵学习通常用特征的距离来进行计算,但忽视了帧之间的差异,上图可以看出,本文的方法考虑了相邻帧的空间差异,即空间循环模型(spatial recurrent model,SRM). The proposed method (1)总体框架: 输入的视频序列为:,输入为视频序列三元组,首先通过C…

论文阅读笔记（二十）【AAAI2019】：Spatial and Temporal Mutual Promotion for Video-Based Person Re-Identiﬁcation

Introduction (1)Motivation: 作者考虑到空间上的噪声可以通过时间信息进行弥补,其原因为:不同帧的相同区域可能是相似信息,当一帧的某个区域存在噪声或者缺失,可以用其它帧的相同区域进行弥补. (2)Contribution: ① 不直接使用帧提取的特征信息,而是提出一个改进循环单元(refining recurrent unit,RRU),来修复缺失或噪声: ② 介绍一种时空线索集成模块(spatial-temporal clues integration module,S…

论文阅读笔记十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016)

论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要在移动端上进行实时的像素级分割十分重要.基于分割的深度神经网络中存在大量的浮点运算而且需要经过较长的时间才可以进行投入使用.该文提出的ENet目的是减少潜在的计算.ENet相比现存的分割网络,速度快18倍,参数量要少79倍,同时分割得到的准确率不有所损失,甚至有所提高. 介绍目前,增强现实可…

【学习笔记】Vins-Mono论文阅读笔记（二）

估计器初始化简述单目紧耦合VIO是一个高度非线性的系统,需要在一开始就进行准确的初始化估计.通过将IMU预积分与纯视觉结构进行松耦合对齐,我们得到了必要的初始值. 理解:这里初始化是指通过之前imu预积分得到的数值和视觉结构得到的数值进行对齐整理,综合运算得到的是我们的初始值. 具体流程如下: 检查最新帧和之前所有帧之间的特征对应关系:如果能在滑动窗口中找到稳定的特征跟踪(超过30个被跟踪特征)和足够的视差(超过20个旋转补偿像素),就使用五点法恢复这两帧之间的相对运动:如果没有稳定的特征跟踪…