论文阅读笔记（四）【TIP2017】：Video-Based Pedestrian Re-Identiﬁcation by Adaptive Spatio-Temporal Appearance Model

【论文阅读笔记（四）【TIP2017】：Video-Based Pedestrian Re-Identiﬁcation by Adaptive Spatio-Temporal Appearance Model】的更多相关文章

论文阅读笔记四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)

前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一般是从题目的开始依次排序选取首字母的,怕是孤陋寡闻了,全称是“ Detecting Text in Natural Image with Connectionist Text Proposal Network”,翻译过来是基于连接Proposal(直译太难受!!)网络的文本检测. 作者在论文中描述了…

论文阅读笔记四十九：ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)

论文原址:https://arxiv.org/abs/1810.08425 github:https://github.com/KimSoybean/ScratchDet 摘要当前较为流行的检测算法是在经典的大规模分类的数据集上进行微调,但这样做会存在两个问题: (1)分类任务与检测任务二者之间对位置的敏感性差异较大,进而造成了优化目标之间存在偏差. (2)目标检测的结构受制于分类模型,进而造成对模型修改上的不便. 为了应对上面的这两个问题,从头重新训练检测器是一种可行的方法.但这种方法又存在…

论文阅读笔记四十八：Bounding Box Regression with Uncertainty for Accurate Object Detection(CVPR2019)

论文原址:https://arxiv.org/pdf/1809.08545.pdf github:https://github.com/yihui-he/KL-Loss 摘要大规模的目标检测数据集在进行ground truth 框标记时仍存在这歧义,本文提出新的边界框的回归损失针对边界框的移动及位置方差进行学习,此方法在不增加计算量的基础上提高不同结构定位的准确性.而学习到的位置变化用于在进行NMS处理时合并两个相邻的边界框. 介绍在大规模目标检测数据集中,一些场景下框的标记是存在歧义的,十…

论文阅读笔记四十六：Feature Selective Anchor-Free Module for Single-Shot Object Detection（CVPR2019）

论文原址:https://arxiv.org/abs/1903.00621 摘要本文提出了基于无anchor机制的特征选择模块,是一个简单高效的单阶段组件,其可以结合特征金字塔嵌入到单阶段检测器中.FSAF解决了传统基于anchor机制的两个限制:(1)启发式的特征选择(2)overlap-based anchor采样.FSAF的通用解释是将在线特征选择应用于与anchor无关的分支的训练上.即无anchor的分支添加到特征金字塔的每一层,从而可以以任意层次对box进行编码解码.训练过程中,将…

论文阅读笔记四十四：RetinaNet:Focal Loss for Dense Object Detection(ICCV2017）

论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要目前,具有较高准确率的检测器基于双阶段的目标检测算法实现,单阶段通过对可能存在的位置进行密集的采样操作,一定程度上要比双阶段的方法要更简单快速,但是准确率会有所损失.在进行训练时,前景与背景二者之间较大的类别不平衡是产生上述问题的原因.针对上述问题,本文对常规的损失函数进行修改,降低易分类样本产生的损失的贡献度.本文…

论文阅读笔记四十三：DeeperLab: Single-Shot Image Parser（CVPR2019）

论文原址:https://arxiv.org/abs/1902.05093 github:https://github.com/lingtengqiu/Deeperlab-pytorch 摘要本文提出了一种bottoom-up,single-shot的全景图像分析方法.全景图像分析包含"stuff"形式(类别)的语义分割及“thing”形式(区别不同个体)的实例分割.目前,全景图像分析的经典方法是由语义分割任务及实例分割任务的独立的模块组成,同时其需要进行多次inference操作.…

论文阅读笔记四十七：Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression(CVPR2019)

论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要在目标检测的评测体系中,IoU是最流行的评价准则.然而,在对边界框的参数进行优化时,常用到距离损失,而按照IOU的标准则是取其最大值,二者之间是有一定差别的.对一个标准进行优化的目标函数是其标准本身.比如,对于2D的坐标对齐的边界框,可以直接使用IoU作为回归损失.然而,该方法存在一个弊端,就是当两个边界框不发生重叠时,Io…

论文阅读笔记四十五：Region Proposal by Guided Anchoring（CVPR2019）

论文原址:https://arxiv.org/abs/1901.03278 github:code will be available 摘要区域anchor是现阶段目标检测方法的重要基石.大多数好的目标检测算法都依赖于anchors机制,通过预定义好的尺寸及大小在空间位置上进行均匀的采样.本文提出了一个可替换的解决方案-Guided Anchoring,该方法利用语义特征对anchor进行引导.该方法预测感兴趣目标物的中心的同时预测不同位置处的长宽尺寸及比例大小.在得到anchor的形状之后,…

论文阅读笔记四十二：Going deeper with convolutions (Inception V1 CVPR2014 )

论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4) 摘要本文提出了一个深层的卷积网络结构-Inception,该结构的主要特点是提高了网络内部计算资源的利用率.在预估计算资源消耗量不变的情况下增加网络的深度及宽度.为了进行有效的优化,结构决策基于Hebbian原理及多尺寸处理操作.本文思想的一个经典实现是GoogLeNet,网络的深度为22层,该网…

论文阅读笔记四十一：Very Deep Convolutional Networks For Large-Scale Image Recongnition（VGG ICLR2015）

论文原址:https://arxiv.org/abs/1409.1556 代码原址:https://github.com/machrisaa/tensorflow-vgg 摘要本文主要分析卷积网络的深度对基于大数据集分类任务中准确率的影响,本文使用较小的卷积核(3x3), 应用至较深的网络中并进行评估,将网络中的深度增加至16至19层,可以有效改进分类效果. 介绍卷积网络在大规模图片/视频分类任务中取得巨大成功的原因主要有,(1)大规模的图像数据,像ImageNet(2)高性能的计算资源(G…