论文笔记：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

2019-04-02 12:44:36

Paper：https://arxiv.org/pdf/1812.11703.pdf

Project：https://lb1100.github.io/SiamRPN++

1. Background and Motivation:

与 CVPR 2019 的另一篇文章 Deeper and Wider Siamese Networks for Real-Time Visual Tracking 类似，这篇文章也是为了解决 Siamese Tracker 无法利用 Deep Backbone Network 的问题。作者的实验发现，较深的网络，如 ResNet, 无法带来跟踪精度提升的原因在于：the distroy of the strict translation invariance。因为目标可能出现在搜索区域的任何位置，所以学习的target template 的特征表达应该保持 spatial invariant，而作者发现，在众多网络中，仅仅 AlexNet 满足这种约束。本文中，作者提出一种 layer-wise feature aggravation structure 来进行 cross-correlation operation，帮助跟踪器从多个层次来预测相似形图。

此外，作者通过分析 Siamese Network 发现：the two network branches are highly imbalanced in terms of parameter number; 作者进一步提出 depth-wise separable correlation structure，这种结构不但可以大幅度的降低 target template branch 的参数个数，还可以稳定整个模型的训练。此外，另一个有趣的现象是：objects in the same categories have high response on the same channels while responses of the rest channels are supressed. 这种正交的属性可能有助于改善跟踪的效果。

2. Analysis on Siamese Networks for Tracking:

各种实验说明了 stride，padding 对深度网络的影响。

3. ResNet-driven Siamese Tracking :

为了降低上述影响因子对跟踪结果的影响，作者对原始的 ResNet 进行了修改。因为原始的残差网络 stride 为 32，这个参数对跟踪的影响非常之大。所以作者对最后两个 block 的有效 stride，从 32 和 16 改为 8，并且通过 dilated convolution 来增加 receptive field。利用 1*1 的卷积，将维度降为 256。但是这篇文章，并没有将 padding 的参数进行更改，所以 template feature map 的空间分辨率增加到 15，这就在进行 correlation 操作的时候，计算量较大，影响跟踪速度。所以，作者从中 crop 一块 7*7 regions 作为 template feature，每一个 feature cell 仍然可以捕获整个目标区域。作者发现仔细的调整 ResNet，是可以进一步提升效果的。通过将 ResNet extractor 的学习率设置为 RPN 网络的 1/10，得到的 feature 可以更加适合 tracking 任务。

4. Layer-wise Aggregation :

本文是想利用多层特征的聚合来提升特征表达，提升跟踪结果。作者从最后三个残差模块，得到对应的输出：F3(z), F4(z) 以及 F5(z)。由于多个 RPN 模块的输出，有相同的分辨率。所以，直接对这几个结果进行加权求和，可以表达为：

5. Depthwise Cross Correlation :

Cross correlation module 是映射两个分支信息的核心操作。SiamFC 利用 Cross-Correlation layer 来得到单个通道响应图进行位置定位。在 SiamRPN 中，Cross-Correlation 被拓展到更加高层的信息，例如 anchors，通过增加一个 huge convolutional layer 来 scale the channels (UP-Xcorr)。这个 heavy up-channel module 使得参数非常不平衡（RPN 模块包含 20M 参数，而特征提取部分仅包含 4M 参数），这就使得 SiamRPN 变的非常困难。于是作者提出一个轻量级的 cross correlation layer，称为：Depthwise Cross Correlation (DW-XCorr)，以得到更加有效的信息贯通。DW-XCorr layer 包含少于 10 倍的参数（相比于 UP-XCorr used in RPN），而性能却可以保持不降。

为了达到这个目标，作者采用一个 conv-bn block 来调整特征，来适应跟踪任务。Bounding box prediction 和基于 anchor 的分类都是非对称的 (asymmetrical)。为了编码这种不同，the template branch 和 search branch 传输两个 non-shared convolutional layers。然后，这两个 feature maps 是有相同个数的 channels，然后一个 channel 一个 channel 的进行 correlation operation。另一个 conv-bn-relu block，用于融合不同 channel 的输出。最终，最后一个卷积层，用于输出 classification 和 regression 的结果。

通过用 Depthwise correlation 替换掉 cross-correlation，我们可以很大程度上降低计算代价和内存使用。通过这种方式，template 和 search branch 的参数数量就会趋于平衡，导致训练过程更加稳定。

另一个有意思的现象是：the objects in the same category have high response on same channels, while response of the rest channels are supressed。也就是说，同一类的物体在同一个 channel 上，都有较高的响应，而其他的 channels 上则被抑制。如下图所示：

6. Experimental Results：

论文笔记：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks的更多相关文章

论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
论文笔记-IGCV3：Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks
论文笔记-IGCV3:Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks 2018年07月11日 14 ...
论文笔记之：Fully-Convolutional Siamese Networks for Object Tracking
gansh Fully-Convolutional Siamese Network for Object Tracking 摘要:任意目标的跟踪问题通常是根据一个物体的外观来构建表观模型．虽然也取得了 ...
论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL
RATM: RECURRENT ATTENTIVE TRACKING MODEL ICLR 2016 本文主要内容是结合 RNN 和 attention model 用来做目标跟踪. 其中模型的组成 ...
论文笔记：Integrated Object Detection and Tracking with Tracklet-Conditioned Detection
概要 JiFeng老师CVPR2019的另一篇大作,真正地把检测和跟踪做到了一起,之前的一篇大作FGFA首次构建了一个非常干净的视频目标检测框架,但是没有实现帧间box的关联,也就是说没有实现跟踪.而 ...
Visual Tracking with Fully Convolutional Networks
http://blog.csdn.net/carrierlxksuper/article/details/48918297 传统的跟踪方法依赖低维的人工特征,但这种特征对目标的外观变化等问题不够鲁棒. ...
论文笔记：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
2014 ICLR 纽约大学 LeCun团队 Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann ...
Summary on Visual Tracking: Paper List, Benchmarks and Top Groups
Summary on Visual Tracking: Paper List, Benchmarks and Top Groups 2018-07-26 10:32:15 This blog is c ...
论文笔记：Deeper and Wider Siamese Networks for Real-Time Visual Tracking
Deeper and Wider Siamese Networks for Real-Time Visual TrackingUpdated on 2019-04-01 16:10:37 Paper ...

随机推荐

2018-2019-2 20165336《网络对抗技术》Exp0 Kali安装 Week1
2018-2019-2 20165336<网络对抗技术>Exp0 Kali安装 Week1 一.选择官网kali linux系统的版本二.配置虚拟机根据安装教程(https://bl ...
LG2292 L语言
题意给出$n$个单词,再给出$m$段无符号的文章,询问每段文章能最长匹配的前缀. 思路设$f[i]$为前缀$[1,i]$能否被匹配,对于一个可以匹配完的节点$i$,若有\([i ...
awk 实战
awk 一些好玩的用法．有什么不错的点子可以留言,发挥出awk牛逼功能分离mac地址 ifconfig wlan0 | grep eth | awk '{n=split($2,arr,": ...
war 包tomcat部署和maven的tomcat插件部署的不同
不用插件 1在linux服务器上下载号tomcat 或者上传tomcat 2上传war包,最好创建一个目录房war包,和tomcat 3解压war包,jar -xvf war 或者unzip wa ...
AngularJS简单例子
双大括号标记{{}}绑定的表达式 <html ng-app> <script src="http://code.angularjs.org/angular-1.0.1.mi ...
log4cplus在Linux下编译及使用
log4cplus第一次在windows下使用的时候很快就完成了,最近在Linux下尝试使用时遇到了不少问题,主要原因是对Linux的编译连接不熟悉,以下就记录安装使用的过程,希望对需要的人有所帮助. ...
git merge后如何撤销
merge后发现冲突太多,或者合并的分支代码并不是最新,那就直接撤销再合并好了. git reset --hard HEAD 用来撤销还没commit 的merge,其实原理就是放弃index和工作区 ...
分享一段js，判断是否是在iPhone中的Safari浏览器打开的页面
头部引用jquery包将下面的一段js写在</body>的前面 <script type="text/javascript"> var ua = navi ...
vuex 状态管理
npm安装:cnpm install --save vuex 安装完:cnpm install main.js引入: import Vuex from 'vuex' Vue.use(Vuex);
Mybatis 元素内容必须由格式正确的字符数据或标记组成
一个web应用,框架为SpringMVC Spring Mybatis ,昨天写了一下午的代码,因为逻辑较大,期间也没测,打算写完这个功能点在进行测试,谁知道写完的时候,tomcat根本启动不起来了, ...

论文笔记：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

论文笔记：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks的更多相关文章

随机推荐

热门专题