RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　ICLR 2016

　　本文主要内容是结合 RNN 和 attention model 用来做目标跟踪。

　　其中模型的组成主要是：

　　1. an attention model 主要用来从输入图像中提取 patch；

　　2. RNN 用来预测 attention 参数，即：下一帧应该 look 的问题。

　　Paper: http://xueshu.baidu.com/s?wd=RATM%3A+RECURRENT+ATTENTIVE+TRACKING+MODEL&rsv_bp=0&tn=SE_baiduxueshu_c1gjeupa&rsv_spt=3&ie=utf-8&f=8&rsv_sug2=1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&rsv_n=2

　　Code:https://github.com/wangxiao5791509/RATM

　　本文所使用的框架流程图如下所示：

　　1. Attention

　　本文提到， attention model 非常适合跟踪问题，因为他可以通过目标的历史轨迹来缩小 region-of-interst 的区域。

　　原本的 attention model 从输入图像中产生 glimpse（一瞥），是通过一个叫做 a grid of 2D Gaussian filters,顺序的执行一系列的 row filter 和 column filter。该 grid 拥有 4个参数，即：

　　the grid center $g_X, g_Y$，the isotropic standard deviation, and the stride between grid points.

　　对于在 attention patch中的行 i，列 j，平均距离 $\mu_X^i, \mu_Y^j$ 通过下式进行计算：

　　动态产生的参数作为一个向量 h 的线性转换：

　　然后对参数进行归一化：

　　其中 A 和 B 分别是输入图像的宽和高。

　　滤波器通过下面的公式计算得到提取的 patch，即：

　　在上式中， a 和 b 代表输入图像的列和行的索引。通过这两个公式就可以得到一个 N*N 的 patch p：

　　2. RNN

　　一个最简单的 RNN 包括一个输入，一个 hidden，一个输出层。在时间步骤 t，该网络，基于输入帧 $x_t$ 和之前的 hidden state $h_{t-1}$，计算新的 hidden state：

　　本文对 RNN 并未做过多介绍，因为创新点也不在于此，只是说是基于 Theano 框架做的实验。

　　3. Recurrent Attentive Tracking Model：

　　跟踪问题主要是将一系列的输入视频帧 $X = (x_1, x_2, ... , x_T)$ 映射成一系列的位置 $Y = (y_1, y_2, ... , y_T)$。那么在一个时刻 t 的位置预测 $y_t$，那么其轨迹通常具有非常高的相关内容信息，并且非常适合用一个隐层状态模型（a hidden state model）来对这个轨迹进行表示。所提出的 RNN 就是结合了 attention model 和 RNN 的优势，并且区别于普通的神经网络。

　　每一个时间步骤，RNN的 hidden state vector $h_t$ 通过公式2，3 映射成 window parameters。然后在下一个时刻，由 attention model 输出的image patch 作为 RNN 的输入。并非直接将原始图像输入给 RNN,而是用预先训练的 CNN model 提出其feature 传给 RNN。具体结构见下图：

　　实验：

　　本文实验做的并非经典跟踪算法所用的 benchmark，而是 Mnist video 和 Bouncing Balls。

　　说实话，我觉得这个挺扯得，这个也可以用于跟踪的实验？？？ Oh，My God 。。。

　　总体来讲，感觉就是两个模型的组合，并且实验做的并不充分，感觉只是一个示例。。。这要是放到 CVPR 或者 MultiMedia 能被喷死！

　　不过。。。

　　呵呵。。。

　　Mnist 数据集我们知道是一个手写体识别的数据集，我去作者将其转换为视频格式，自己造了一个跟踪视频，不知道是否有跟踪上的各种挑战，即：部分遮挡，阴影变化，以及复杂背景这些具有挑战性的因素估计都没有，额不喷了。。。浪费时间。。。。

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL的更多相关文章

论文笔记之： Recurrent Models of Visual Attention
Recurrent Models of Visual Attention Google DeepMind 模拟人类看东西的方式,我们并非将目光放在整张图像上,尽管有时候会从总体上对目标进行把握,但是也 ...
论文笔记之：Speed Up Tracking by Ignoring Features
Speed Up Tracking by Ignoring Features CVPR 2014 Abstract:本文提出一种特征选择的算法,来实现用最"精简"的特征以进行目标跟 ...
论文笔记：Fast Online Object Tracking and Segmentation: A Unifying Approach
Fast Online Object Tracking and Segmentation: A Unifying Approach CVPR-2019 2019-03-11 23:45:12 Pape ...
论文笔记：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇论文地主 ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
论文笔记： Dual Deep Network for Visual Tracking
论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
论文阅读：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning 2018-11-14 13:30:36 Paper: https://arxiv.org/abs/ ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...

随机推荐

PAT 06-3 单词长度
此题为简化版,题设为“以'.'结尾”.“单词与语言无关”.三种情况下的输入输出为 . -> 无输出 a b. ->1 1(无空格) a b . ->1 1(无空格) 程 ...
详解定位—>"position"
position是css中一个重要的属性,他规定元素的定位类型,默认值为static,他的值有5种,absolute,fixed,relative,static,inherit.接下来将详细具体对每一 ...
C++面向过程解决三阶行列式问题
#include<iostream> #include <cstdlib> using namespace std; int print() { cout<<&qu ...
我与python3擦肩而过（二）—— csv文件头哪去啦？
在看Python Data Visualization Cookbook 这本书(基于python2),开始时读取csv文件头的时候出现问题.查了资料,又是python3的问题,从这个链接找到答案. ...
20145210 《Java程序设计》第一周学习总结
教材学习内容总结第一章: 1.Java三大平台,JavaSE的四个组成部分 Java根据应用领域的不同,区分为Java SE.Java EE.Java ME三大平台. 各应用平台的基础:Java S ...
学习笔记：只有一套app设计稿（5s尺寸）切出4和4s尺寸以及安卓系统主流尺寸的图
如何在只有一套app设计稿(5s尺寸)切出4和4s尺寸以及安卓系统主流尺寸的图转自:http://www.zhihu.com/question/23255417 版权归原作者所有目前ios手机 ...
转：DateTime的灵活运用
//2008年4月24日 System.DateTime.Now.ToString("D"); //2008-4-24 System.DateTime.Now.ToString(& ...
I.MX6 mfgtool2-android-mx6q-sabresd-emmc.vbs hacking
/******************************************************************** * I.MX6 mfgtool2-android-mx6q- ...
csdn第三名
编号:1026时间:22016年7月18日11:10:35功能:csdn第三名URL :http://blog.csdn.net/phphot
《你不知道的JavaScript》第二部分：this 详解
第1章关于this this 是自动定义在所有函数的作用域中的关键字,用于引用合适的上下文对象. ☞ 为什么要使用 this ? this 提供了一种更优雅的方式来隐式"传递"一 ...

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

RATM: RECURRENT ATTENTIVE TRACKING MODEL

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL的更多相关文章

随机推荐

热门专题