Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记

原文再续，书接一上回。话说上一次我们讲到了Correlation Filter类 tracker的老祖宗MOSSE，那么接下来就让我们看看如何对其进一步地优化改良。这次要谈的论文是我们国内Zhang Kaihua团队在ECCV 2014上发表的STC tracker：Fast Visual Tracking via Dense Spatio-Temporal Context Learning。相信做跟踪的人对他们团队应该是比较熟悉的了，如Compressive Tracking就是他们的杰作之一。今天要讲的这篇论文的Matlab源代码已经放出了，链接如下：

http://www4.comp.polyu.edu.hk/~cslzhang/STC/STC.htm

首先来看看他们的跟踪算法示意图：

看到更新方式，快速傅里叶变换什么的是不是很眼熟？没错，这篇论文其实与MOSSE方法基本是一致的，那么其创新点在哪了？笔者觉得，其创新点在于点，一是以密集时空环境上下文Dense Spatio-Temporal Context作为卖点；二是以概率论的方式包装了CF类方法;三是在模板更新的时候把尺度变换也考虑了进去。

那么什么是密集的时空上下文呢？其最朴素的思想可以用下面这个图来表达：在跟踪的过程中，由于目标外观变换以及遮挡等原因的影响，仅仅跟踪目标本身的话比较困难，但如果把目标周围区域也考虑进去（空间上下文），那么能够在一定程度降低跟踪失败的风险。以图中的例子来说，就是假如仅仅考虑目标本身（黄色框），那么在发生遮挡的时候，就难以实现跟踪，但是如果把周围的像素也考虑进去（红色框），那么就可以借助周围环境来确定目标所在。这是一帧的情况，假如考虑多帧情况的话，就对应产生了时空上下文。那么dense的说法从何而来？这一点我们后面再解释。

主要思想已经有了，下面我们来看如何用概率论进行理论支持。假设$\mathbf{x}\in {{\mathbb{R}}^{2}}$为某一位置，$o$为需要跟踪的目标，首先定义如下的confident map用来衡量目标在$\mathbf{x}$出现的可能性：

然后定义${{X}^{c}}=\{\operatorname{c}(\mathbf{z})=(I(\mathbf{z}),\mathbf{z})|\mathbf{z}\in {{\Omega }_{c}}({{\mathbf{x}}^{\bigstar }})\}$ 为上下文特征集合，其中${{\mathbf{x}}^{\bigstar }}$代表目标位置，${{\Omega }_{c}}({{\mathbf{x}}^{\bigstar }})$表示在${{\mathbf{x}}^{\bigstar }}$点处两倍于跟踪目标大小的邻域，$I(\mathbf{z})$为$\mathbf{z}$点的图像灰度值。这一公式的意思其实就是把${{\mathbf{x}}^{\bigstar }}$作为中心点，取其周围两倍于目标框大小的图像作为特征，如上图的红色框。然后我们利用全概率公式，以上下文特征为中间量把(1)展开：

式(2)分为两项，左项$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$代表给定目标和其上下文特征，目标出现在$\mathbf{x}$点的概率，右项$P(\operatorname{c}(\mathbf{z})|o)$则是某一上下文特征属于目标的概率，也就是目标的上下文概率先验了。右项的作用在于选择与目标外观相似的上下文，左项的作用在于在选择外观相似的同时也考虑出现在某一位置是否合理，避免跟踪过程中的漂移现象。

然后，因为在第一帧的时候，目标的位置是已知的，那么这时候就可以构造一个confident map，使其满足距离目标越近可能性越高的性质。作者定义confident map的具体值为如公式(3)所示：

其中$b,\alpha ,\beta $都是经验常数。回想下上一篇我们讲的MOSSE方法，其实$m(\mathbf{x})$就是我们讲的响应输出，只不过MOSSE直接用一个高斯形状，而这里用的是如(3)式的定义。另外，之前谈到本篇论文标题中有一“dense”字样，体现在哪呢？就体现在这个地方，对于目标附近每一个点，都可以用(3)式对其概率值进行定义。传统的跟踪方法可能是随机采样或者隔段采样，而这里因为每一个点都进行了概率值的定义所以就是dense了。但其实目前所有的CF类方法都是dense sampling，而且这一个概念的明确提出应该是出现在后面会讲的CSK方法之中，只不过本篇作者将其改头换面成dense spatio temporal learning了。OK，闲话少说，接下来我们继续求解$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$和$P(\operatorname{c}(\mathbf{z})|o)$。

先看$P(\operatorname{c}(\mathbf{z})|o)$，是目标的上下文先验，定义为如下所示：

其就是目标框附近的图像灰度值的高斯加权和（换成其它特征也可以，后面另有一篇论文会谈到）。然后$P(\operatorname{c}(\mathbf{z})|o)$有了，$m(\mathbf{x})$有了，就可以带入(2)求解$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$了，套路还是跟MOSSE一样，首先将$m(\mathbf{x})$表示为$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$和$P(\operatorname{c}(\mathbf{z})|o)$的卷积(互相关)，通过FFT转到频率域变为点乘运算，运算完后逆变换回空间域，找响应最大值的地方作为目标位置。具体就是，设$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)={{h}^{sc}}(\mathbf{x}-\mathbf{z})$，得

文中作者还强调了${{h}^{sc}}(\mathbf{x}-\mathbf{z})$是目标的位置与其环境上下文之间相对距离和方向的衡量，并且不是对称函数。

另外，根据卷积$f\otimes g$的定义：

所以(5)式其实就是一卷积（$\mathbf{x}$就是$t$或$m$，$\mathbf{z}$就是$\tau $或$n$），根据卷积定理：

与MOSSE不同的是，STC在训练模板、即计算${{h}^{sc}}(\mathbf{x}-\mathbf{z})$时只需考虑第一帧。而在跟踪过程中，${{h}^{sc}}(\mathbf{x}-\mathbf{z})$的更新方式如同MOSSE，这里不再叙述。另外论文中还给出了目标框大小更新的方法，其基本思路可以这样理解：看到公式(5)$m(\mathbf{x})=\sum\nolimits_{\mathbf{z}\in {{\Omega }_{c}}({{\mathbf{x}}^{\bigstar }})}{{{h}^{sc}}(\mathbf{x}-\mathbf{z})I(\mathbf{z}){{\omega }_{\sigma }}(\mathbf{z}-{{\mathbf{x}}^{\bigstar }})}$ ，其中${{\omega }_{\sigma }}(\mathbf{z}-{{\mathbf{x}}^{\bigstar }})$不就是高斯形状的权重嘛，稍微不恰当的说，就是用个圆圈把目标包住嘛，圈内的权重高，圈外的相反，那么假如目标的size变大了，我们就把这个圈的范围扩大就好了，而扩大或者缩小就靠调整$\sigma $的值就ok了。具体推导过程如下：

假设从$t$到$t+1$帧，目标的大小乘以了一个$s$倍，也即相当于坐标系的刻度乘以了$s$倍，为方便起见，我们设$(u,v)=(sx,sy)$，然后，不失一般性的，假设目标在第$t$帧的坐标为(0,0)，则有

由${{\omega }_{\sigma }}(x,y)=\alpha {{e}^{-\frac{{{x}^{2}}+{{y}^{2}}}{{{\sigma }^{2}}}}},{{\omega }_{\sigma }}(x/s,y/s)=\alpha {{e}^{-\frac{{{x}^{2}}+{{y}^{2}}}{{{(s\sigma )}^{2}}}}}$ 有${{\omega }_{\sigma }}(x/s,y/s)={{\omega }_{s\sigma }}(x,y)$，所以(8)式继续推导为：

然后，从$t$变到$t+1$帧，我们把变化后的坐标对应起来，因此有$h_{t}^{sc}(u/s,v/s)\approx h_{t+1}^{sc}(u,v)$和${{I}_{t}}(u/s,v/s)\approx {{I}_{t+1}}(u,v)$，所以式(9)继续变为

假设从$t$到$t+1$帧是缩小的，因此跟缩放示意图一样，我们将(10)的积分看成两部分组合成的：一是红框部分($t+1$帧的上下文框大小)，二是蓝框($t$帧的上下文框大小)减去红框的部分，用公式表达就是：

又因为$\omega $的高斯形状的关系，上式右项那一部分的权值都很小，因此整个右项都可视为0，同时将$s{{\sigma }_{t}}$视为${{\sigma }_{t+1}}$，所以上式的左项就近似成了${{c}_{t+1}}(0,0)$：

因此就有

剩下的就是一些技巧了，比如用滑动窗口取$s$的平均之类的，具体可以看作者的原文。这篇文章大概就到这里了。总结一下，其中比较吸引笔者的其中的概率论支撑和后面的窗口大小的变化部分，至于环境上下文部分的话，换用其它特征应该可以作进一步扩展以提高算法的鲁棒性。作者主页上有源代码，有兴趣的可以下载来跑跑看，运行时留意下像woman这类视频吧~

Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记的更多相关文章

Correlation Filter in Visual Tracking系列一：Visual Object Tracking using Adaptive Correlation Filters 论文笔记
Visual Object Tracking using Adaptive Correlation Filters 一文发表于2010的CVPR上,是笔者所知的第一篇将correlation filt ...
Correlation Filter in Visual Tracking
涉及两篇论文:Visual Object Tracking using Adaptive Correlation Filters 和Fast Visual Tracking via Dense Spa ...
论文笔记：Attentional Correlation Filter Network for Adaptive Visual Tracking
Attentional Correlation Filter Network for Adaptive Visual Tracking CVPR2017 摘要:本文提出一种新的带有注意机制的跟踪框架, ...
《Visual C++ 2010入门教程》系列二：安装、配置和首次使用VS2010
作者:董波日期:2010.6.15 写在前面在我还在上学的时候,我选择了C++,最初我用VC6作为我的IDE,我看过很多本C++的教材,有的适合我,有的不适合我,其中有一本叫<Visual ...
论文笔记之： Hierarchical Convolutional Features for Visual Tracking
Hierarchical Convolutional Features for Visual Tracking ICCV 2015 摘要:跟卢湖川的那个文章一样,本文也是利用深度学习各个 layer ...
Web 前端开发精华文章推荐（HTML5、CSS3、jQuery）【系列二十二】
<Web 前端开发精华文章推荐>2014年第一期(总第二十二期)和大家见面了.梦想天空博客关注前端开发技术,分享各类能够提升网站用户体验的优秀 jQuery 插件,展示前沿的 HTML ...
[知识库分享系列] 二、.NET（ASP.NET）
最近时间又有了新的想法,当我用新的眼光在整理一些很老的知识库时,发现很多东西都已经过时,或者是很基础很零碎的知识点.如果分享出去大家不看倒好,更担心的是会误人子弟,但为了保证此系列的完整,还是选择分享 ...
Wireshark入门与进阶系列(二)
摘自http://blog.csdn.net/howeverpf/article/details/40743705 Wireshark入门与进阶系列(二) “君子生非异也,善假于物也”---荀子本文 ...
VSTO之旅系列(二)：创建Excel解决方案
原文:VSTO之旅系列(二):创建Excel解决方案本专题概要引言创建VSTO项目 Excel对象模型创建Excel外接程序创建Excel文档级自定义项小结一.引言也许很多朋友都没有听 ...

随机推荐

banner秒杀
永远显示未开始/进行中(需要用到两个for循环,第一个我没有想到,诗詹帮我写的) function timeList(){ myTime = new Date().getTime() var ite ...
Android 开发平台的演变史
Android开发平台的发展(并不是很懂) Eclipse 首先是由IBM的一个项目小组花了两年时间开发完成的,当时主要解决IBM开发工具 Visual Age for Java 和 WebSpher ...
ios基础篇（十四）——UITableView（二）属性及基本用法
上一篇说了UITableView的重用机制,让我们对UITableView有了简单了解,下面说说UITableView的属性及常见方法. 一.属性 1.frame:设置控件的尺寸和大小 2.backg ...
IntelliJ UI安装
Windows Store App 变形特效
在应用程序的开发过程中,为了让界面按照期望的效果显示,有时会对界面元素应用变形特效,例如图片的缩放.旋转.移动等.与3D特效不同,在界面元素实现变形特效之后,其平行关系不会发生改变,只不过是位置.大小 ...
完美实现跨域Iframe高度自适应【Iframe跨域高度自适应解决方案】
Iframe的强大功能偶就不多说了,它不但被开发人员经常运用,而且黑客们也常常使用它,总之用过的人知道它的强大之处,但是Iframe有个致命的“BUG”就是iframe的高度无法自动适应,这一点让很多 ...
eval解析非标准json
以前一直在用,但是不知道原理,惭愧啊,今天把自己想法加上. eval("{a:1}"); eval("{a:,b:1}"); 第一眼的感觉是都会得到一个对象,其 ...
ssh传输文件
在linux下一般用scp这个命令来通过ssh传输文件. 1.从服务器上下载文件scp username@servername:/path/filename /var/www/local_dir(本地 ...
terminator终端工具
terminator是个很好的终端程序,在Ubuntu Linux下安装如下: sudo apt-get install terminator 可在同一屏打开多个窗口:
前后数据交互(ajax) -- 初始化页面表格
// 初始化员工信息列表 function loadpage ( pageNum ) { var keywords = $("#keywords").val(); $(" ...

Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记

Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记的更多相关文章

随机推荐

热门专题