Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

AHU-WangXiao 2024-10-27 10:46:58 原文

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

arXiv

　　摘要：本文提出了一种 DRL 算法进行单目标跟踪，算是单目标跟踪中比较早的应用强化学习算法的一个工作。

　在基于深度学习的方法中，想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的。

　尽管最近的 CNN based tracker 也取得了不错的效果，但是，其性能局限于：

　　1. Learning robust tracking features ；

　　2. maximizing long-term tracking performance ---->>> without taking coherency and correlation into account.

　　

　　本文的创新点在于：

　　1. 提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示以及多帧图像之间的时序上的表示；

　　　得到的特征可以更好的捕获 temporal information，并且可以直接应用到跟踪问题上；

　　2. 我们的框架是端到端的进行训练的 deep RL algorithm，模型的目标是最大化跟踪性能；

　　3. 模型完全是 off-line的；

　　

　　

　　Tracking Framework ：

　　

　　

　　本文提出的 Deep RL 算法框架，由三个部分构成：

　　1 CNN 特征提取部分；

　　2 RNN 历史信息构建部分；

　　3 DEEP RL 模块

　　前两个部分没什么要说的，就是简单的 CNN, LSTM 结构。

　　第三个 RL 部分：

　　说到底，这个文章是在之前 attention model based Tracker ICLR 2016 年的一个文章基础上做的。

　　RL 部分就是没有变换，直接挪过来的。

　　状态，是跟踪视频的 frame ；

　　动作，是多变量高斯分布得到的 predicted location；

　　奖励，是 scalar reward signal, 定义为：$r_t = -avg(l_t - g_t) - max(l_t - g_t)$ ，lt 是RL单元的输出，gt 是时刻 t 的 gt ；

　　　　　avg() 是给定矩阵的 mean value； max() 是计算给定元素的最大值。

　　

　　训练的目标是最大化奖励信号 R。

　　

　　学习的目标函数为：

　　

　　其中，p(z1:T; W) 是可能交互的分布，参数化为 W （the distribution over possible interactions parameterized by W）.

　　

　　上述函数涉及到 an expectation over high-dimensional interactions，以传统的监督方法来解决是非常困难的。

　　利用 RL 领域中的 REINFORCE algorithm 进行近似求解。

　　

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记的更多相关文章

Online Object Tracking: A Benchmark 论文笔记（转）
转自:http://blog.csdn.net/lanbing510/article/details/40411877 有博主翻译了这篇论文:http://blog.csdn.net/roamer_n ...
Online Object Tracking: A Benchmark 论文笔记
Factors that affect the performance of a tracing algorithm 1 Illumination variation 2 Occlusion 3 Ba ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
论文笔记之：Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning
Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop Paper : https://a ...
getting started with building a ROS simulation platform for Deep Reinforcement Learning
Apparently, this ongoing work is to make a preparation for futural research on Deep Reinforcement Le ...
Paper Reading 1 - Playing Atari with Deep Reinforcement Learning
来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识深度学习特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...
(zhuan) Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. Th ...

随机推荐

Problem(莫比乌斯反演）
我不是传送门题意 : 中文题目不解释求gcd(x,y) = k (a<=x<=b, c<=y<=d); 根据gcd(ka,kb) = k*gcd(a,b), 可将问题转化为 ...
【转】LoadRunner--Analysis各项指标详解
转载:https://blog.csdn.net/liangfengchang/article/details/45070321 一.常用到的性能测试术语1.事务(Transaction) 在web性 ...
解释器模式 Interpreter
代码例子参考 1.解释器模式定义给定一个语言,定义它的文法的一种表示,并定义一个解释器,这个解释器使用该表示来解释语言中的句子. 说明:解释器模式设计到文法规则和抽象语法树. 2.解释器模式的结构 ...
Java WEB 笔记
1. 部署并启动 tomcat 服务器 1). 解压 apache-tomcat-version 到一个非中文目录下 2). 配置一个环境变量,JAVA_HOME(指向 JDK 安装目录)或 JRE_ ...
python实现堆栈和队列
利用python列表实现堆栈和队列堆栈: 堆栈是一个后进先出的数据结构,其工作方式就像生活中常见到的直梯,先进去的人肯定是最后出. 我们可以设置一个类,用列表来存放栈中的元素的信息,利用列表的app ...
python 查询文本文件的层次
I/O系统有一系列的层次构建而成下面是操作一个文本文件的例子来查看这种层次 >>> f = open('sample.txt','w') >>> f <_i ...
linux 系统监控和进程管理
1.命令top,查看cpu和内存使用,主要进程列表和占用资源. 2.内存使用命令foree -g 3.查询所有java进程:pgrep -l java ------ps aux|grep .j ...
一个Java系统测试
实验感受: 本次实验最大的感受,就是不要改代码,自己写,代码改起来真的没完没了,不知道会出现什么问题.还有就是一定要清楚自己要怎么去写,流程很重要,一个个功能去实现. 主界面数据库主页面代码 &l ...
关于JSONObject和JSONArray所需要的jar
jakarta commons-lang 2.5 jakarta commons-beanutils 1.8.0 jakarta commons-collections 3.2.1 jakarta c ...
solr 使用指定数据源
1,将solr 解压,我们观察发现它其实即可以是web服务也可以做数据分析数据库 2,我们在example目录下新建一个hai的文件夹,用于存放数据参考solr 目录,将solr.xml 复制一份 ...