论文阅读之:Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space
Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space
2018-01-04 15:58:15
写在前面:为什么要看这个paper?这篇 paper 貌似是第一个将 meta-learning 应用到 visual tracking 领域的,取得了速度和精度较好的平衡。
Introduction:
我们知道,tracking 中比较重要的就是 target object 特征的学习 以及 物体外观的变化。很多算法都针对这两点一直进行改进,而最近 NN 对特征的表达提供了很好的解决,但是,物体外观的变化,仍然不能很好的处理,很多都是 用跟踪的结果弄一个 target object 的集合,然后适时的进行更新。但是,这种策略是不可避免的,分类器通常都会 overfitting,然后丢失了 the generalization capabilities due to the insufficient training of samples.
本文基于以上背景和动机,提出了一种 end to end visual tracking network structure,主要包括了两个部分:
一个是:Siamese matching network for target search,
另一个是:meta-learning network for adaptive feature space.
这里我们主要关注的是这个 meta-learning network,我们提出的一个 参数预测网络(parameter prediction network),当然这里是借鉴了最新的 meta-learning 用于 few-shot learning problem.
The proposed meta-learner network is trained to provide the matching network with additional convolutional kernels so that the feature space of the matching network can be modified adaptively to adopt new appearance templates obtained in the course of tracking. The meta-learner network only sees the gradients from the last layer of the matching network, given new training samples for the appearance.
We also employ a novel training scheme for the meta-learner network to maintain the generalization capability of the feature space by preventing the meta-learner network from generating new parameters that causes overfitting of the matching network. By incorporating our metalearner network, the target-specific feature space can be constructed instantly with a single forward pass without any iterative computation and optimization and free-from the innate overfitting. Fig.1 illustrates the motivation of proposed visual tracking algorithm.
Tracking with Meta-Learner :
1. Overview of Proposed Method
1.1. Compoent
本文所涉及到的网络结构有两个部分构成:the matching network and meta-learning network.
Siamese Matching Network 用来计算两个 image patch 之间的相应图(the response map):
这部分特征提取 CNN是 fully convolutional network,损失函数就是计算:预测的响应图 和 groundtruth Response map 的差异。
Meta-learning Network:这个网络提供的是 the matching network with target-specific weights given an image patch of the target with context patches z = {z1, ..., zM}.
为了调整 weights 超向 target patch,我们利用 损失函数的平均负梯度 $\delta$ 来更新 matching network 的最后一层:
The meta-learning network 的设计是基于一个假设:the characteristic of $\delta$ is empirically different according to a target. 这句话是什么意思 ?
然后,这里将 $\delta$ 作为输入,the meta-learning network $g_{\theta}(*)$ 对应输入的 target-specific weights $w^{weights}$:
其中,$\theta$ 是 the meta-learning network 的参数。这个新的 weights 被用来更新 matching network's 原始权重:
其中, 连接了 $w^{target}$ to $w_{N}$ of last layer for feature extraction. 本文方法的流程图,如图2所示。
Experiment:
论文阅读之:Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space的更多相关文章
- 【论文阅读】Deep Mutual Learning
文章:Deep Mutual Learning 出自CVPR2017(18年最佳学生论文) 文章链接:https://arxiv.org/abs/1706.00384 代码链接:https://git ...
- 读论文系列:Deep transfer learning person re-identification
读论文系列:Deep transfer learning person re-identification arxiv 2016 by Mengyue Geng, Yaowei Wang, Tao X ...
- 论文笔记:Learning Attribute-Specific Representations for Visual Tracking
Learning Attribute-Specific Representations for Visual Tracking AAAI-2019 Paper:http://faculty.ucmer ...
- 论文解读《Deep Resdual Learning for Image Recognition》
总的来说这篇论文提出了ResNet架构,让训练非常深的神经网络(NN)成为了可能. 什么是残差? "残差在数理统计中是指实际观察值与估计值(拟合值)之间的差."如果回归模型正确的话 ...
- 论文笔记:Deep Residual Learning
之前提到,深度神经网络在训练中容易遇到梯度消失/爆炸的问题,这个问题产生的根源详见之前的读书笔记.在 Batch Normalization 中,我们将输入数据由激活函数的收敛区调整到梯度较大的区域, ...
- 【文献阅读】Deep Residual Learning for Image Recognition--CVPR--2016
最近准备用Resnet来解决问题,于是重读Resnet的paper <Deep Residual Learning for Image Recognition>, 这是何恺明在2016-C ...
- 【论文阅读】Deep Clustering for Unsupervised Learning of Visual Features
文章:Deep Clustering for Unsupervised Learning of Visual Features 作者:Mathilde Caron, Piotr Bojanowski, ...
- 论文阅读:Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning 2018-11-14 13:30:36 Paper: https://arxiv.org/abs/ ...
- 【论文阅读】Deep Mixture of Diverse Experts for Large-Scale Visual Recognition
导读: 本文为论文<Deep Mixture of Diverse Experts for Large-Scale Visual Recognition>的阅读总结.目的是做大规模图像分类 ...
随机推荐
- sitecore系列教程之Sitecore个性化-体验概况概述
SITECORE 8:体验概况概述 什么是体验简介? 体验配置文件是Sitecore中的仪表板应用程序,它说明了客户体验和交互的关键区域,例如访问者详细信息,访问,活动,目标,配置文件,自动化等等. ...
- arc 092C 2D Plane 2N Points
题意: 有n个红色的点和n个蓝色的点,如果红色的点的横坐标和纵坐标分别比蓝色的点的横坐标和纵坐标小,那么这两个点就可以成为一对友好的点. 问最多可以形成多少对友好的点. 思路: 裸的二分图匹配,对于满 ...
- Linux服务器下jdk 安装与环境变量的配置
1,Oracle 官网下载jdk Linux版本 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-213 ...
- python SQLite说一点点, python使用数据库需要注意的几点
SQLite是一种嵌入式数据库,它的数据库就是一个文件.由于SQLite本身是C写的,而且体积很小,所以,经常被集成到各种应用程序中,甚至在iOS和Android的App中都可以集成. Python就 ...
- python递归练习:生成一个n级深度的字典,例如:[1,2,3,4,5,6] 可以生成{1: {2: {3: {4: {6: 5}}}}},写一个函数定义n级
结果#encoding = utf-8#题目:#生成一个n级深度的字典,例如:[1,2,3,4,5,6] 可以生成{1: {2: {3: {4: {6: 5}}}}},写一个函数定义n级a=[1,2, ...
- python迭代器以及生成器
迭代器iter():节省内存 Iter()迭代器 每一次输出下一个值 >>> a=iter(range(10)) >>> a.next() 0 >>&g ...
- Django框架----权限管理(设计分析以及具体细节)
说起权限我们大家都知道,不一样的角色会有不一样的权限.比如就像学生管理系统一样,管理员,老师,学生之间的权限都是不一样的,那么展示的页面也是不一样的.所以,我们现在来看看具体操作. 目标:生成一个独立 ...
- a标签(普通标签如span)没有disabled属性 ,怎样利用js实现该属性
a标签以及其她普通标签没有disabled属性,要想实现类似input框属性disabled可以通过css样式设置pointer-events的值来设定: <!DOCTYPE html> ...
- 巧用ELK快速实现网站流量监控可视化
前言 本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果. 业务规模 8个平台 100+台服务器 10+个集群分组 微服务600+ 用 ...
- linux下的route命令
语法: route [-CFvnee] route [add|del] [-net|-host] [网络或主机] netmask [gw|dev] route [-V] [--version] [ ...