Flow-Guided Feature Aggregation for Video Object Detection论文笔记

摘要

目前检测的准确率受物体视频中变化的影响，如运动模糊，镜头失焦等。现有工作是想要在框的级别上寻找时序信息，但这样的方法通常不能端到端训练。我们提出了flow-guided feature aggregation，一个用于视频物体检测的端到端学习框架。在特征级别上利用时序信息，通过相邻帧的运动路径提高每帧的特征，从而提高检测的准确率。

简介

特征提取网络提取出每帧的feature maps。为了enhance被处理帧的特征，用一个光流网络（flownet）预测相邻帧和该帧之间的motions。从邻近帧得到的feature maps 被光流 warped to the reference frame。The warped feature maps以及its own feature maps在一个自适应的加权网络中聚合。聚合后的feature maps are fed to 检测网络得到该帧最后的检测结果。其中，所有的特征提取模型都是trained end-to-end。

框架的主要思想如上图。最后一层为原图，可以发现第t帧经过光流处理的特征并不明显，而第t-10帧及t+10帧较明显，于是用motion-guided spatial warping预测帧之间的motion。得到warping后的feature maps,将这些特征融合。将融合后的feature map fed to detection network得到最后的检测结果。

由上文可知，框架需要两个主要模型，一是motion-guided spatial warping，另一个是feature融合。

框架介绍

1. flow-guided warping

对于相邻两帧，首先用flownet得到 a flow field（Mi->j = F（Ii,Ij））。之后warping得到的初始化feature maps，得到flow-guided warp（fj->i = W（fj, Mi->j））。

2. feature aggregation

如何求解融合的weights？首先在不同的空间位置用不同的weights，让所有的特征通道用相同的空间weights。得到的weights记作wj->i。每个位置的wj->i(p)都被normalized,即相邻2k+1帧该点的weights之和为1。

3. adaptive weight

adaptive weight表示相邻2K帧对当前帧影响的程度。if fj->i(p) is close to fi(p), 则将被分配一个较大的weight，相反。用余弦相似度来测量两者之间close的程度。

除此之外，不直接用融合得到的特征，而是用一个tiny fcn处理 fi 和 fj->i，用于计算embedding features。

4. 算法流程

上图对算法流程介绍的很详细，就不再一一解释了。

实验

光流用的flownet, feature network实验了resnet-50, resnet-101，tiny fcn只有三层，检测网络用的R-FCN。

论文中对不同运动速度及不同网络不同条件下的实验结果做了详细介绍。

福利：代码这个月已经在github上开源： https://github.com/msracver/Flow-Guided-Feature-Aggregation

Flow-Guided Feature Aggregation for Video Object Detection论文笔记的更多相关文章

video object detection
先说一下,我觉得近两年最好的工作吧.其他的,我就不介绍了,因为我懂得少. 微软的jifeng dai的工作. Deep Feature Flow github: https://github.co ...
【Network Architecture】Feature Pyramid Networks for Object Detection(FPN)论文解析（转）
目录 0. 前言 1. 博客一 2.. 博客二 0. 前言这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里 ...
论文笔记：AdaScale: Towards real-time video object detection using adaptive scalingAdaScale
AdaScale: Towards real-time video object detection using adaptive scaling 2019-02-18 16:14:17 Paper: ...
Parallel Feature Pyramid Network for Object Detection
Parallel Feature Pyramid Network for Object Detection ECCV2018 总结: 文章借鉴了SPP的思想并通过MSCA(multi-scale co ...
目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...
Feature Pyramid Networks for Object Detection比较FPN、UNet、Conv-Deconv
https://vitalab.github.io/deep-learning/2017/04/04/feature-pyramid-network.html Feature Pyramid Netw ...
论文笔记：Rich feature hierarchies for accurate object detection and semantic segmentation
在上计算机视觉这门课的时候,老师曾经留过一个作业:识别一张 A4 纸上的手写数字.按照传统的做法,这种手写体或者验证码识别的项目,都是按照定位+分割+识别的套路.但凡上网搜一下,就能找到一堆识别的教程 ...
『计算机视觉』FPN：feature pyramid networks for object detection
对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度.FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可 ...
目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report
目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Te ...

随机推荐

[javascript 实践篇]——那些你不知道的“奇淫巧技”
1. 空(null, undefined)验证刚开始,我是比较蠢的验证(我还真是这样子验证的) if (variable1 !== null || variable1 !== undefined | ...
php中curl的使用（一）
cURL 是一个利用URL语法规定来传输文件和数据的工具,PHP的curl是通过libcurl库与服务器使用各种类型的协议,如HTTP.FTP.TELNET等. PHP curl函数 curl_clo ...
AngularJS 和 Bootstrap
AngularJS Bootstrap AngularJS 的首选样式表是 Twitter Bootstrap, Twitter Bootstrap 是目前最受欢迎的前端框架. 查看 Bootstra ...
从源码的角度看Service是如何启动的
欢迎访问我的个人博客 ,原文链接:http://wensibo.top/2017/07/16/service/ ,未经允许不得转载! 七月中旬了,大家的实习有着落了吗?秋招又准备的怎么样了呢?我依旧在 ...
ArrayList和LinkedList源码
1 ArrayList 1.1 父类 java.lang.Object 继承者 java.util.AbstractCollection<E> 继承者 java.util.Abstract ...
Serv-u Mysql数据库用户
Serv-u 关联Mysql数据库用户需要用到ODBC数据源,windows不自带支持MySQL.所以要网上下载自己安装官网下载地址:http://dev.mysql.com/downloads/c ...
Unity编辑器重写Inspector面板，面板中编辑的数据不触发场景发生变化的问题。
今天开始协助主程一起制作新框架.主程让我写关于新版UI框架注册UI预制体用的快捷编辑器. 现学现写,总算完成了. 可以直接把选中的预制体添加到UIController的数组中,期间涉及到改变大小.所以 ...
【SpringMVC】静态资源访问的问题
在项目中经常会用到一些静态的资源,而一般我们在配置SpringMVC时会让SpringMVC接管所有的请求(包括静态资源的访问), 那么我们怎样才能最简单的来配置静态资源的访问呢? 一,在web.xm ...
cordova plugin汇总大全
1.获取当前应用的版本号 cordova plugin add cordova-plugin-app-version 2.获取网络连接信息 cordova plugin add cordova-plu ...
Struts2 动态调用方法
struts2动态调用方法有两种方式方式一:用通配符进行调用: Action方法: package com.bjyinfu.struts.actions; public class CatchDyn ...

Flow-Guided Feature Aggregation for Video Object Detection论文笔记

Flow-Guided Feature Aggregation for Video Object Detection论文笔记的更多相关文章

随机推荐

热门专题