Introduction

在视频序列中,有些帧由于被严重遮挡,需要被尽可能的“忽略”掉,因此本文提出了时间注意力模型(temporal attention model,TAM),注重于更有相关性的帧。

常规的矩阵学习通常用特征的距离来进行计算,但忽视了帧之间的差异,上图可以看出,本文的方法考虑了相邻帧的空间差异,即空间循环模型(spatial recurrent model,SRM)。

The proposed method

(1)总体框架:

输入的视频序列为:,输入为视频序列三元组,首先通过CNN提取每帧的特征,选择的CNN为CaffeNet,包含5个卷积层(conv1~conv5)、2个全连接层(fc6~fc7),得到的输出为:

时间注意力模型包含两部分:学习每帧相关性的子网络和时间RNN模型提取特征,最后输出特征为:,定义为:

同时,对于视频对 xi 和 xj,计算(第5个卷积层后的池化层),并将其输入到空间循环模型,该部分包含6个RNN,每个RNN都从一个特定的方向提取特征。输出的结果为一对视频是否为同一个人的可能性,即

在测试中,最终两个视频的相似度可以计算为:(为什么这样计算?M的计算方法?)

其中 F 为欧式距离,λ 为平衡特征学习和矩阵学习的参数,默认为 1.

(2)针对特征学习的时间注意力模型(TAM):

输入CNN提取的特征,每次时间单元 t 都对帧都进行平均加权,即:

其中,参数 w 通过训练如下子网络获得:

得到的送入RNN,其中的RNN网络采用 Long Short-Term Memory(LSTM)网络。最后将 T 次结果进行时间平均池化。

(3)针对度量学习的空间循环模型(SRM):

输入一对视频序列的池化层特征,元素间进行相减操作,得到初步的差异映射,再通过1*1卷积。随后通过6个方向上的空间RNN模块,将得到的特征进行结合,再通过1*1卷积层和全连接层得到最终的特征。

其中RNN的工作原理为:

1*1卷积的原理为:

Experiments

(1)实验设置:

① 数据集:iLIDS-VID、PRID2011、MARS;

② 实现细节:CNN采用CaffeNet,RNN采用LSTM,视频序列长度设置为6,从tracklet中随机挑选,fc6和fc7的维度设置为1024.

(2)实验结果:

CNN:只使用CNN;

CNN+RNN:只使用CNN和RNN(不使用时间池化);

CNN+TAM:使用CNN和RNN基础上的时间池化;

CNN+DIFF:使用CNN,并用全连接层代替空间RNN;

CNN+SRM:使用CNN,并使用空间RNN:

ALL:CNN、时间RNN、空间RNN。

论文阅读笔记(二十二)【CVPR2017】:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification的更多相关文章

  1. 论文阅读笔记(十二)【CVPR2018】:Exploit the Unknown Gradually: One-Shot Video-Based Person Re-Identification by Stepwise Learning

    Introduction (1)Motivation: 大量标记数据成本过高,采用半监督的方式只标注一部分的行人,且采用单样本学习,每个行人只标注一个数据. (2)Method: 对没有标记的数据生成 ...

  2. 论文阅读笔记五十二:CornerNet-Lite: Efficient Keypoint Based Object Detection(CVPR2019)

    论文原址:https://arxiv.org/pdf/1904.08900.pdf github:https://github.com/princeton-vl/CornerNet-Lite 摘要 基 ...

  3. 论文阅读笔记四十二:Going deeper with convolutions (Inception V1 CVPR2014 )

    论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4)   ...

  4. 论文阅读笔记三十二:YOLOv3: An Incremental Improvement

    论文源址:https://pjreddie.com/media/files/papers/YOLOv3.pdf 代码:https://github.com/qqwweee/keras-yolo3 摘要 ...

  5. 论文阅读笔记六十二:RePr: Improved Training of Convolutional Filters(CVPR2019)

    论文原址:https://arxiv.org/abs/1811.07275 摘要 一个训练好的网络模型由于其模型捕捉的特征中存在大量的重叠,可以在不过多的降低其性能的条件下进行压缩剪枝.一些skip/ ...

  6. 论文阅读笔记三十六:Mask R-CNN(CVPR2017)

    论文源址:https://arxiv.org/pdf/1703.06870.pdf 开源代码:https://github.com/matterport/Mask_RCNN 摘要 Mask R-CNN ...

  7. 论文阅读笔记三十四:DSSD: Deconvolutiona lSingle Shot Detector(CVPR2017)

    论文源址:https://arxiv.org/abs/1701.06659 开源代码:https://github.com/MTCloudVision/mxnet-dssd 摘要 DSSD主要是向目标 ...

  8. 论文阅读笔记五十:CornerNet: Detecting Objects as Paired Keypoints(ECCV2018)

    论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要 本文提出了目 ...

  9. 论文阅读笔记四十四:RetinaNet:Focal Loss for Dense Object Detection(ICCV2017)

    论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要 目前,具有较高准确 ...

随机推荐

  1. 了解EBP指针

    在寄存器里面有很多寄存器虽然他们的功能和使用没有任何的区别,但是在长期的编程和使用中,在程序员习惯中已经默认的给每个寄存器赋上了特殊的含义,比如:EAX一般用来做返回值,ECX用于记数等等.在win3 ...

  2. oracle面试基础

    . 对于一个存在系统性能的系统,说出你的诊断处理思路 ). 做statspack收集系统相关信息 了解系统大致情况/确定是否存在参数设置不合适的地方/查看top event/查看top sql等 ). ...

  3. Go语言实现:【剑指offer】树的子结构

    该题目来源于牛客网<剑指offer>专题. 输入两棵二叉树A,B,判断B是不是A的子结构.(ps:我们约定空树不是任意一个树的子结构) Go语言实现: type TreeNode stru ...

  4. 一起了解 .Net Foundation 项目 No.2

    .Net 基金会中包含有很多优秀的项目,今天就和笔者一起了解一下其中的一些优秀作品吧. 中文介绍 中文介绍内容翻译自英文介绍,主要采用意译.如与原文存在出入,请以原文为准. ASP.NET MVC, ...

  5. Kafka中数据的流向

    1: 多个消费者消费同一个Topic数据相同的数据 2: 多个消费者消费同一个Topic数据不同数据 3: 各个消费者按组协调消费 1: 多个消费者消费同一个Topic数据相同的数据 (1)使用一个全 ...

  6. 2Nginx+keepalive+2tomcat 故障转移

    根据真实生产环境 总结. 硬件:共计2台Linux服务器  76和77  每台服务器都安装 Nginx  Keepalive  Tomcat80作为虚拟ip,负责对外连接.   78和79是两台mys ...

  7. 【全集】大数据Java基础

    课程介绍 本课程是由猎豹移动大数据架构师,根据Java在公司大数据开发中的实际应用,精心设计和打磨的大数据必备Java课程.通过本课程的学习大数据新手能够少走弯路,以较短的时间系统掌握大数据开发必备语 ...

  8. webpack性能优化

    Webpack优化打包速度以及性能优化 1.跟上技术的迭代(Node.Npm.Yarn) 2.在尽可能少的模块上应用loader 3.Plugin尽可能精简并确保可靠 4.resolve参数合理配置 ...

  9. 珠峰-babel

    #### babel 翻译的require为了给node使用么.浏览器可以使用么.#### amd, cmd的规范.和实现原理.#### babel的三个核心包,什么使用使用.#### babel的几 ...

  10. asp.net MVC项目开发之统计图的使用(前言)

    接触这个项目,是项目组长已经完成了多数需求,并且有2个项目需要完工的情况下,让我加入,给了我2个表格,让我去设计出统计图.      第一次做统计图,可以说没有任何经验,不知道该如何下手,表格的数据量 ...