论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID
Introduction
(1)Motivation:
当前的一些video-based reid方法在特征提取、损失函数方面不统一,无法客观比较效果。本文作者将特征提取和损失函数固定,对当前较新的4种行人重识别模型进行比较。
(2)Contribution:
① 对四种ReId方法(temporal pooling, temporal attention, RNN and 3D conv)进行科学合理的比较;
② 提出了一种采用时空卷积提取时间特征的注意力提取网络。
Method
(1)视频片编码(video clip encoder):
将视频切成若干片段 {ck},每个片段含有 T 帧,将每个片段编码成 D 维特征向量 fc ,视频的特征为这些片段取平均值。
① 3D CNN:采用3D ResNet模型,将最后一个分类层替换为行人身份的输出,将 T 帧输入网络中,输出即为特征表示。
对于 2D CNN:采用ResNet-50模型,每次输入一帧图像,每个片段提取 T 次特征,即 {fct},t 属于 [1, T],即 T*D 的特征矩阵,再采用以下方法将特征压缩到特征向量 fc 中。
② 时间池化(temporal pooling):考虑最大池化和平均池化,即:
③ 时间注意力(temporal attention):应用注意力权重,设第 c 个视频段权重因子为 act,其中 t 属于 [1, T]:
Resnet-50的最后卷积层规格 [w, h, 2048],其中 w 和 h 取决于输入图片的尺寸。
注意力提取网络的输入规格 [T, w, h, 2048],输出 T 个注意力得分。
考虑两种注意力网络:
空间卷积+全连接(spatial conv + FC):卷积层规格(kernel = w*h,input channel number = 2048,output channel number = dt),全连接层规格(input channel number = dt,output channel number = 1),输出结果为 sct,其中 t 属于 [1, T].
时空联合卷积(spatial + temporal conv):先通过空间卷积层(kernel = w*h,input channel number = 2048,output channel number = dt),再通过时间卷积层(个人理解参数3的含义是每个元素是由三帧计算而得,input channel number = dt,output channel number = 1),输出结果为 sct,其中 t 属于 [1, T].
使用softmax计算注意力得分 act:
结合正则化(使用sigmoid函数):
④ RNN:考虑两种方法:
直接把隐藏层元素 hT 作为最后结果,即:
计算 RNN 输出 {ot} 的平均值,即:
(2)损失函数:
考虑两种损失函数,三元组损失(Batch Hard triplet loss)和交叉熵损失(Softmax cross-entropy loss)。
每个batch含有 P 个行人视频,每个视频含有 K 个视频片段,即每个batch含有 PK 个视频片段,三元组损失为:
交叉熵损失为:
如何理解?
损失函数:
(3)相似度计算:
通过 L2 距离,计算视频特征的相似度。
Evaluation
(1)实验设置:
数据集:MARS
参数设置:batch size = 32,每个行人抽取4段tracklets,learning rate = 0.0001/0.0003,视频帧的规格为 224*112.(关于batch的设置描述模糊)
(2)实验结果:
① 3D CNN实验比较:
② Temporal pooling实验比较:
③ Temporal attention实验比较:
④ RNN实验比较:
⑤ 对比方法:
论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID的更多相关文章
- 论文阅读笔记十三:The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation(FC-DenseNets)(CVPR2016)
论文链接:https://arxiv.org/pdf/1611.09326.pdf tensorflow代码:https://github.com/HasnainRaz/FC-DenseNet-Ten ...
- 论文阅读笔记五十二:CornerNet-Lite: Efficient Keypoint Based Object Detection(CVPR2019)
论文原址:https://arxiv.org/pdf/1904.08900.pdf github:https://github.com/princeton-vl/CornerNet-Lite 摘要 基 ...
- [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 本文结构 解决问题 主要贡献 算法原理 参考文 ...
- 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- 论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
- 论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
- [置顶]
人工智能(深度学习)加速芯片论文阅读笔记 (已添加ISSCC17,FPGA17...ISCA17...)
这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...
- Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
- 论文阅读笔记(二十一)【CVPR2017】:Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...
随机推荐
- Coroutine 预激装饰器
预激装饰器 讨论如何终止协程之前,我们要先谈谈如何启动协程.使用协程之前必须预激,可是这一 步容易忘记.为了避免忘记,可以在协程上使用一个特殊的装饰器.接下来介绍这样一个 装饰器. 预激协程的装饰器, ...
- 数据算法 --hadoop/spark数据处理技巧 --(1.二次排序问题 2. TopN问题)
一.二次排序问题. MR/hadoop两种方案: 1.让reducer读取和缓存给个定键的所有值(例如,缓存到一个数组数据结构中,)然后对这些值完成一个reducer中排序.这种方法不具有可伸缩性,因 ...
- LVS 介绍 原理
一. LVS简介 LVS是Linux Virtual Server的简称,也就是Linux虚拟服务器, 是一个由章文嵩博士发起的自由软件项目,它的官方站点是www.linuxvirtual ...
- 怎么用wait、notify巧妙的设计一个Future模式?
我们知道多线程可以实现同时执行多个任务(只是看起来是同时,其实是CPU的时间片切换特别快我们没感觉而已). 现在假设一个做饭的场景,你没有厨具也没有食材.你可以去网上买一个厨具,但是这段时间,你不需要 ...
- zabbix-proxy配置文件参数说明
配置文件路径: /etc/zabbix/zabbix_proxy.conf Server=10.0.0.10 #<===指定zabbix server的ip地址或主机名 Hostname=zab ...
- JDBC 及 sql注入问题
一.相关概念 1.什么是JDBC JDBC(Java Database Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由 ...
- springcloud vue.js 前后分离 微服务 分布式 activiti工作流 集成代码生成器 shiro权限
1.代码生成器: [正反双向](单表.主表.明细表.树形表,快速开发利器)freemaker模版技术 ,0个代码不用写,生成完整的一个模块,带页面.建表sql脚本.处理类.service等完整模块2. ...
- jQuery的动画以及扩展功能
动画DOM及CSS操作 自定义动画 animate(最终css状态,时间) 这个最终css状态是一个对象 <!DOCTYPE html> <html lang="en&qu ...
- Linux 使用vim命令编辑文件内容
在终端可以使用vim命令来直接编辑文件内容. vim,也可以叫做vi. vim有三种模式:命令模式.输入模式.底线命令模式. 命令模式 vim 文件名 进入命令模式,vim也可以写成vi. 如果 ...
- opencv —— equalizeHist 直方图均衡化实现对比度增强
直方图均匀化简介 从这张未经处理的灰度图可以看出,其灰度集中在非常小的一个范围内.这就导致了图片的强弱对比不强烈. 直方图均衡化的目的,就是把原始的直方图变换为在整个灰度范围(0~255)内均匀分布的 ...