[1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification, 30th Ieee Conference on Computer Vision and Pattern Recognition, (Ieee, New York, 2017), pp. 6776-6785.

摘要:

监控相机广泛应用不同场景。在不同相机下识别人的需求就是行人再识别。在计算机视觉领域最近得到了日益增加的关注,但对比与基于图像的行人再识别方法很少有关注基于视频。现有的工作通常包含两个步骤,称为特征学习与度量学习。同时很多方法并没有充分利用时间信息与位置信息。在这篇论文中,我们关注与基于视频的行人再识别并建立一个端对端的深度架构来联合特征与度量的学习。我们提出的方法能够使用一个时间注意力模型自动地从给定地视频中挑选出最有区分力的帧。不仅如此,在衡量与另一个视频的相似度时,使用一个空间循环模型结合每个位置周围的信息。我们的方法使用一个联合的方式同时处理时空信息。在三个公共数据集上的实验表明了我们提出的深度网络的每个组件的有效性,超过了最先进算法的表现。

总结:

在这篇论文中,我们提出了一个端对端的深层神经网络结构,在衡量相似度时它结合了时间注意力模型来选择对有区分力的帧的关注和一个空间循环模型来利用上下文信息。我们精心设计实验来展示提出的方法的每个组件的有效性。与最先进方法相比,我们的方法表现更好,这表明提出的时间注意力模型对于特征学习,空间循环模型对于度量学习都是有效的。

在近几年,为取得行人再识别的效果提升付出了很多努力。但是,这仍然与现实应用有很大的距离。现在的问题包括严重的遮挡与光照变化,人类姿态的无规则变化,不同人物的服饰颜色与纹理相似。此外,现在是时候强调行人再识别研究的最大限制是缺少非常大尺寸的数据集,其中存在许多实际问题,特别是深层网络越来越流行。因此我们未来的工作就是尽可能收集更多的数据,覆盖尽可能多的场景。

方法概述:

整体网络结构如下图所示,采用了三元序列作为网络输入,先经过AlexNet提取特征,将fc7的输出喂入后面的时间注意力模型,时间注意力模型接受维的输入,然后产生维的输出。然后使用这块的输出构建triplet loss作为一个监督。

同时作者选择了pool5层的输出喂入到空间循环网络,一次输入正负对样本,网络的目标是判断这一对是不是属于同一个人,所以它是一个二分类模型。

最后整体的损失是这两者的叠加,测试时使用下式作为排序依据。

下面介绍一下作者特殊设计的时间注意力模型(TAM)与空间循环模型SRM。

TAM的结构如下所示,输入为图片序列x的fc7层的T个特征图。

这个输入首先经过一个Attention层,它的结构为:

可以看出是一个维度的矩阵,最终的输出是一个维度的矩阵,相当于经过这一步,就产生了对于原始序列的初步关注,作者使用了多个Attention块,并且针对同一输入产生的输出不同,从上图中可以看出不同的Attention块唯一不共享的权重的是前一阶段的隐藏状态。继而把这些初步关注的结果喂入到RNN中。每一步都将产生一个维的输出,之后使用时间的平均池化得到TAM的输出。

对于SRM它的目标是处理视频间的度量学习,结构如下:

它接受pool5层的特征作为输入,对于一对特征进行相减操作,这就相当于粗略地计算了两个视频序列的不同,然后再使用后续结构对这一信息进行加工总结。

首先作者经过了6个不同方向的空间RNN,作者没有说明这里的RNN结构只说明是使用LSTM实现的,可以看到RNN输入输出两者的总维度相同,所以推断这里的LSTM应该是引出了每个循环体的输出,然后堆叠在一起,接着作者把这个六个空间RNN结果堆叠在一起,相当于每个位置的深度上表达了从六个方向提取的信息,继而使用一个1*1的卷积核总结这六个方向的信息,将其称为上下文特征。作者说这样做能够对光照变化和遮挡不那么敏感(??)。

CVPR 2017:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification的更多相关文章

  1. 论文阅读笔记(二十二)【CVPR2017】:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

    Introduction 在视频序列中,有些帧由于被严重遮挡,需要被尽可能的“忽略”掉,因此本文提出了时间注意力模型(temporal attention model,TAM),注重于更有相关性的帧. ...

  2. 《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记:基础理论

    转自 http://blog.csdn.net/xingzhedai/article/details/53144126 更多参考:http://blog.csdn.net/mafeiyu80/arti ...

  3. 论文翻译:2020_Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks

    论文地址:基于分层递归神经网络的嵌入式设备轻量化在线降噪 引用格式:Schröter H, Rosenkranz T, Zobel P, et al. Lightweight Online Noise ...

  4. 课程五(Sequence Models),第一 周(Recurrent Neural Networks) —— 1.Programming assignments:Building a recurrent neural network - step by step

    Building your Recurrent Neural Network - Step by Step Welcome to Course 5's first assignment! In thi ...

  5. 转:RNN(Recurrent Neural Networks)

    RNN(Recurrent Neural Networks)公式推导和实现 http://x-algo.cn/index.php/2016/04/25/rnn-recurrent-neural-net ...

  6. 论文翻译:Conditional Random Fields as Recurrent Neural Networks

    Conditional Random Fields as Recurrent Neural Networks ICCV2015    cite237 1摘要: 像素级标注的重要性(语义分割 图像理解) ...

  7. 课程五(Sequence Models),第一 周(Recurrent Neural Networks) —— 3.Programming assignments:Jazz improvisation with LSTM

    Improvise a Jazz Solo with an LSTM Network Welcome to your final programming assignment of this week ...

  8. 论文笔记:Emotion Recognition From Speech With Recurrent Neural Networks

    动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...

  9. cs231n spring 2017 lecture10 Recurrent Neural Networks 听课笔记

    (没太听明白,下次重新听一遍) 1. Recurrent Neural Networks

随机推荐

  1. ICO图标在线生成转换网站

    ico是Icon file的缩写,是Windows的图标文件格式的一种,可以存储单个图案.多尺寸.多色板的图标文件. 在Windows操作系统中,单个图标的文件名后缀是.ICO.这种格式的图标可以在W ...

  2. SSM框架中返回的是字符串还是页面跳转的问题

    如果你在控制器前的注解是@RestController的话,将返回controller方法指定的String值,@RestController注解相当于@ResponseBody和@Controlle ...

  3. [AcWing 822] 走方格

    点击查看代码 #include<iostream> using namespace std; int n, m, ans = 0; void dfs(int x, int y) { if ...

  4. resultMap,日志,分页

    问题:属性名和字段名不一致 解决方法 起别名 select id, username, password as pwd from db4.user resultMap结果集映射 id username ...

  5. web框架的本质、MVC框架MTV框架的介绍

    1.web框架的本质 所有的Web应用本质上就是一个socket服务端,而用户的浏览器就是一个socket客户端,基于请求做出响应,客户都先请求,服务端做出对应的响应,按照http协议的请求协议发送请 ...

  6. 基于STM32+华为云IOT设计智能称重系统

    摘要:选择部署多个重量传感器和必要的算法.通过WiFi 通信模块.GPS定位模块,采集车辆称重数据一地理位置信息,并通过网络发送至云平台,设计图形化UI界面展示称重.地图位置等重要信息,实现对称重系统 ...

  7. 基础路径规划算法(Dijikstra、A*、D*)总结

    引言 在一张固定地图上选择一条路径,当存在多条可选的路径之时,需要选择代价最小的那条路径.我们称这类问题为最短路径的选择问题.解决这个问题最经典的算法为Dijikstra算法,其通过贪心选择的步骤从源 ...

  8. HMS Core使能AI智慧体验,共建创新应用生态

    5月17日,2022年搜狐科技峰会成功举办,峰会汇聚各界大咖,共同探讨AI 技术的深入应用以及行业数字化的发展趋势.华为终端云服务应用生态BU总裁望岳发表题为<使能AI智慧体验,共建创新应用生态 ...

  9. unity---脚本代码报错

    同版本编辑器在不同VS版本下会报错问题解决 解决方法 报错情况 解决方法 打开Unity --->Preferences--->External Tools然后点击:Regenerate ...

  10. unity---GL实现案例

    GL C#实现 不管是画任何东西都需要Begin()和End()函数: 画线 using System.Collections; using System.Collections.Generic; u ...