论文阅读笔记（二）【IJCAI2016】：Video-Based Person Re-Identiﬁcation by Simultaneously Learning Intra-Video and Inter-Video Distance Metrics

摘要

（1）方法：

面对不同行人视频之间和同一个行人视频内部的变化，提出视频间和视频内距离同时学习方法(SI²DL).

（2）模型：

视频内(intra-vedio)距离矩阵：使得同一个视频更紧凑；

视频间(inter-vedio)距离矩阵：使得两个匹配视频比不匹配视频距离更小.

设计了视频三元组(vedio triplet)，提高学习矩阵的辨别力.

（3）数据集：

iLIDS-VID and PRID 2011 image sequence datasets

介绍

（1）当今大部分方法主要是基于图像的行人重识别(image-based)，分为两类：特征学习和距离学习.

特征学习：从行人图像中提取特征，包括：显著性特征(salience features)、中层特征(mid-level features)、显著颜色特征(salient color features).

距离学习：学习高效的距离矩阵，最大化匹配准确率，包括：LMNN(large margin nearest neighbor)、KISSME(keep it simple and straightforward metric)、RDC(relative distance comparison).

（2）最近提出的两个视频Re-id方法：

提取时空特征(spatial-temporal)来表示每一个行人视频. 具体描述：

先对视频进行分割，生成若干片段(fragments/walking cycles)，从每一个fragment中提取时空特征，并用提取出的特征来表示视频.

因此视频间Re-id也可视为集合匹配(set to set matching)的问题.

（3）难点：

受到光照(illumination)、姿态(pose)、视角(viewpoint)、遮挡(occlusion)的影响，不仅是多个行人视频间存在变化，在同一个行人视频中的不同帧(frame)也存在变化.

上述方法没有对视频内变化(intra-video variations)和视频间变化(inter-video variations)进行同时处理.

（4）降低集合间变化的方法：基于集合的距离学习(set-based distance learning)

已提出的方法有：MDA(manifold discriminant analysis)、SBDR(set-based discriminative ranking)、CDL(covariance discriminative learning)、SSDML(set-to-set distance metric learning)、LMKML(localized multi-kernel metric learning).

（5）Motivation：

① 现有主要Re-id算法是基于图片的；

② 基于视频的Re-id可以看做是对图像集合处理，但现有基于集合的距离学习方法并不是为解决基于视频的Re-id而设计的.

（6）Contribution：

① 提出了名为SI²DL的基于视频的Re-id方法；

② 设计了一个新的基于集合的距离学习模型；

③ 设计了一个新的视频关系模型（视频三元组）；

④ 采用iLIDS-VID and PRID 2011数据集进行评估.

SI²DL

（1）问题定义：

① 训练集：X = [X₁, ..., X_i, ..., X_K]

每个行人视频 X_i 是 p*n_i 维，即第 i 个视频含有 n_i 个样本(sample)，每个样本是 p 维，定义第 i 个视频的第 j 个样本为 x_ij.

② 直观上可以理解，如果让每一个视频内部更紧凑，视频之间的可分离性越明显. 由此引出视频内距离矩阵(intra-video distance metric)和视频间距离矩阵(inter-video distance metric).

③ 定义 J(V,W)：

V：intra-video distance metrics，规格：p*K₁

W：inter-video distance metrics，规格：K₁*K₂

v_i：V矩阵的第 i 列，规格：p*1

w_i：W矩阵的第 i 列，规格：p*1

f(V, X)：视频内部的聚合项(congregating term)

g(W,V,X)：视频之间的区分度项(discriminant term)

μ：权重平衡因子

SI²DL的框架：训练V和W，降低上述两项之和：

④ 计算 f(V,X)：

使用每一个视频所有sample的均值来表示视频，即第 i 个视频 X_i 的均值为：

计算聚合项：N表示数据集中所有的图片帧数量

对公式的理解：

V^T(x_ij-m_i)的矩阵规格运算：(K₁*p)*(p*1) = K₁*1

V^T在这里产生了改变向量长度的作用，将距离进行了矩阵变化，使得视频内sample围绕中心进行靠近.

⑤ 定义三元组(video triplet)：

参数：视频 X_i，X_j，X_k，对应 m_i，m_j，m_k

其中 X_j 是 X_i 的正确匹配，而 X_k 是 X_i 的错误匹配，

满足

称 X_i，X_j，X_k为三元组，记为<i,j,k>.

⑥ 计算 g(W,V,X)：|D|表示三元组的数量.

计算区分度项：

其中 ρ 是惩罚项：

两个范式之间的差值可以理解为：正确匹配的距离和错误匹配的距离之差，期望的结果是正确匹配的距离更小，错误匹配的距离更大，也就是这个差值更小.

为什么要加这个惩罚项？个人的理解是：为了保证区分度项始终是正值.

简写 ρ = exp(- b 式/ a 式)，ρ < 1. 若 a 式的值比 b 式小很多，那么 ρ 会很小，b 式会被削弱，(a式 - ρ*b式)结果为正；若 a 式的值比 b 式大很多，那么 ρ 会接近1，那么(a式 - ρ*b式)结果也为正.

⑦目标函数：

（2）SI²DL的优化：

① 由于上面的公式不是凸的，需要将问题进行转化：

其中 M₁ 和 M₂ 矩阵的元素分别为：和，其中<i,j,k>属于D.

(为什么？可能是凸优化方面的问题，还没有去学习，对这个公式的转化也不理解)

【注】Frobenius范式的计算方式：

② 确定 V、W 来更新 A、B：

初始化 V：

　通过构建拉格朗日函数，并对其求导，得到结果：

　其中

　个人推导过程【不一定准确】：

　问题转化为了特征分解问题，选取 K₁ 个特征向量作为 V 的初始化.

初始化W：

采用同样的方法，选取 K₂ 个特征向量作为 W 的初始化.

当 V 和 W 确定后，通过优化下面的公式来获得 A 和 B ：

③ 确定 A、B、W 来更新 V：

当 A、B、W 确定后，优化问题转化为：

其中：

使用 ADMM算法对上述的公式进一步转化：

　首先引入变量S：

　ADMM算法：

ADMM算法参考【传送门】【传送门】

④ 确定 A、B、V 来更新W：

当 A、B、W 确定后，优化问题转化为：

同样使用ADMM算法把问题进一步优化，求解出 W.

⑤ SI²DL 算法总结：

（3）使用 V，W 矩阵对结果进行预测：

视频库(gallery video)：Y = [Y₁, ..., Y_i, ..., Y_n]

第 i 个视频为 Y_i，规格为：p * l_i，其中 l_i 为 Y_i 中的样本数量.

待测视频 Z_i 的规格为：p * n_i，其中 n_i 为 Z_i 中的样本数量.

Y_i / Z_i 的第 j 个样本记为 y_ij / z_ij.

识别过程：

① 计算 Z_i 和 Y_i 的一阶表示：

② 计算两者间的距离：

③ 在视频库中挑选出距离最近的视频，作为 Z_i 的匹配结果.

实验结果

（1）实验设置：

① 对比试验：

discriminative video fragments selection and ranking (DVR)

改进版：Salience+DVR 、 MSColour&LBP+DVR

spatial-temporal ﬁsher vector representation (STFV3D)

改进版：STFV3D+KISSME

② 参数设置：

对于iLIDS-VID数据集(K₁,K₂) = (2200,80)，μ = 0.00005、τ₁= 0.2、τ₂ = 0.2；

对于PRID数据集(K₁,K₂) = (2500,100)，μ = 0.00005、τ₁= 0.1、τ₂ = 0.1；

③ 评估设置：

数据集50%用作训练集，50%用作测试集.

测试集中第1个相机的数据用作测试组，第2个相机的数据用作视频库.

使用CMC曲线评测，CMC曲线的介绍：【传送门】

（2）在iLIDS-VID数据集上的评测结果：

该数据集含有300个行人的600个图像序列，每个行人都有来自两个相机拍摄的图像序列.

每个图像序列含有22-192帧，平均还有71帧.

（3）在PRID2011数据集上的测评结果：

Cam-A含有385个行人的图像序列，Cam-B含有749个行人的图像序列.

每个序列含有5-675帧，平均含有84帧.（低于20帧的需要被忽略）

论文阅读笔记（二）【IJCAI2016】：Video-Based Person Re-Identiﬁcation by Simultaneously Learning Intra-Video and Inter-Video Distance Metrics的更多相关文章

论文阅读笔记二十七：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）
论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对 ...
论文阅读笔记二十五：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要深度卷积网络需要输入 ...
论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)
论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进 ...
论文阅读笔记二十三：Learning to Segment Instances in Videos with Spatial Propagation Network（CVPR2017）
论文源址:https://arxiv.org/abs/1709.04609 摘要该文提出了基于深度学习的实例分割框架,主要分为三步,(1)训练一个基于ResNet-101的通用模型,用于分割图像中的 ...
论文阅读笔记二十九：SSD: Single Shot MultiBox Detector(ECCV2016)
论文源址:https://arxiv.org/abs/1512.02325 tensorflow代码:https://github.com/balancap/SSD-Tensorflow 摘要 SSD ...
论文阅读笔记二十八：You Only Look Once: Uniﬁed,Real-Time Object Detection(YOLO v1 CVPR2015)
论文源址:https://arxiv.org/abs/1506.02640 tensorflow代码:https://github.com/nilboy/tensorflow-yolo 摘要该文提出 ...
论文阅读笔记二十六：Fast R-CNN (ICCV2015)
论文源址:https://arxiv.org/abs/1504.08083 参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/5103 ...
论文阅读笔记二十二：End-to-End Instance Segmentation with Recurrent Attention（CVPR2017）
论文源址:https://arxiv.org/abs/1605.09410 tensorflow 代码:https://github.com/renmengye/rec-attend-public 摘 ...
论文阅读笔记二十一：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）
论文源址:https://arxiv.org/abs/1511.07122 tensorflow Github:https://github.com/ndrplz/dilation-tensorflo ...

随机推荐

python笔记23（面向对象课程五）
今日内容上节作业单例模式 class Foo: pass obj1 = Foo() # 实例,对象 obj2 = Foo() # 实例,对象日志模块(logging) 程序的目录结构内容回顾 ...
StarUML之三、StarUML的项目
1:创建空的项目创建项目可以按Ctrl+N或选择菜单File| New,StarUML安装打开后默认会有个空项目结构. 2:创建模板项目可以通过选择模板来启动建模项目(会根据模板创建项目结构). ...
「Flink」Flink 1.9 WebUI运行作业界面分析
运行作业界面在以下界面中,可以查看到作业的名称.作业的启动时间.作业总计运行时长.作业一共有多少个任务.当前正在运行多少个任务.以及作业的当前状态. 这里的程序:一共有17个任务,当前正在运行的是1 ...
Python——20200220Python123冲刺试卷 - 1
知识点:面向对象继承,数组组织,文件操作,数据类型 1.面向对象的继承:继承是指类之间共享属性和操作的性质 2.软件危机的原因不包括:软件成本不断提高软件危机原因: 软件开发生产率低.软件过程不规范 ...
ssh远程连接到Ubuntu
1.ubuntu首先得安装ssh sudo apt-get install openssh-server 2.启动ssh sudo /etc/init.d/ssh start 3.检查是否开启 ps ...
通过Performance Monitor观察程序内存使用情况
在学习C# 数据类型和内存等知识点时,看到利用Windows系统下的Performance Monitor-性能监测工具查看程序内存的使用情况.使用过程中遇到个别小问题,现在把观察程序内存的操作步骤简 ...
记一个开发是遇到的坑之Oralce 字符串排序
简单描述一下情况,就是存储过程中用一个字符串类型的字段作为患者就诊的排序号,结果莫名发现叫完1号后叫了11.12等患者.用户的反馈不一定准确,自己加了日志的,赶紧拷贝日志来观察一下.结果发现实际情况就 ...
使用iframe实现导航栏在上面，下面的窗体刷新
1.做一个导航栏,并设置跳转链接的<a>标签的name属性或id 此处演示name标签  <nav id="navAjax" ...
C# WPF联系人列表（1/3）
微信公众号:Dotnet9,网站:Dotnet9,问题或建议:请网站留言, 如果对您有所帮助:欢迎赞赏. C# WPF联系人列表(1/3) 阅读导航本文背景代码实现本文参考 1.本文背景聊天软 ...
【算法】——递归：小白正在上楼梯，楼梯有n阶台阶，小白一次可以上1阶，2阶或者3阶，实现一个方法，计算小白有多少种走完楼梯的方式。
分析:从最后一步分析,能有的情况有三种情况构成,写出如图所示的方程 //和斐波拉契相似 int void f(int n) { //考虑出口 ) ;//正常思路是返回0 ) ;//通过自己想可以得出只 ...

论文阅读笔记（二）【IJCAI2016】：Video-Based Person Re-Identiﬁcation by Simultaneously Learning Intra-Video and Inter-Video Distance Metrics

论文阅读笔记（二）【IJCAI2016】：Video-Based Person Re-Identiﬁcation by Simultaneously Learning Intra-Video and Inter-Video Distance Metrics的更多相关文章

随机推荐

热门专题