论文笔记之： Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function

Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function

CVPR 2016

　　摘要：跨摄像机的行人再识别仍然是一个具有挑战的问题，特别是摄像机之间没有重叠的观测区域。本文中我们提出一种 多通道基于part 的卷积神经网络模型，并且结合 改善的三元组损失函数 来进行最终的行人再识别。具体来说，所提出的 CNN 是由多个channel构成的，可以联合的学习 global full-body 和 local body-parts feature of the input persons.

　　引言：行人在识别依然存在的挑战：

　　　　1. 不同摄像机下，剧烈的形变和混杂的环境；

　　　　2. 随着时空变化导致的行人姿态的剧烈变化；

　　　　3. 背景的复杂和遮挡；

　　　　4. 不同的个体之间可能共享相似（想死）的外观；

　　此外，脸部的遮挡或者不可见，使得许多生物学的方法并不适应。下图展示了相关的数据集：

　　给定一张所要找寻的行人图像，在一系列候选中，去寻找，需要解决两个问题：

　　1. 好的图像特征来表示 target images 和 candidate images ；

　　2. 合适的距离度量不可避免的来确定候选中是否存在 target image 。

　　现有的方法大部分都集中精力于第一种思路。当双方的特征都提取完毕后，就开始选择标准的距离度量来决定 image pairs 的相似度。

　　而本文就着眼于将这两个独立的阶段，联合的进行处理，即：Joint feature extraction and distance metric learning.

　　为了更好的学习特征，我们提出一种新的，多通道的 CNN 模型，可以学习到行人全身和部分的特征。然后将这两个特征 concatenate 在一起，输入给网络的 fc 层，最终进行预测。

　　此外，借助于三元组损失函数的思想，本文做了稍微的改动，即：

　　　　原本的三元组要求：only require the intra-class feature distances to be less than the inter-class ones ;

　　　　而改善后损失函数进一步的要求： the intra-class feature distances to be less than a predefined margin.

　　实验结果表明这个小的改动可以提升将近 4个点！

　　本文的所提出的 CNN model 和改进的三元组损失函数可以认为是学习一个映射函数，使得能够将原始 raw image 映射成一个特征空间，该特征空间使得同一个人的图像距离小于不同行人的图像距离。所以，所提出的框架，可以学习到最优的特征和距离度量，从而更好的进行行人的在识别任务。

　　接下来废话少来，我们先看大致流程框架：

　　像上图所展示的那样：

　　本文是用三个网络结构来学习三个图像，这其中有两个相同身份的 human，另一个是 negative images。目标就是使得其中相同的行人之间的距离小于不同身份的图像距离。

　　具体来讲，关于 multi-channel parts-based CNN model 主要体现在以下几点：

　　主要是由以下几个 layer 构成的：

　　1. one global convolutional layer ;

　　2. one full-body convolution layer ;

　　3. four body-part convolutional layers ;

　　4. five channel-wise full connection layers ;

　　5. one network-wise full connection layer.

　　看起来很复杂的一个网络结构，被细分为这几个分支之后，就显得不那么复杂了，但是却取得了不错的效果。因为这种网络结构很暴力啊，感觉，这种细分到 part 的网络结构，如果不是自动定位的 part，那么就会显得非常的不智能。

　　然后，就是改善的三元组损失函数了。

　　但是，这个损失函数并没有显示的表示：target image 和 positive image 之间的距离应该有多近。所造成的一个结果，就可能是：属于同一个行人的 instance 可能构成一个大的 cluster，并且有一个较大的 intra-class distance in the learned feature space. 明显的是，并没有一个需要的输出，这不可避免的会损害再识别的性能。

　　基于以上观察，我们做了相应的改进。我们添加了相应的新的损失函数来增强约束。target image 和 positive image 之间的距离应该小于一个阈值 $\tau_2$, 并且这个阈值应该小于 $\tau_1$。

　　这个改进的损失函数进一步的拉近了同一个human之间的距离，并且拉远了不同行人之间的距离。

　　其中，N 是triplet训练样本的个数，$\beta$ 平衡了类别内部和类别之间的约束。距离函数 d(. , .) 是 L2-norm distance.

　　训练算法：

总结：

　　总体来说，感觉还是比较暴力的解决方案。一方面来说，文章提出了一种利用 human part 和 global body 进行精细化识别的框架来提供更加有效的 feature。另一方面，改善了三元组损失函数，使得最终的训练更加有效。这是本文中，两个最重要的创新点。

　　但是，对于行人 part 的定位文章并未做详细描述，估计是靠手工标注来完成的。那么，这个就有点 low 了。。。

论文笔记之： Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function的更多相关文章

论文笔记：语音情感识别（三）手工特征+CRNN
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...
深度学习论文笔记：Fast R-CNN
知识点 mAP:detection quality. Abstract 本文提出一种基于快速区域的卷积网络方法(快速R-CNN)用于对象检测. 快速R-CNN采用多项创新技术来提高训练和测试速度,同时 ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
Deep Learning论文笔记之（六）Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...

随机推荐

在不格式化原有系统盘的情况下，利用grub4dos+firadisk制作RamOS VHD Win7总结
在不格式化原有系统盘的情况下,利用grub4dos+firadisk制作RamOS VHD Win7总结在不格式化原有系统盘的情况下,用grub4dos+firadisk安装WIN7到VHD,内存大的 ...
安卓手机上运行 PC-E500 程序
目录第1章安卓手机上运行 PC-E500 程序 1 1 PockEmul 1 2 下载 1 3 打包BASIC程序 2 4 配置PC-E500模拟器 5 5 载入e50 ...
fiddler，https抓包设置
1.fiddler 2 汉化版本不支持https证书下载,需要下载fiddler 4版本进行验证若fiddler 2版本,可能存在无法访问Pc端fiddler返回页面,无法下载证书 2.打开Fidd ...
jquery iframe自适应高度[转]
经典代码 iFrame 自适应高度,在IE6/IE7/IE8/Firefox/Opera/Chrome/Safari通过测试. 很古老的方法: <iframe src="../In ...
I/O多路复用 SELECT POLL -- 内核实现
等待队列先补充个基础知识――等待队列认识定义 wait_queue_head_t wait_queue; 初始化 init_waitqueue_head(&wait_queue); 等待 ...
读javascript高级程序设计03-函数表达式、闭包、私有变量
一.函数声明和函数表达式定义函数有两种方式:函数声明和函数表达式.它们之间一个重要的区别是函数提升. 1.函数声明会进行函数提升,所以函数调用在函数声明之前也不会报错: test(); functi ...
EverEdit安装
UE3:SkeletalMesh的绘制流程
[目标] SkeletalMesh的绘制流程 [思路] 1 顶点缓冲流静态数据流向动态数据流向(紫红色箭头) 2 FGPUSkinVertexFactory.ShaderDataType.Bone ...
Linux设备驱动中的并发控制
1.并发是指多个执行单元同时.并行的执行.并发的执行单元对共享资源的访问很容易导致竞态. 在 Linux 内核中,主要的竞态发生于如下几种情况: ①对称多处理器(SMP)的多个 CPU ②单CPU内进 ...
MongoDB下载文件百度盘共享
1> mongodb下载地址: http://www.mongodb.org/downloads 官方下载不了,可以到百度共享盘里面下载 MongoDB 2.6.5 Windows 64位: ...

论文笔记之： Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function

论文笔记之： Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function的更多相关文章

随机推荐

热门专题