论文阅读笔记（四）【TIP2017】：Video-Based Pedestrian Re-Identiﬁcation by Adaptive Spatio-Temporal Appearance Model

Introduction

（1）背景知识：

① 人脸识别是具有高可靠性的生物识别技术，但在低解析度(resolution)和姿态变化下效果很差.

② 步态(gait)是全身行为的生物识别特征，大部分步态识别方法是基于轮廓而不受外貌影响，但在复杂的背景和遮挡下轮廓难以提取.

（2）问题场景：

假设行人在不同的相机中不更换衣服，结合人体外貌特征和步态特征进行识别.

难点：行人重识别受到姿态、视角、光照、遮挡的影响，空间对齐(spatial alignment)通过处理不同部位的样貌来解决该问题. 然而人体部位在不同阶段也有变化，如游泳时手臂样貌会变化，且会遮挡躯干等.

（3）本文工作：

提出了一个时空表示方法，对人体部位空间布局和动作原语(action primitive)的时间序列进行编码（关注的重点在于“行走”，忽略了其余动作），具体来说：

对于一个视频序列，裁剪成若干步行周期. 在时间上，将步行周期分割成不同的动作阶段；在空间上，将不同的身体部位按姿态划分. 由此得到众多的视频标记点(video blobs)，每一个标记点对应一个动作原语，也称为人体动作单元(body-action unit).

从body-action units中提取出Fisher vectors(一种广义的Bag-of-Words类型的特征)，由此构建出特征向量对行人的样貌进行表示.

(什么是BoW特征？【传送门】)

Proposed Method

（1）时空人体动作模型(Spatio-Temporal Body-Action Model)

① 提取步行周期：

对于一个视频 Q = (I₁, I₂, ..., I_t)，每一帧 I 的运动能量强度计算为：

由于通常行人的下半身运动最突出和连续，U 是图片的下半部分的像素集，v_x 和 v_y 是水平和竖直方向上的 optic flow. （什么是optic flow？）

流动能量分布(Flow Energy Profile, FEP)：E = (e₁, e₂, ..., e_t).

当 E 最大时，对应两腿重合的情况；当 E 最小时，对应两腿分开最远的情况.

但是没有规格化的 FEP 噪声比较大，需要通过离散傅里叶变化进行规格化，如上图的(b).

（离散傅里叶变化如何工作？）

每一个步行周期包含2段正弦曲线，即每条腿走一步是一段曲线.

将一个步行周期截取成更小的段(segments)，对应不同的动作原语，S = (s₁, s₂, ..., s_N).

② 确定Body-Action Unit：

将人体分为6部分：P = (p₁, p₂, ..., p_M)，p_i 是某一帧上的一个区域，其中 M 设置为6.

结合在①中得出的步行周期的动作原语，得到规格为 M*N 的Body-Action Units，即人体的6个部位在步行的4个阶段不同的动作，定义如下：

③ 自适应人体动作单元(adaptive Body-Action Units)：

由于步行的动态性，识别的人体部位可能不准确，比如两只腿可能会重叠，如下图：

解决方法：对模板进行改进，分为两种：基于插值函数(interpolation function)和基于越阶函数(step function)，调整后的结果如下图：

个人理解：前者的模板框是连续变换的，后者是离散变换的.

效果如下图：interpolation function 是逐渐变化，而 step function 的变化形式单一.

（2）Fisher vector的学习与提取：

特征构成：

其中 x^~, y^~, t^~ 表示在这个unit中的像素点相对坐标，I(x,y,t) 为像素强度，由于图片有3个通道，因此 I 和它的偏导均为3维，每个像素点的特征总维数为 D = 3 + 7*3 = 24.

利用训练集得出 W，并提取出相应的特征，训练出GMM(高斯混合模型).

什么是高斯混合模型？【传送门】

训练得到的模型构成：，K设置为32.

μ_k、σ_k、π_k 分别表示均值、协方差、高斯成分的先验概率(prior probability).

高斯成分(Gaussian component)：

计算第 i 个像素特征描述的第 k 个高斯成分的后验概率为：

Fisher vector由w_k、u_k、v_k构成(其中 w 为标量，u 和 v 是向量)，即 Θ(W) = [w₁, u₁, v₁, ..., w_K, u_K, v_K]，计算如下：

一段视频含有若干步行周期，对于任意一个周期，划分为 N 个动作原语，M 个人体动作部位，使用的GMM由 K 个高斯成分构成，每帧每部位的每个高斯成分有 2D+1 个特征构成，由此得出Fisher vector的维度是：(2D+1)KMN.

（w、u、v三个量的意义是什么？）

（3）结合监督学习：

结合样貌表征和监督距离矩阵，如KISSME.

KISSME简介：

查询集中的行人 x，有 n_x 个特征 x_i(i = 1, ..., n_x)；

视频库中的行人 y，有 n_y 个特征 y_j(j = 1, ..., n_y).

特征的差记为 d_ij = x_i - y_j.

d 的行人内(intrapersonal)协方差矩阵为 Σ_I，行人间(extrapersonal)协方差矩阵 Σ_E.

两个向量之比的对数为：

实验中的两个协方差矩阵可以估算为：

其中 l_ij = 1表示 x_i 和 x_j 属于同一个人，l_ij = 0表示 x_i 和 x_j 不属于同一个人. L_I和 L_E 分别是相同特征对和不同特征对的数量.（感觉上面公式出错了，1写成了0）

KISSME度量矩阵 ψ 为：，使得满足如下条件（第二个距离公式比第一个效果更好）：

其中：

(KISSME怎么理解？)

（4）方法概览：

Experiments

（1）数据集和实验设置：

① 数据集：iLIDS-VID、PRID2011、SDU-VID（新引入）

iLIDS-VID、PRID2011的介绍在【前文】中介绍过；

SDU-VID数据集包含了300个行人的600个图像序列，每个序列包含16-346帧，平均130帧.

【数据集链接】

② 实验设置：

M = 6

N = 4

K = 32

由于不同的视频序列含有不同数量的步行周期，每一个周期提取出特征后，选用距离最近的来表示.（这段话没有理解作者确切的意思，暂且这么理解）

实验使用了24维和12维特征，24维是上文中 f 所提特征，12维是删去了颜色和二阶导数的特征.

（2）实验结果：

(实验结果的分析看得不是很明白，略过)

论文阅读笔记（四）【TIP2017】：Video-Based Pedestrian Re-Identiﬁcation by Adaptive Spatio-Temporal Appearance Model的更多相关文章

论文阅读笔记四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016)
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一 ...
论文阅读笔记四十九：ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)
论文原址:https://arxiv.org/abs/1810.08425 github:https://github.com/KimSoybean/ScratchDet 摘要当前较为流行的检测算法 ...
论文阅读笔记四十八：Bounding Box Regression with Uncertainty for Accurate Object Detection(CVPR2019)
论文原址:https://arxiv.org/pdf/1809.08545.pdf github:https://github.com/yihui-he/KL-Loss 摘要大规模的目标检测数据集在 ...
论文阅读笔记四十六：Feature Selective Anchor-Free Module for Single-Shot Object Detection（CVPR2019）
论文原址:https://arxiv.org/abs/1903.00621 摘要本文提出了基于无anchor机制的特征选择模块,是一个简单高效的单阶段组件,其可以结合特征金字塔嵌入到单阶段检测器中. ...
论文阅读笔记四十四：RetinaNet:Focal Loss for Dense Object Detection(ICCV2017）
论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要目前,具有较高准确 ...
论文阅读笔记四十三：DeeperLab: Single-Shot Image Parser（CVPR2019）
论文原址:https://arxiv.org/abs/1902.05093 github:https://github.com/lingtengqiu/Deeperlab-pytorch 摘要本文提 ...
论文阅读笔记四十七：Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression(CVPR2019)
论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要在目标检测的评测体系中,I ...
论文阅读笔记四十五：Region Proposal by Guided Anchoring（CVPR2019）
论文原址:https://arxiv.org/abs/1901.03278 github:code will be available 摘要区域anchor是现阶段目标检测方法的重要基石.大多数好的 ...
论文阅读笔记四十二：Going deeper with convolutions (Inception V1 CVPR2014 )
论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4) ...
论文阅读笔记四十一：Very Deep Convolutional Networks For Large-Scale Image Recongnition（VGG ICLR2015）
论文原址:https://arxiv.org/abs/1409.1556 代码原址:https://github.com/machrisaa/tensorflow-vgg 摘要本文主要分析卷积网络的 ...

随机推荐

Linux部署.NetCore站点使用Supervisor进行托管部署
前言之前终于在Linux上部署好了.NetCore站点,但是这个站点非常“脆弱”.当我的ssh连接关闭或者我想在当前连接执行其他命令时候就必须关闭dotnet站点的执行程序.这显然不是我想要达到的效 ...
JavaScript-其他设计模式
其他设计模式 JavaScript 中不常用对应不到经典场景原型模式-行为型 clone 自己,生成一个新对象 java 默认有 clone 接口,不用自己实现 //'object.creat'用 ...
java设计模式--迪米特法则
基本介绍 1.一个对象应该对其他对象保持最少的了解 2.类与类关系越密切,耦合度越大 3.迪米特法则又叫最少知道原则,即一个类对自己依赖的类知道的越少越好.也就是说,对于被依赖的类不管多么复杂,都尽量 ...
python+selenium自动化测试，浏览器最大化报错解决方法
此处以谷歌浏览器为例 [问题1]缺少chrome驱动,webdriver调用谷歌浏览器的时候就报错了,如下图: [原因分析]缺少谷歌驱动程序 [解决办法] 1.查看本地安装chrome浏览器版本 2. ...
安装NodeJs和NPM到Ubuntu（APT）
运行环境系统版本:Ubuntu 16.04.2 LTS 软件版本:node-v10.16.3.npm-6.9.0 硬件要求:无安装过程 1.安装NPM和NodeJs root@localhost: ...
MongoDB3.6版本新增特性
MongoDB3.6版新特性如下: (1)Default Bind to Localhost 从3.6版本开始,在默认情况下,MongoDB二进制文件mongod和mongos绑定到localhost ...
最短路径：初涉Dijkstra算法
模板题目:https://www.luogu.com.cn/problem/P1339 我的代码: #include<cstdio> #include<cstring> #in ...
AGC018F - Two Trees
题意有两棵节点数均为 n 的有根树,你需要构造一个序列 \(X_1,X_2,...,X_n\).使得对于每一棵树的每一个节点, 若令它所有的后代(包括它本身)为 \(a_1,a_2,...,a_k\ ...
css3基本选择器+属性选择器+动态伪类+UI状态伪类+结构类
后代选择器祖先元素后代元素{ } 子元素选择器(直接子元素选择器) 父元素>子元素{ } 兄弟选择器元素+兄弟元素(紧邻该元素之后的下一个兄弟元素) 所有兄弟元素选择器元素~兄弟元素(该 ...
战“疫”背后的AI身影丨曼孚科技
近期新型冠状病毒肺炎的疫情,牵动着全国上下人民的心. 截止2月11日上午10点,全国确诊人数已达42708人,疑似病例21675人. 突发的疫情让部分地区的快速诊疗能力出现了结构性的缺失,为了打赢这场 ...

论文阅读笔记（四）【TIP2017】：Video-Based Pedestrian Re-Identiﬁcation by Adaptive Spatio-Temporal Appearance Model

论文阅读笔记（四）【TIP2017】：Video-Based Pedestrian Re-Identiﬁcation by Adaptive Spatio-Temporal Appearance Model的更多相关文章

随机推荐

热门专题