Learning Invariant Deep Representation for NIR-VIS Face Recognition

查找异质图像匹配的过程中，发现几篇某组的论文，都是关于NIR-VIS的识别问题，提到了许多处理异质图像的处理方法，网络结构和idea都很不错，记录其中一篇。

其余两篇：

Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition

A Light CNN for Deep Face Representation with Noisy Labels

摘要

VIS-NIR（可见光与近红外）面部识别仍然是异质图像识别中的挑战。本文只用一个网络来映射NIR和VIS图像至一个紧凑的欧式空间。网络的低级层仅仅在大规模VIS数据中训练。每个卷积层由简单的maxout operator实现。网络的高级层被划分为两个正交的子空间，分别包括模态不变身份信息（modality-invariant identity information）和模态变化光谱信息（modality-variant spectrum information）。我们的联合公式在训练时引导交替最小化方法得到深度表示，测试时高效计算异质数据。实验证明了在CASIA NIR-VIS 2.0面部识别数据中实现94 percent的正确率，仅仅有64D大小的表示，比之前低了58 percent的错误率。

1. 介绍

NIR图像提供了廉价且简单的方式来提高在低光照情况下的面部识别能力。对于光照变换没有VIS那么敏感，所以被广泛应用于安检等。在真实应用中，NIR往往需要和VIS一起使用，导致了两者之间的匹配问题。这个问题可称为：NIR-VIS 异质面部识别问题。

NIR与VIS属于不同光谱，自然有很大的外表差异。所以深度网络在VIS数据训练后不含有NIR光谱信息，所以无法很好的解决NIR问题。怎样利用大规模VIS面部数据来探索NIR和VIS面部模态不变表示值得思考。得益于网络数据，我们可以容易获得大量VIS面部数据，然而成对的NIR数据难以获得。怎样在小规模NIR-VIS数据中学习也是一个中心问题。

之前的NIR-VIS匹配方法经常利用trick来减轻外观差异，通过移除一些可能含有光谱信息的主子空间。Chen在2012提出面部外观由身份信息（identity information）和变化信息(variation information eg.,lighting,poses,expressions)组成。受启发于此，本文提出一个网络来学习Invariant Deep Representation (IDR)同时包含NIR和VIS人脸信息，利用一个单一网络来将NIR和VIS图像同时映射到一个压缩后的欧式空间，使得NIR和VIS图像在嵌入空间embedding space中可以直接对应到面部相似性。

我们的网络首先在大规模VIS数据中训练，卷积层和全连接由简化形式的maxout operator实现。这个网络使得我们学习的到的表示对于类内个体变化很鲁棒。然后，网络底层固定，微调NIR数据。高层划分为两个正交子空间：模态不变身份信息（modality-invariant identity information）和模态变化光谱信息（modality-variant spectrum information）。这个正交限制和maxout operator在高层可以缩减参数空间，因此避免了在小的NIR-VIS数据集上的过拟合。本文提出的IDR达到了SOTA，贡献如下：

一个高效深度网络结构学习模态不变表示，交替最小化高效优化。这个结构可以自然结合之前的不变特征提取和子空间学习到一个统一网络。
两个正交子空间嵌入网络中来建模身份和光谱信息。使得可以提取压缩后的表示，减小了小数据中的过拟合问题。
在数据集CASIA NIR-VIS 2.0面部数据上以64维的表示达到SOTA。

2. 相关工作

许多工作提出来减轻异质图像的外观差异。大多数方法可以分为三类：image synthesis, subspace learning、invariant feature extraction。

1）Image synthesis

主要从一个模态合成面部图像到另一个模态使得异质图像可在同一距离空间比较。

2）subspace learning

学习映射异质数据到一个共同的空间。当前sota方法是通过移除一些主子空间成分来解决。

3）Invariant feature extraction

即寻找模态不变特征使得对光照鲁棒。传统方法较多。

尽管很多方法，NIR-VIS识别表现仍然很low。远不如VIS数据结果好。很少有dl方法处理NIR-VIS，所以本文用DL方法来解决。

3. Invariant Deep Representation

本节介绍子空间分解和不变性特征提取，来学习模态不变深度表示。

注意到移除光谱信息有助于提高NIR-VIS识别表现。我们进一步三个映射矩阵（W，P,见上图）来建模身份不变信息和不变光谱信息。所以特征表示可以表示如下：

WX和PX分别代表共享特征和独立特征。考虑到子空间分解特性关于矩阵W和P：我们进一步提出一个正交限制使他们互相无关：

利用softmax函数来训练整个网络：

优化方法：

上式包含一些非凸变量，我们利用一种交替优化方法来最小化目标函数。首先根据朗格朗日乘子，重写上述函数：

待优化参数有网络参数、W、P。利用交替优化更新，网络参数初始化利用Xavier，W和P初始化：

网络结构：lightened CNN B network（同作者另一作品：A Light CNN for Deep Face Representation with Noisy Labels）网络包括9个卷积层+4个最大池化层+全连接。Dropout设为0.7。初始学习率0.001，降到0.00001。基于该网络实现本文，特征层用来映射低级特征到两个正交子空间。

4. 其他要点

算法分析：分析本文提出的不变性深度表征: invariant deep representation (IDR)

我们实现了两种版本的IDR：DR表示IDR没有NIR特征和VIS特征。即仅仅训练卷积网络，没有子空间分解。这会导致大量参数在全连接和特征层，导致在小数据NIR-VIS上过拟合。特征层的maxout operator也有助于减少过拟合。因此，IDRm表示IDR没有maxout operator在特征层。

上图表明IDR是最好的结果。对比IDR和IDRm，注意到maxout operator在最后一个卷积层可进一步降低equal error rate，并提高表现。

最后再附两张碾压性能图：

Learning Invariant Deep Representation for NIR-VIS Face Recognition的更多相关文章

论文笔记之：UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS ICLR 2 ...
Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition
承接上上篇博客,在其基础上,加入了Wasserstein distance和correlation prior .其他相关工作.网络细节(maxout operator).训练方式和数据处理等基本和前 ...
（转）Understanding, generalisation, and transfer learning in deep neural networks
Understanding, generalisation, and transfer learning in deep neural networks FEBRUARY 27, 2017 Thi ...
A Gentle Introduction to Transfer Learning for Deep Learning | 迁移学习
by Jason Brownlee on December 20, 2017 in Better Deep Learning Transfer learning is a machine learni ...
[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)
译自:http://sebastianruder.com/multi-task/ 1. 前言在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我 ...
paper 124：【转载】无监督特征学习——Unsupervised feature learning and deep learning
来源:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio c ...
论文笔记之：Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
Learning Cross-Modal Deep Representations for Robust Pedestrian Detection 2017-04-11 19:40:22 Moti ...
转：无监督特征学习——Unsupervised feature learning and deep learning
http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio clas ...
Incentivizing exploration in reinforcement learning with deep predictive models
Stadie, Bradly C., Sergey Levine, and Pieter Abbeel. "Incentivizing exploration in reinforcemen ...

随机推荐

Advertising.csv
TV,radio,newspaper,sales1,230.1,37.8,69.2,22.12,44.5,39.3,45.1,10.43,17.2,45.9,69.3,9.34,151.5,41.3, ...
okhttp添加自定义cookie
package cn.x.request; import java.util.ArrayList; import java.util.HashMap; import java.util.Lis ...
设计模式---状态变化模式之state状态模式（State）
前提:状态变化模式在组建构建过程中,某些对象的状态经常面临变化,如何对这些变化进行有效的管理?同时又维持高层模块的稳定?“状态变化”模式为这一个问题提供了一种解决方案. 典型模式状态模式:Stat ...
laravel 5.4 fopen(): Filename cannot be empty
1.出错的报错信息(我在用laravel5.4文件上传时候出错的) laravel 5.4 fopen(): Filename cannot be empty 2.解决的方法在php.ini中修改临 ...
ACM-ICPC 2018 焦作赛区网络预赛 A Magic Mirror（签到）
https://nanti.jisuanke.com/t/31710 题意若输入的是Jessie或jessie,输出Good guy!,否则输出Dare you say that again? 分析 ...
UVA - 11732 "strcmp()" Anyone? （trie）
https://vjudge.net/problem/UVA-11732 题意给定n个字符串,问用strcmp函数比较这些字符串共用多少次比较. strcmp函数的实现 int strcmp(cha ...
HTML第二耍列表标签
先复习下上一节 <!doctype html> <html> <head> <meta charset="utf-8"> <t ...
Spark源码剖析 - SparkContext的初始化(五)_创建任务调度器TaskScheduler
5. 创建任务调度器TaskScheduler TaskScheduler也是SparkContext的重要组成部分,负责任务的提交,并且请求集群管理器对任务调度.TaskScheduler也可以看作 ...
impala系列:impala特有的操作符
--=======================Impala 特有的操作符--=======================ILIKE 操作符, 忽略大小写的 like 操作符.REGEXP 操作符 ...
MySQL的一些基本命令笔记(2)
1.逻辑运算符的补充 between 的用法:(在....之间) select column1,column2,......columnN from 表名 where columnX between ...

Learning Invariant Deep Representation for NIR-VIS Face Recognition

Learning Invariant Deep Representation for NIR-VIS Face Recognition的更多相关文章

随机推荐

热门专题