ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正

全球计算机视觉三大顶会之一 ECCV 2018（European Conference on Computer Vision）即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕，旷视科技有多篇论文被此大会接收。在这篇论文中，旷视科技提出的一种通过学习局部单应变换实现人脸校正的全新方法——GridFace。

论文名称：《GridFace: Face Rectification via Learning Local Homography Transformations》

论文链接：https://arxiv.org/abs/1808.06210

导语

大千世界之中，人脸可谓是机器视觉识别技术的「第一号」目标，人脸识别顺理成章成为人工智能领域抢占的技术高地；在这场最为激烈的机器视觉技术制高点的争夺战中，人脸识别技术不断突破向前，甚至赶越人类水平。但是，在不受限环境中，人脸识别仍不能万无一失，尤其是在人脸几何变形的情况下。

有鉴于此，旷视科技创新性地提出 GridFace，通过学习局部单应变换减少人脸变形，提升识别性能。一句话，先校正，再识别，过硬的校正技术使得人脸识别性能得到显著提高。相关实验结果已证明该方法的有效性和高效性。这一原创技术将进一步强化旷视科技攻克四大识别目标（人、脸、车、字）的能力，有利于补足 AI 原创技术矩阵，达成 AI+IoT 闭环战略，持续为数字经济发展提供新动能。

图 1：GridFace 人脸校正实例。

背景

尽管深度学习在学界、业界均已获得重大进展，但是依然无法声称，人脸识别技术的应用落地毫不受限。自然场景中，人脸识别面临的现有挑战之一是人脸几何变形（facial geometric variations）。人脸在角度和对齐方面（由人脸检测边界框定位引入）的变形将从根本上影响人脸的表征和识别的性能。

解决这一问题的常用方法之一是通过 2D 变换把人脸关键点标定到预定义模版（即 2D 平均人脸关键点或者 3D 平均人脸模型）；但是这种预处理方法并不是针对识别优化的，并严重依赖手工调节的参数和精确的人脸关键点。

为此，近期一些工作借助空间变换网络（Spatial Transformer Network/STN）实现端到端优化，可以兼顾人脸对齐和检测/识别。但是，通过 STN 学习的变换使用整体参数模型，只能捕捉一些粗糙的几何信息，比如人脸定向，并有可能校正结果的明显扭曲。

设计思想

有鉴于此，本文提出一种全新的方法，称之为 GridFace，以减少人脸几何变形，提升识别性能。如图 2 所示，该系统包含两个模块：校正模块和识别模块。

图 2：GridFace 图示。

在校正模块中，研究者通过一个人脸校正网络评估一组局部单应变换（local homography transformations），以校正输入的人脸图像。研究者还通过一组可变形平面单元近似 3D 标准人脸形状。当输入一张带有几何变形的人脸，评估其局部单应变换，以分别建模每个单元的扭曲。为鼓励生成标准的视角，研究者加入一个基于标准视角人脸分布的正则化。这一自然的人脸分布并未被显式建模。

相反，受到先前工作的启发，研究者通过一个降噪自编码器（Denoising Autoencoder）评估概率密度对数的梯度。识别模块把已校正的图像作为输入，并通过度量学习学习可判别性表征。

本文首先给出了这一方法的定量和定性结果，并在 4 个颇具挑战性的公开基准 LFW、YTF、IJB-A 和 Multi-PIE 上进行评估。相较于最新的人脸转正和识别工作，该方法在所有基准上取得了当前最优或者颇具竞争力的结果。本文贡献总结如下：

1. 通过减少带有局部单应变换的人脸几何变形，本文提出一种提升人脸识别性能的全新方法。

2. 本文引入一个人脸标准先验和一个基于近似方法的降噪自编码器以正则化人脸校正，完善校正质量。

3. 在受限和不受限环境中开展的扩展实验证明了该方法的优越性。

方法

另 I^X，I^Y 表示原始图像和校正图像。把原始图像 I^X 的坐标系作为原始坐标系，校正图像 I^Y 中的坐标系作为校正坐标系。另 p=

和 q=

表示原始坐标系和校正坐标系中的点。通过 p̂ 和 q̂ 分别把单应坐标系表示为 p̂=

和 q̂=

。在不损失通用性的前提下，研究者假设像素的坐标系被归一化为 [0, 1) × [0, 1)。

概述

如上所述，GridFace 包含两个部分，校正模块和识别模块。在校正过程中，带有参数 θ 的校正网络 f_θ 通过非刚性图像扭曲把原始的人脸图像 I^X 映射到校正图像 I^Y。接着，识别网络 g_φ 由基于校正图像 I^Y 的度量学习训练。标准视角下的自然人脸分布被作为正则化引入训练，用以鼓励标准视角的人脸校正。

人脸校正网络

不同于最近的人脸转正技术从抽象特征中生成人脸，本文把校正过程定义为从原始图像到校准后的标准图像的像素扭曲，如图 3 所示。

图 3：局部单应变换。

研究者通过把校正图像分割成 n^2 个非重叠单元以定义模版 Q：

对于每个单元

，研究者通过评估局部单应矩阵

计算原始图像中相应的可变形单元

。具体而言，单应矩阵可写为：

校正网络把原始图像 I^X 作为输入，并预测 n^2 个残差矩阵

。接着，获得单元

的校正图像 I^Y，同时单应矩阵

可写为：

其中 p̂ 和 q̂ 是 p 和 q 的单应坐标系。

把每一单元

的角点集合用 C 表示为

。由于分别评估所有的局部单应矩阵，校正图像中的一个单元角点被映射到原始图像中的多个点（见图 3）。为避免 I^X 中相邻单元的边界之间出现较大的不一致性，研究者进一步引入一个软约束，称之为可变形约束 L_de。具体而言，另 M_i 表示原始图像中 c_i 坐标系的集合；接着添加一个软约束

，从而把 M_i 中每一对点之间的一致性强化为

。研究者把这一软约束并入学习目标，并作为校正网络的可变形损失函数：

降噪自编码器正则化

正则化鼓励校正过程生成标准视角的人脸。研究者将其定义为一个图像先验，它直接基于自然图像的标准视角人脸分布 P_Y：

一般来讲，这一优化至关重要。研究者没有明确地建模这一分布，而是考虑的梯度，并通过随机梯度下降最大化它：

借助于用于图像生成和复原的先前结果，研究者把先验梯度近似为

这里，

是在真实数据分布 P_Y（本文的标准视角人脸）上训练的最优降噪自编码器。借助这些结果，研究者通过在标准视角人脸数据集上训练一个降噪自编码器 h_ω 来优化公式 5，接着通过公式 7 评估反向传播中已近似的梯度。

人脸识别网络

给定校正人脸

，研究者利用深度卷积识别网络 g_φ 提取人脸表征

。按照先前工作，研究者使用三元组损失函数（triplet loss）训练识别网络。另

表示 3 张图像，形成一个人脸三元组，其中

和

来自同一个人，

来自另外一个人。识别损失函数如下：

其中

是特征表征 x 和 y 之间的欧几里得距离。超参数 α 控制三元组损失函数之内人内距离和人间距离之间的余量（margin）。

总结一下，研究者通过最小化一个目标联合优化校正网络和识别网路，包括一个可变形项，一个识别项和一个正则化项：

实验

GridFace 所使用的数据集是社交网络人脸数据集（Social Network Face Dataset/SNFace），它包含大约 10M 张图像和 200K 张人脸。在本文的所有实验中，研究者使用 GoogLeNet 作为识别网络，校正网络基于一个修改的 Inception 模块。降噪自编码器基于一个卷积自编码器架构而设计。网络细节请见表 1：

表 1：网络细节。

人脸校正

本文所有方法的评估均在 SNFace 测试集上，研究者对比了若干个同类方法：baseline 模型没有人脸校正；全局模型 Grid-1 通过全局单应变换实现人脸校正；没有人脸先验正则化的模型 Grid-8\reg 在训练期间没有正则化。

进而，为了对比在人脸识别技术中使用的 3D 人脸转正技术，研究者借助一项近期的人脸转正技术（Hassner et al.）处理整个 SNFace 数据集以合成正面视角，并与这一在合成数据上（称之为 baseline-3D）训练的模型对比，以验证本文方法人脸校正和联合优化的有效性。

图 4：SNFace 测试集的定量分析。

表 2：SNFace 测试集的定量结果。

图 5：合成 2D 变换。

表 3：合成 2D 变换之下的定量结果。

评估结果

为验证已学习模型的跨数据泛化能力，研究者在 4 个挑战赛公开基准上做了实验，即 LFW，YTF，Multi-PIE 和 IJB-A，它们涵盖大角度、表情以及光照变化情况下的人脸校正。

图 8：GridFace 在公开基准上的定性结果。左上：LFW；左下：YTF，右上：IJB-A，右下：Multi-PIE。

表 4：LFW 和 YTF 评估结果。

表 5：Multi-PIE 评估结果。

表 6：IJB-A 评估结果。

结论

本文开发出一种称之为 GridFace 的方法，以减少人脸几何变形。借助局部单应变换，研究者提出一种全新的非刚性人脸校正方法，并通过把降噪自编码器应用于自然的正面人脸分布来正则化它。实验结果表明该方法可大幅降低人脸变形，提升识别性能。

参考文献

Alain, G., Bengio, Y.: What regularized auto-encoders learn from the data- generating distribution. The Journal of Machine Learning Research 15(1), 3563– 3593 (2014)

Jaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks. In: Advances in Neural Information Processing Systems 28. pp. 2017–2025 (2015)

S ̈arela ̈, J., Valpola, H.: Denoising source separation. Journal of machine learning research 6(Mar), 233–272 (2005)

Chen, D., Hua, G., Wen, F., Sun, J.: Supervised transformer network for effi- cient face detection. In: European Conference on Computer Vision. pp. 122–138. Springer (2016)

Zhong, Y., Chen, J., Huang, B.: Toward end-to-end face recognition through align- ment learning. IEEE Signal Processing Letters 24(8), 1213–1217 (Aug 2017). https://doi.org/10.1109/LSP.2017.2715076

ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正的更多相关文章

ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet，优化场景理解
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙 ...
旷视科技 -- Face++ 世界最大的人脸识别技术平台
旷视科技 -- Face++ 世界最大的人脸识别技术平台: https://www.megvii.com/
入职9月，旷视孙剑106分钟讲述CV创业科研的5大区别
雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷 ...
旷视等Oral论文提出GeoNet：基于测地距离的点云分析深度网络
基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云 ...
ECCV 2018 | UBC&腾讯AI Lab提出首个模块化GAN架构，搞定任意图像PS组合
通常的图像转换模型(如 StarGAN.CycleGAN.IcGAN)无法实现同时训练,不同的转换配对也不能组合.在本文中,英属哥伦比亚大学(UBC)与腾讯 AI Lab 共同提出了一种新型的模块化多 ...
旷视研究院Detection组负责人
http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理 ...
旷视6号员工范浩强：高二开始实习，“兼职”读姚班，25岁在CVPR斩获第四个世界第一...
初来乍到,这个人说话容易让人觉得"狂". "我们将比赛结果提交上去,果不其然,是第一名的成绩."当他说出这句话的时候,表情没有一丝波澜,仿佛一切顺理成章. 他说 ...
旷视MegEngine核心技术升级
旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta ...
最近被旷视的YOLOX刷屏了！
目录论文主要信息文章概要背景 YOLOX-DarkNet53 实现细节 YOLOv3 baseline Decoupled head 实验思路 story Strong data augmen ...

随机推荐

oo面向对象--规格化设计
oo面向对象--规格化设计规格化设计与抽象要了解规格化设计首先要了解抽象化的程序设计,两者是密不可分的. 抽象化(Abstraction) 抽象化是将数据与程序,用语义呈现他们的外观,但是隐藏起它 ...
XDocument 使用
摘要: 正文: 1.引入XDocument的命名空间 using System.Xml.Linq; 2. List<CourseItem> to XML doc //List<Cou ...
python学习之-软件开发的目录规范
通常软件目录下有几个标准文件夹软件主文件夹命名,通常都是大写(ATM_SHOPPING) ------------------------------------------------------ ...
bitset与取数凑数类问题
bitset是C++中的一个东西,定义在头文件#include<bitset>里所以可以使用#include<bitset>解决取数类的问题https://www.nowco ...
hdu2087 剪花布条暴力/KMP
在字符串中不可重叠地寻找子串数量,暴力/KMP #include<stdio.h> #include<string.h> int main(){ ],b[]; ]!='#'){ ...
【mysql】修改数据时候，抛出safe mode相关错误，处理方法
在mysql5中,可以设置safe mode,比如在一个更新语句中 UPDATE table_name SET bDeleted=0; 执行时会错误,报: You are using safe upd ...
Eclipse+Spring学习（一）环境搭建（转）
最近由于投了一家公司实习,他要java工程师,而我大学3年的精力都花到了ASP.NET和前端上面,到找工作的时候才发现大公司不要.NET的,所以马上转型java...由于网上的高手都不屑于写这类文章, ...
ruby hash 默认值的问题
参考:http://stackoverflow.com/questions/16159370/ruby-hash-default-value-behavior 使用ruby hash 默认值为空数组, ...
lsof-查看进程句柄
root@root:~# lsof COMMAND PID TID USER FD TYPE DEVICE SIZE/OFF NODE NAME systemd root cwd DIR , / sy ...
ZH奶酪：隐马尔可夫模型学习小记——forward算法+viterbi算法+forward-backward算法（Baum-welch算法）
网上关于HMM的学习资料.博客有很多,基本都是左边摘抄一点,右边摘抄一点,这里一个图,那里一个图,公式中有的变量说不清道不明,学起来很费劲. 经过浏览几篇博文(其实有的地方写的也比较乱),在7张4开的 ...

ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正

ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正的更多相关文章

随机推荐

热门专题