ECCV 2018 | 旷视科技提出GridFace:通过学习局部单应变换实现人脸校正
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此大会接收。在这篇论文中,旷视科技提出的一种通过学习局部单应变换实现人脸校正的全新方法——GridFace。
论文名称:《GridFace: Face Rectification via Learning Local Homography Transformations》
论文链接:https://arxiv.org/abs/1808.06210
导语
大千世界之中,人脸可谓是机器视觉识别技术的「第一号」目标,人脸识别顺理成章成为人工智能领域抢占的技术高地;在这场最为激烈的机器视觉技术制高点的争夺战中,人脸识别技术不断突破向前,甚至赶越人类水平。但是,在不受限环境中,人脸识别仍不能万无一失,尤其是在人脸几何变形的情况下。
有鉴于此,旷视科技创新性地提出 GridFace,通过学习局部单应变换减少人脸变形,提升识别性能。一句话,先校正,再识别,过硬的校正技术使得人脸识别性能得到显著提高。相关实验结果已证明该方法的有效性和高效性。这一原创技术将进一步强化旷视科技攻克四大识别目标(人、脸、车、字)的能力,有利于补足 AI 原创技术矩阵,达成 AI+IoT 闭环战略,持续为数字经济发展提供新动能。
图 1:GridFace 人脸校正实例。
背景
尽管深度学习在学界、业界均已获得重大进展,但是依然无法声称,人脸识别技术的应用落地毫不受限。自然场景中,人脸识别面临的现有挑战之一是人脸几何变形(facial geometric variations)。人脸在角度和对齐方面(由人脸检测边界框定位引入)的变形将从根本上影响人脸的表征和识别的性能。
解决这一问题的常用方法之一是通过 2D 变换把人脸关键点标定到预定义模版(即 2D 平均人脸关键点或者 3D 平均人脸模型);但是这种预处理方法并不是针对识别优化的,并严重依赖手工调节的参数和精确的人脸关键点。
为此,近期一些工作借助空间变换网络(Spatial Transformer Network/STN)实现端到端优化,可以兼顾人脸对齐和检测/识别。但是,通过 STN 学习的变换使用整体参数模型,只能捕捉一些粗糙的几何信息,比如人脸定向,并有可能校正结果的明显扭曲。
设计思想
有鉴于此,本文提出一种全新的方法,称之为 GridFace,以减少人脸几何变形,提升识别性能。如图 2 所示,该系统包含两个模块:校正模块和识别模块。
图 2:GridFace 图示。
在校正模块中,研究者通过一个人脸校正网络评估一组局部单应变换(local homography transformations),以校正输入的人脸图像。研究者还通过一组可变形平面单元近似 3D 标准人脸形状。当输入一张带有几何变形的人脸,评估其局部单应变换,以分别建模每个单元的扭曲。为鼓励生成标准的视角,研究者加入一个基于标准视角人脸分布的正则化。这一自然的人脸分布并未被显式建模。
相反,受到先前工作的启发,研究者通过一个降噪自编码器(Denoising Autoencoder)评估概率密度对数的梯度。识别模块把已校正的图像作为输入,并通过度量学习学习可判别性表征。
本文首先给出了这一方法的定量和定性结果,并在 4 个颇具挑战性的公开基准 LFW、YTF、IJB-A 和 Multi-PIE 上进行评估。相较于最新的人脸转正和识别工作,该方法在所有基准上取得了当前最优或者颇具竞争力的结果。本文贡献总结如下:
1. 通过减少带有局部单应变换的人脸几何变形,本文提出一种提升人脸识别性能的全新方法。
2. 本文引入一个人脸标准先验和一个基于近似方法的降噪自编码器以正则化人脸校正,完善校正质量。
3. 在受限和不受限环境中开展的扩展实验证明了该方法的优越性。
方法
另 I^X,I^Y 表示原始图像和校正图像。把原始图像 I^X 的坐标系作为原始坐标系,校正图像 I^Y 中的坐标系作为校正坐标系。另 p=
和 q=
表示原始坐标系和校正坐标系中的点。通过 p̂ 和 q̂ 分别把单应坐标系表示为 p̂=
和 q̂=
。在不损失通用性的前提下,研究者假设像素的坐标系被归一化为 [0, 1) × [0, 1)。
概述
如上所述,GridFace 包含两个部分,校正模块和识别模块。在校正过程中,带有参数 θ 的校正网络 f_θ 通过非刚性图像扭曲把原始的人脸图像 I^X 映射到校正图像 I^Y。接着,识别网络 g_φ 由基于校正图像 I^Y 的度量学习训练。标准视角下的自然人脸分布被作为正则化引入训练,用以鼓励标准视角的人脸校正。
人脸校正网络
不同于最近的人脸转正技术从抽象特征中生成人脸,本文把校正过程定义为从原始图像到校准后的标准图像的像素扭曲,如图 3 所示。
图 3:局部单应变换。
研究者通过把校正图像分割成 n^2 个非重叠单元以定义模版 Q:
对于每个单元
,研究者通过评估局部单应矩阵
计算原始图像中相应的可变形单元
。具体而言,单应矩阵可写为:
校正网络把原始图像 I^X 作为输入,并预测 n^2 个残差矩阵
。接着,获得单元
的校正图像 I^Y,同时单应矩阵
可写为:
其中 p̂ 和 q̂ 是 p 和 q 的单应坐标系。
把每一单元
的角点集合用 C 表示为
。由于分别评估所有的局部单应矩阵,校正图像中的一个单元角点被映射到原始图像中的多个点(见图 3)。为避免 I^X 中相邻单元的边界之间出现较大的不一致性,研究者进一步引入一个软约束,称之为可变形约束 L_de。具体而言,另 M_i 表示原始图像中 c_i 坐标系的集合;接着添加一个软约束
,从而把 M_i 中每一对点之间的一致性强化为
。研究者把这一软约束并入学习目标,并作为校正网络的可变形损失函数:
降噪自编码器正则化
正则化鼓励校正过程生成标准视角的人脸。研究者将其定义为一个图像先验,它直接基于自然图像的标准视角人脸分布 P_Y:
一般来讲,这一优化至关重要。研究者没有明确地建模这一分布,而是考虑的梯度,并通过随机梯度下降最大化它:
借助于用于图像生成和复原的先前结果,研究者把先验梯度近似为
这里,
是在真实数据分布 P_Y(本文的标准视角人脸)上训练的最优降噪自编码器。借助这些结果,研究者通过在标准视角人脸数据集上训练一个降噪自编码器 h_ω 来优化公式 5,接着通过公式 7 评估反向传播中已近似的梯度。
人脸识别网络
给定校正人脸
,研究者利用深度卷积识别网络 g_φ 提取人脸表征
。按照先前工作,研究者使用三元组损失函数(triplet loss)训练识别网络。另
表示 3 张图像,形成一个人脸三元组,其中
和
来自同一个人,
来自另外一个人。识别损失函数如下:
其中
是特征表征 x 和 y 之间的欧几里得距离。超参数 α 控制三元组损失函数之内人内距离和人间距离之间的余量(margin)。
总结一下,研究者通过最小化一个目标联合优化校正网络和识别网路,包括一个可变形项,一个识别项和一个正则化项:
实验
GridFace 所使用的数据集是社交网络人脸数据集(Social Network Face Dataset/SNFace),它包含大约 10M 张图像和 200K 张人脸。在本文的所有实验中,研究者使用 GoogLeNet 作为识别网络,校正网络基于一个修改的 Inception 模块。降噪自编码器基于一个卷积自编码器架构而设计。网络细节请见表 1:
表 1:网络细节。
人脸校正
本文所有方法的评估均在 SNFace 测试集上,研究者对比了若干个同类方法:baseline 模型没有人脸校正;全局模型 Grid-1 通过全局单应变换实现人脸校正;没有人脸先验正则化的模型 Grid-8\reg 在训练期间没有正则化。
进而,为了对比在人脸识别技术中使用的 3D 人脸转正技术,研究者借助一项近期的人脸转正技术(Hassner et al.)处理整个 SNFace 数据集以合成正面视角,并与这一在合成数据上(称之为 baseline-3D)训练的模型对比,以验证本文方法人脸校正和联合优化的有效性。
图 4:SNFace 测试集的定量分析。
表 2:SNFace 测试集的定量结果。
图 5:合成 2D 变换。
表 3:合成 2D 变换之下的定量结果。
评估结果
为验证已学习模型的跨数据泛化能力,研究者在 4 个挑战赛公开基准上做了实验,即 LFW,YTF,Multi-PIE 和 IJB-A,它们涵盖大角度、表情以及光照变化情况下的人脸校正。
图 8:GridFace 在公开基准上的定性结果。左上:LFW;左下:YTF,右上:IJB-A,右下:Multi-PIE。
表 4:LFW 和 YTF 评估结果。
表 5:Multi-PIE 评估结果。
表 6:IJB-A 评估结果。
结论
本文开发出一种称之为 GridFace 的方法,以减少人脸几何变形。借助局部单应变换,研究者提出一种全新的非刚性人脸校正方法,并通过把降噪自编码器应用于自然的正面人脸分布来正则化它。实验结果表明该方法可大幅降低人脸变形,提升识别性能。
参考文献
Alain, G., Bengio, Y.: What regularized auto-encoders learn from the data- generating distribution. The Journal of Machine Learning Research 15(1), 3563– 3593 (2014)
Jaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks. In: Advances in Neural Information Processing Systems 28. pp. 2017–2025 (2015)
S ̈arela ̈, J., Valpola, H.: Denoising source separation. Journal of machine learning research 6(Mar), 233–272 (2005)
Chen, D., Hua, G., Wen, F., Sun, J.: Supervised transformer network for effi- cient face detection. In: European Conference on Computer Vision. pp. 122–138. Springer (2016)
Zhong, Y., Chen, J., Huang, B.: Toward end-to-end face recognition through align- ment learning. IEEE Signal Processing Letters 24(8), 1213–1217 (Aug 2017). https://doi.org/10.1109/LSP.2017.2715076
ECCV 2018 | 旷视科技提出GridFace:通过学习局部单应变换实现人脸校正的更多相关文章
- ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化场景理解
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙 ...
- 旷视科技 -- Face++ 世界最大的人脸识别技术平台
旷视科技 -- Face++ 世界最大的人脸识别技术平台: https://www.megvii.com/
- 入职9月,旷视孙剑106分钟讲述CV创业科研的5大区别
雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷 ...
- 旷视等Oral论文提出GeoNet:基于测地距离的点云分析深度网络
基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云 ...
- ECCV 2018 | UBC&腾讯AI Lab提出首个模块化GAN架构,搞定任意图像PS组合
通常的图像转换模型(如 StarGAN.CycleGAN.IcGAN)无法实现同时训练,不同的转换配对也不能组合.在本文中,英属哥伦比亚大学(UBC)与腾讯 AI Lab 共同提出了一种新型的模块化多 ...
- 旷视研究院Detection组负责人
http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理 ...
- 旷视6号员工范浩强:高二开始实习,“兼职”读姚班,25岁在CVPR斩获第四个世界第一...
初来乍到,这个人说话容易让人觉得"狂". "我们将比赛结果提交上去,果不其然,是第一名的成绩."当他说出这句话的时候,表情没有一丝波澜,仿佛一切顺理成章. 他说 ...
- 旷视MegEngine核心技术升级
旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta ...
- 最近被旷视的YOLOX刷屏了!
目录 论文主要信息 文章概要 背景 YOLOX-DarkNet53 实现细节 YOLOv3 baseline Decoupled head 实验 思路 story Strong data augmen ...
随机推荐
- UI基础:UI程序执行顺序(UIApplicationMain()函数),自定义视图 分类: iOS学习-UI 2015-07-02 22:09 68人阅读 评论(0) 收藏
UI程序的一般执行顺序: 先进入main里面,执行函数UIApplicationMain(),通过该函数创建应用程序对象和指定其代理并实现监听,当执行函数UIApplicationMain()时还会做 ...
- Java快速排序和归并排序详解
快速排序 概述 快速排序算法借鉴的是二叉树前序遍历的思想,最终对数组进行排序. 优点: 对于数据量比较大的数组排序,由于采用的具有二叉树二分的思想,故排序速度比较快 局限 只适用于顺序存储结构的数据排 ...
- I.MX6 ar1020 SPI device driver hacking
/************************************************************************************ * I.MX6 ar1020 ...
- Codeforces gym101955 A【树形dp】
LINK 有n个大号和m个小号 然后需要对这些号进行匹配,一个大号最多匹配2个小号 匹配条件是大号和小号构成了前缀关系 字符串长度不超过10 问方案数 思路 因为要构成前缀关系 所以就考虑在trie树 ...
- WC游记
第一次来WC,感觉这种集训真吼啊 day0 火车上快速补习了莫队,和AC自动姬,AC自动姬以前就会写只不过太久没写忘了我会了= = 莫队只是学习了做法,还没有做过题…… 本来想再复习一下后缀数组,然后 ...
- 理解cookie和session技术
一.HTTP协议的无状态性 WEB应用程序使用的是HTTP协议传输数据的,HTTP协议是一个无状态的协议,这次数据传输完毕,客户端会和服务端断开连接,再次传输数据就需要重新建立新的连接,这也就无法会话 ...
- Centos7修改文件夹权限和用户名用户组
Linux系统下经常遇到文件或者文件夹的权限问题,或者是因为文件夹所属的用户问题而没有访问的权限.根据我自己遇到的情况,对这类问题做一个小结.在命令行使用命令“ll”或者“ls -a”,可以查看文件或 ...
- net core 2.0学习笔记(一):开发运行环境搭建 (转)
期待已久的.net core 2.0终于发布了!大家等的花儿都谢了. 不过比预期提前了一个多月,这在微软历史上还真的不多见.按照历史经验看,2.0版本应该比较靠谱,我猜这也是社区非常火爆的原因吧.下面 ...
- android调节音量——AudioManager的应用
Android中可以通过程序获取系统手机的铃声和音量.同样,也可以设置铃声和音量.android中给出了AudioManager类来实现音量获取.音量控制. 本篇基于 Android API 中的 A ...
- go http client, http server
Go语言中的HTTP client, server非常简单.具体如下. HTTP Server package main import ( "fmt" "html&quo ...