侧脸生成正脸概论与精析（一）Global and Local Perception GAN

侧脸生成正脸我一直很感兴趣，老早就想把这块理一理的。今天来给大家分享一篇去年的老文章，如果有不对的地方，请斧正。

Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and

Identity Preserving Frontal View Synthesis

文章下载地址：

https://arxiv.org/abs/1704.04086

有很多公众号和博客都写过了，翻译的文字我觉得有些生硬。俗话说，一千个读者有一千个哈姆雷特。今天我给大家我的视角，希望带来不一样的阅读体验。

温故而知新，可以为师矣。学习就是这样，去粗取精，去伪存真，由此及彼，由表及里。

第一节侧脸生成正脸相关文献介绍

由此及彼：

干类似的事情的还有2篇文章，也很值得读。推荐如下：

自动化所胡一博老师的：

Pose-Guided Photorealistic Face Rotation

颜水成老师的：

Towards Pose Invariant Face Recognition in the Wild

这两篇都是今年的CVPR。

借用一下胡一博老师整理的图：

整个领域的文献基本都在这里了。颜老师的文章是图片中的PIM。

如果光是生成人脸，还有一个工作是谷歌大脑的：

BEGAN: Boundary Equilibrium Generative Adversarial Networks

他这个是直接生成脸，训练集有正脸有侧脸的。

领域知识都介绍完了，我们来说说这篇文章吧。

第二节文章的主线：输入与输出

论文有的是讲方法论的，有的是讲技能的。这篇文章是讲技能的。讲技能的文章，我的阅读方式是先抓主干。一个软件的主干是什么呢？那就是输入输出嘛。

论文用的训练集是Multi-PIE。训练集的输入：侧脸和正脸训练对。侧脸有几个种类，90度，60度，45度等等。事实上，不光正脸的训练对，还做了预处理，通过关键点检测，把左眼、右眼、鼻子、嘴巴都抠出来了。做成了侧脸左眼、正脸左眼训练对。依次类推。

训练好的模型有两个输出：第一个是侧脸生成正脸。

这个很好看懂，最后一列是正脸，其它都是两列，第一列是侧脸，不同角度，第二列是合成的人脸。

第二个输出是提升了人脸识别的精度。这个是他跟一般的GAN文章不一样的地方。也是比较有意思的点。

这个表格如果你之前没有研究过侧脸和正脸方面的内容，是比较难看懂的。比如说，这个是怎么测试的，他这个一列加减60度，得到的精度代表什么意思，训练集和测试集是啥。

这个列表上写的Setting1，事实上论文里只是一个引用没有具体说，具体的定义在这个文章里：

Deep Learning Identity-Preserving Face Space

训练集和测试集的人是分开的，所谓的setting1是指这个训练集测试集的具体设置。

他这个测试精度是这样得来的：选定一张正脸，让你用CNN来判别，比如说75度的脸跟这个正脸是不是同一个人。从文章可以看到，45度以内，一般的CNN都效果很好的，45度以上，TP-GAN提升了不少精度，他是怎么做到的呢？因为他先用侧脸生成一个正脸，然后比对生成的正脸和真实的正脸是不是同一个人，这样提升精度的。

第三节实现主线输入输出的loss和网络结构设计

网络结构是比较清楚的。文章讲的也很透彻。一个GAN网络和一个分类网络，GAN网络由两个，一个全局的GAN生成一个正脸轮廓没有具体眼睛嘴巴鼻子的，四个局部的GAN分别生成左眼右眼鼻子嘴巴。然后把他们两个结合起来。

分类网络就是一个简单的CNN，判别生成的人脸是哪个人。

图片中，上一层是GAN网络，下一层是分类网络。

接下来我们看loss的设计，loss是指挥棒，得好好琢磨一下。

先看目标函数：

InF 代表的是ground truth正脸，InP代表的是侧脸，目标函数前一项是合成的正脸和真实正脸之间的损失，是对应网络结构中的二路GAN的，后一项是分类的交叉熵损失，对应网络结构图中的light-cnn。

1、像素级损失

这个loss计算起来计算量会很大，它直接算合成的人脸与真实正脸每个点像素值的绝对差值。这个loss在三个地方起作用，一个是预测局局部区域例如左眼的时候，一个是全局的，还有是全局和局部合成一个最终正脸的时候。如果光训练这一个loss，要训练到收敛我觉得是比较难的。因为每个点的像素值都能影响到loss，训练过程中指挥棒比较分散。

2、对称损失

由于预测的是正脸，正脸是对称的，左右对称位置上的像素应该相同。这个损失就是算左右位置像素值的差的。

3、对抗损失

这个就是一般的GAN损失，让合成的人脸跟真实人脸更接近。

D代表的是判别网络，G代表的是生成网络。

4、保留身份的损失

这个损失的作用是让合成的人脸还是本人，而不是合成了另一个人。对抗损失是保证合成的人脸逼真，保留身份损失相当于更进一步，不光逼真，还是本人。

注意看这个公式，它的i是从1到2的，代表的是分类网络的最后两层卷积层，

W 和H呢代表的是卷积后得到的feature map的维度。

绝对值符号里面的两项相减，说的是真实正脸和合成正脸走CNN前向传播得到的feature map。

它的物理意义是相对像素级的损失的，他的损失是高级语义损失，由于CNN的高层值代表更抽象的语义信息，因而这个损失能保证合成的人脸主体特征的正确性，进而保证了合成人脸的身份。

这个损失类似的经典损失函数是感知损失。大家可以自己搜下perceptual loss。

最后，把上面这几个损失加权求和就是最终的损失函数了。

文末习题：

文章解说完了，接下来搞个题目试试看如何？

输入这样一张人脸，用训练好的网络测试能输出合成的很好的正脸吗？

微信扫一扫
关注该公众号

侧脸生成正脸概论与精析（一）Global and Local Perception GAN的更多相关文章

MVVM大比拼之knockout.js源码精析
简介本文主要对源码和内部机制做较深如的分析,基础部分请参阅官网文档. knockout.js (以下简称 ko )是最早将 MVVM 引入到前端的重要功臣之一.目前版本已更新到 3 .相比同类主要有 ...
MVVM大比拼之AngularJS源码精析
MVVM大比拼之AngularJS源码精析简介 AngularJS的学习资源已经非常非常多了,AngularJS基础请直接看官网文档.这里推荐几个深度学习的资料: AngularJS学习笔记作者: ...
jquery uploadify文件上传插件用法精析
jquery uploadify文件上传插件用法精析 CreationTime--2018年8月2日11点12分 Author:Marydon 一.参数说明 1.参数设置 $("#fil ...
miaov- 自动生成正V反V大于号V小于号V楼梯等图案
1. 核心:控制数量的长度-1-i的位置,是放在left上还是top上?是放在前面还是后面! <!DOCTYPE html> <html lang="en"&g ...
Android长方形图片生成正圆形，以及矩形图片生成圆角
一般要做正圆形图片,只能是正方形的基础上才能实现,否则就变成椭圆了,下面说说如何使长方形的图片生成正圆形图片废话不多说,没图没真相,先上图吧: 原图: 变成正圆后: 下面上代码: public ...
vue.js源码精析
MVVM大比拼之vue.js源码精析 VUE 源码分析简介 Vue 是 MVVM 框架中的新贵,如果我没记错的话作者应该毕业不久,现在在google.vue 如作者自己所说,在api设计上受到了很多 ...
TensorFlow练习24: GANs-生成对抗网络 (生成明星脸)
http://blog.topspeedsnail.com/archives/10977 从2D图片生成3D模型(3D-GAN) https://blog.csdn.net/u014365862/ar ...
Dlib库中实现正脸人脸关键点(landmark)检测的测试代码
Dlib库中提供了正脸人脸关键点检测的接口,这里参考dlib/examples/face_landmark_detection_ex.cpp中的代码,通过调用Dlib中的接口,实现正脸人脸关键点检测的 ...
java 类名.class、object.getClass()和Class.forName()的区别精析
1.介绍 getClass()介绍 java是面向对象语言,即万物皆对象,所有的对象都直接或间接继承自Object类: Object类中有getClass()方法,通过这个方法就可以获得一个实 ...

随机推荐

vs编码对编译的影响（UTF-8 no BOM编译通不过）
VS的编译器对Unicode源代码支持如下: UTF-16 little endian with or without byte order mark (BOM). UTF-16 big endian ...
C++——volatile关键字的学习
首先声明一点,本文是关于volatile关键字的学习,学习内容主要是来自一些大牛的网络博客. 一篇是何登成先生的C/C++ Volatile关键词深度剖析(http://hedengcheng.com ...
Git从库中移除已删除大文件
写在前面大家一定遇到过在使用Git时,不小心将一个很大的文件添加到库中,即使删除,记录中还是保存了这个文件.以后不管是拷贝,还是push/pull都比较麻烦.今天在上传工程到github上,发现最大只 ...
Django-Form组件之字段
Form类创建Form类时,主要涉及到 [字段] 和 [插件],字段用于对用户请求数据的验证,插件用于自动生成HTML; 1.Django内置字段如下: 1 2 3 4 5 6 7 8 9 10 1 ...
工控随笔_08_西门子_Win10安装Step7.V5.6中文版授权管理器不能正常启动
随着Windows系统的不断升级,西门子工控软件也不断升级,但是有时候在安装西门子软件的时候会出现授权管理器不能正常启动的情况. 图 Step7 因为自动许可证管理器不能正常打开如上图所示,报S ...
@JSONField使用
参考博客:http://www.cnblogs.com/yucy/p/9057049.html 1.经常遇到这种情况,传过来json的key名和我们javaBean的属性名不一样,导致接收不到: Ch ...
为什么我说IPFS社区从卖矿机开始，就是错的
要回答这个问题,首先要了解去中心化存储项目和传统的区块链项目有什么区别.其中去中心化存储项目包括IPFS,基于IPFS的FileCoin.PPIO.Storj等. 传统区块链项目没有供需问题首先以比 ...
Redhat Linux 配置Xmanager
1. vi /etc/inittab id:5:initdefault: //设置系统运行级为5,如果本来就是5就无需修改 id:5:respawn:/usr/sbin/gdm //添加到最后 ...
English 翻译到Vyeshal的软件
我或许可以做一个从英语到Vyeshal的翻译软件2333
Three failed attempts of handling non-sequential data
The Progress of Products Classification Cause now we are considering to classify the product by two ...

侧脸生成正脸概论与精析（一）Global and Local Perception GAN

侧脸生成正脸概论与精析（一）Global and Local Perception GAN的更多相关文章

随机推荐

热门专题