深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes

来自：CVPR 2014 作者：Yi Sun ，Xiaogang Wang，Xiaoao Tang

题目：Deep Learning Face Representation from Predicting 10,000 Classes

主要内容:通过深度学习来进行图像高级特征表示（DeepID），进而进行人脸的分类。

长处：在人脸验证上面做，能够非常好的扩展到其它的应用，而且夸数据库有效性；在数据库中的类别越多时，其泛化能力越强，特征比較少，不像其它特征好几K甚至上M，好的泛化能力+只是拟合于小的子训练集。

主要过程：採用卷积神经网络（CNN）方法，而且採用CNN最后一层的激活值输出作为features，不同的人脸区域放入CNN中提取特征，形成了互补、过全然的特征表示。（form complementary and over-complete representations）。

通过深度卷积网络来学习高级的过全然特征（有监督），CNN的最后一层激活值作为输出，

详细细节：

採用3个尺度，10个人脸region，60个patch，训练60个CNN网络，每一个提取两个160维的特征（两个是由于： extracts two 160-dimensional DeepID vectors from a particular patch and its horizontally flipped counterpart.），所以最后一张人脸图像的特征的维度是：160*2*60=19200维。

CNN的结构例如以下：

说明：共5层网络，越往上的神经元的个数就越少，到最后就剩下160个神经元的输出，上面的Face patches 是进过对齐过后的的人脸块，也就是说已左（右）眼为中心的人脸区域块，嘴角为中心的人脸区域块等等，这样就有多个不同的输入块输入到CNN中，文章採用了把倒数第二层的输出+倒数第一层的输出作为特征（这应该是採用12年的Le Cun 那篇文章的track）。最后再把不同的块所输出的特征连接起来，就形成了一个终于一张人脸的特征。然后再用各种分类器对其特征进行分类。

採用Max-Pooling，softmax；

输入图像：39*31*k 个人矩形脸图像块+31*31*k （这里k在彩色图像时为3，灰度时k为1）个人脸正方形块（由于后面要考虑到是全局图像还是局部图像，且须要考虑到尺度问题），使用ReLU非线性处理；

注意到【Weights in higher convolutional layers of our ConvNets are locally shared to learn different mid- or high-level features in different regions [18]. r in Equation 1 indicates a local region where weights are shared. In the third convolutional layer,
weights are locally shared in every 2  2 regions, while weights in the fourth convolutional layer are totally unshared.】

不同的输入图像：

当中局部图像是关键点（每一个图像一个关键点）居中，不同的区域大小和不同的尺度图像输入到CNN中，其CNN的结构可能会不同样，可是最后的特征的都是160维度，最后将全部的特征级联起来。

最后一层的特征是第三层和第四层全相连（比較特殊的地方），由于这样能够添�尺度特征，由于第三层和第四层学习到的特征的尺度是不一样的。

特点：提取的特征非常Compact，仅仅有160*k，k不大。自然就具有判别力了。

在训练CNN中，训练数据的类别越多，其性能越好，可是会在训练模型中出现故障，也就是太慢。

CNN的输出是特征，而不是输出类别，

分类：

採用Joint Bayesian 来进行人脸的verification；也採用了神经网络来比較，可是联合贝叶斯的效果比較好；

实验：

由于在LFW中大部分人的图像个数是有限的，非常多人仅仅有一张图片；所以採用了新的数据库来训练模型：CelebFaces :八万多幅，五千多人，每一个人差点儿相同16张图片，

===============

方法比較：

当前的人脸识别方法：过全然的低级别特征+浅层模型。

ConvNet 可以有效地提取高级视觉特征。

已有的DL方法：

1. Huang【CVPR2012】的生成模型+非监督；

2. Cai 【2012】的深度非线性度量学习；

3 Sun【CVPR2013】的监督学习+二类分类（人脸校验 verfication），是作者去年写的。而这一篇文章是多类分类问题（identification），并且这篇文章中，有10000类的人脸类别。

================

结果：在有对齐人脸的情况下，可以在LFW数据库上识别率达到97.5%。（其训练数据不是LFW，有其它的训练数据来训练模型）。

不理解的地方：

深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes的更多相关文章

深度学习概述教程--Deep Learning Overview
引言深度学习,即Deep Learning,是一种学习算法(Learning algorithm),亦是人工智能领域的一个重要分支.从快速发展到实际应用,短短几年时间里, ...
贝叶斯深度学习（bayesian deep learning）
本文简单介绍什么是贝叶斯深度学习(bayesian deep learning),贝叶斯深度学习如何用来预测,贝叶斯深度学习和深度学习有什么区别.对于贝叶斯深度学习如何训练,本文只能大致给个介绍. ...
深度学习论文笔记：Fast R-CNN
知识点 mAP:detection quality. Abstract 本文提出一种基于快速区域的卷积网络方法(快速R-CNN)用于对象检测. 快速R-CNN采用多项创新技术来提高训练和测试速度,同时 ...
深度学习加速器堆栈Deep Learning Accelerator Stack
深度学习加速器堆栈Deep Learning Accelerator Stack 通用张量加速器(VTA)是一种开放的.通用的.可定制的深度学习加速器,具有完整的基于TVM的编译器堆栈.设计了VTA来 ...
深度学习论文笔记：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes
这篇文章将深度学习算法应用于机械故障诊断,采用了“小波包分解+深度残差网络(ResNet)”的思路,将机械振动信号按照故障类型进行分类. 文章的核心创新点:复杂旋转机械系统的振动信号包含着很多不同频率 ...
论文笔记: Deep Learning based Recommender System: A Survey and New Perspectives
(聊两句,突然记起来以前一个学长说的看论文要能够把论文的亮点挖掘出来,合理的进行概括23333) 传统的推荐系统方法获取的user-item关系并不能获取其中非线性以及非平凡的信息,获取非线性以及非平 ...
最实用的深度学习教程 Practical Deep Learning For Coders (Kaggle 冠军 Jeremy Howard 亲授)
Jeremy Howard 在业界可谓大名鼎鼎.他是大数据竞赛平台 Kaggle 的前主席和首席科学家.他本人还是 Kaggle 的冠军选手.他是美国奇点大学(Singularity Universi ...
深度学习阅读列表 Deep Learning Reading List
Reading List List of reading lists and survey papers: Books Deep Learning, Yoshua Bengio, Ian Goodfe ...
深度学习框架Caffe —— Deep learning in Practice
因工作交接需要, 要将caffe使用方法及整体结构描述清楚. 鉴于也有同学问过我相关内容, 决定在本文中写个简单的tutorial, 方便大家参考. 本文简单的讲几个事情: Caffe能做什么? 为什 ...

随机推荐

HTML5实现扫描识别二维码/生成二维码
扫描识别二维码思路: 1. 操作摄像头,获取图片.HTML5 WEBRTC的navigator.getUserMedia方法去实时获取摄像头资源. 2. 利用canvas使用相关算法分析图片识别图 ...
HDU 4267 A Simple Problem with Integers
A Simple Problem with Integers Time Limit: 5000/1500 MS (Java/Others) Memory Limit: 32768/32768 K ...
cocos2d-x 添加背景音乐和音效－SimpleAudioEngine
首先,要想使用音效,需要启用音效引擎库CocosDenshion中的SimpleAudioEngine类, #include "SimpleAudioEngine.h" Cocos ...
windows7+eclipse-jee-luna+hadoop2.6运行环境及eclipse plugin插件编译
一.hadoop集群环境配置参见:<Hadoop2.6集群环境搭建(HDFS HA+YARN)原来4G内存也能任性一次.> Win7环境: 登录用户名:hadoop , 与Hadoop ...
ZOJ3772 - Calculate the Function(线段树+矩阵)
题目大意给定一个序列A1 A2 .. AN 和M个查询每个查询含有两个数 Li 和Ri. 查询定义了一个函数 Fi(x) 在区间 [Li, Ri] ∈ Z. Fi(Li) = ALi Fi(Li ...
教你区分LVDS屏线及屏接口定义
现在碰到液晶屏大多是LVDS屏线,经常碰到什么单6,双6 单8双8.如何区分呢?我以前也不知道,后在网上收集学习后才弄明白方法1数带 “ -”的这种信号线一共有几对,有10对的减2对就是双8,有8对的 ...
搭建linux下teamspeak3多人语音服务器
最近项目中新的需求,需要支持多人在线实时通话.就安装测试一下teamspeak.http://www.teamspeak.com/ 主页有服务器版本和客户端版本供下载安装.软硬件环境: melot@m ...
Linux里实用命令之添加行号、文本和语法高亮显示
写在前面的话本博主我,强烈建议,来看此博文的朋友们,都玩玩. 最好,在刚入门的时候呢,不加行号,不玩文本和语法高亮显示,以后会深有体会.磨炼自己! 步骤一:进入 /etc/virc配置文件步骤二: ...
eclispe输入@注解时提示所有注解的设置
修改输入@提示所有的注解提示方法 eclipse下windows-->preference-->java-->editor-->Content Assist下的Enable a ...
获取ie浏览器版本号
/** * 获取ie浏览器版本号 * @returns */ function getInternetExplorerVersion(){ var version = -1; // Return va ...

深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes

深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes的更多相关文章

随机推荐

热门专题