ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro

A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector

单位：KAIST（韩国科学技术院）——ISSCC上大神级的机构···

DNN的加速器，面向不同的应用有着不同的能效需求：0.1W~1W，1W~5W等，不同的应用场景需要不同的架构。但是在0.1w以下的空间，目前成熟的工作还不多。本篇是一款面向Always-on 和IoT的0.62mW的人脸识别系统，面向IoT等极低功耗需求的计算场景。分为两个部分：人脸检测和人脸识别。下面主要讲一讲人脸识别部分的CNN引擎。

下图想说的是用分布式内存架构比集中式的会更好：

在卷积中，采用一个2D转两次1D的trick，比如5*5的卷积，先做一次5 *1再做一次1 *5卷积，可以得到一样大小的输出；结果是计算参数减少了，更重要的是计算量显著减少。(这个trick在算法中很容易想，但是在硬件中直接做效率不一定高，所以也就有了后面的T-SRAM的设计，可以一次取出一列的数据)

虽然计算减少了，但是精度损失比较少:

对于SF-CONV的访存：垂直方向的图像滤波效率很低，同时增加了4.7x的翻转率。基于此，提出了T-SRAM。T-SRAM支持两种访问方式：V-WD和V-SA是倒序访存，输出的是垂直方向的1D向量；而H-WD和H-SA是顺序访存，输出的是水平方向的1D向量。

用了TSRAM以后：

具体电路设计细节可以参考paper，我也是外行。

芯片版图：65nm工艺下，FD部分的CIS处理单元为3.3mmx3.36mm(320×240的阵列，支持哈尔检测的芯片，采用模拟存储)；FR部分的CNNP单元为4mmx4mm(4×4的PE阵列，使用T-SRAM作为本地存储)。

V和F的调整情况：

SF-CONV的精度损失在1%以内，整体精确度达到97%（CNN网络，LFW数据）

总结：面向Always-on 和IoT的0.62mW的人脸识别系统[1]

1、超级功耗的人脸识别SoC（采用CIS和CNN实现）

2、数模混合的哈尔特征人脸检测电路

3、卷积分离的近似计算技术

4、支持水平、垂直数据读取的新结构T-SRAM

5、采用电压、频率可调的NVT实现

参考资料

[1] https://reconfigdeeplearning.com/2017/02/09/isscc-2017-session-14-slides14-6/

[2] A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector

ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro的更多相关文章

ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network SOC
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm
ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Proce ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN
转载请注明,本文出自Bin的专栏http://blog.csdn.net/xbinworld,谢谢! DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Process ...
ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine
A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Erro ...
ISSCC 2017论文导读 Session 14:A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight
A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Mem ...
论文翻译：2020_FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式 ...
ASPLOS'17论文导读——SC-DCNN: Highly-Scalable Deep Convolutional Neural Network using Stochastic Computing
今年去参加了ASPLOS 2017大会,这个会议总体来说我感觉偏系统和偏软一点,涉及硬件的相对少一些,对我这个喜欢算法以及硬件架构的菜鸟来说并不算非常契合.中间记录了几篇相对比较有趣的paper,今天 ...
论文翻译：2019_TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain
论文地址:TCNN:时域卷积神经网络用于实时语音增强论文代码:https://github.com/LXP-Never/TCNN(非官方复现) 引用格式:Pandey A, Wang D L. TC ...

随机推荐

CentOS7.2配置vsftpd
环境 CentOS7.2 (安装镜像CentOS-7-x86_64-DVD-1611) 本文默认使用root用户操作目标实现CentOS7.2上安装vsftpd,使用新创建的ftpuser用户便可 ...
CentOS工作内容（二）关闭SELinux
CentOS工作内容(二)关闭SELinux CentOS安装完成后,有很多配置要改,不过最重要就是关闭SELinux SELinux是增强安全性的一项功能,不是SELinux不好,而是当功能安全性较 ...
python 的 json 转换
python 的 json 转换本文为原创文章,禁止转载! 本文以 json.dumps() 和 json.loads() 方法进行 Python 数据和 json 格式之间转换,进行讲解首先比 ...
从游戏开发到web前端——仅仅只是开始
文章开头,请允许我随便扯扯. 一来,开头从来都是最难写的,二来,描述我现在的心情和状态以及工作背景啥的,对于大家理解后面的内容也许会有所帮助~ 2012年211大学毕业,工作4年了,一直都是做游戏前端 ...
JavaScript循环练习2
折纸:折多少次和珠穆朗玛峰一样高1.一张纸的厚度是0.0001米,将纸对折,对折多少次厚度超过珠峰高度8848米 var hou = 0.0001; var cishu = 0; for(var i= ...
认识GMT和UTC时间-附带地理知识
GMT-格林尼治标准时 GMT 的全名是格林威治标准时间或格林威治平时 (Greenwich Mean Time),这个时间系统的概念在 1884 年确立,由英国伦敦的格林威治皇家天文台计算并维护,并 ...
Python 在序列上跟踪索引和值
内置的enumerate() 函数可以很好的解决这个问题 >>> my_list = ['a', 'b', 'c'] >>> for idx, val in enu ...
Hive 入门学习线路指导
hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助. 此篇内容较多:看完之后需要达到的目标: 1.hiv ...
Shell脚本实现每个工作日定时执行指定程序
我们可能会遇到这样的情景:必须在每个工作日定时执行Linux服务器上的某个程序.那么有没有办法实现这一功能呢?答案是肯定的.我们可以运用Shell脚本简单实现这一功能. 原理很简单,Shell脚本内部 ...
linux常用命令：rcp 命令
rcp代表"remote file copy"(远程文件拷贝). 1.命令格式: rcp [参数] [源文件] [目标文件] 2.命令功能: 功能: rcp命令用于在计算机之间拷 ...

ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro

参考资料

ISSCC 2017论文导读 Session 14:A 0.62mW Ultra-Low-Power Convolutional-Neural-Network Face-Recognition Pro的更多相关文章

随机推荐

热门专题