Acceleration for ML 论文导读】的更多相关文章

Energy efficient parallel neuromorphic architectures with approximate arithmetic on FPGA Motivation To address the slow operation and high energy and resource consumption problem caused by realizing spiking neural network (SNN) using software. Proble…
又开了一个新的坑,笔者工作之后维护着一个 NoSQL 数据库.而笔者维护的数据库正是基于社区版本的 Aerospike打造而来.所以这个踩坑系列的文章属于工作总结型的内容,会将使用开发 Aerospike 的各种问题进行总结梳理,希望能够给予大家启发和帮助.第一篇开山之文,就先从Aerospike 公司在16年数据库顶会 VLDB的一篇论文 <Aerospike: Architecture of a Real Time Operational DBMS>展开,来高屋建瓴的审视一下 Aeropi…
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 后面陆续写一些关于神经网络加速芯片设计的paper,前面已经写了ISSCC2017,当然,因为只有利用不加班的下班时间来看和写,可能周期会比较长-不过呢,多学习一些总是好的.最近有点忙,没有保持写的节奏,后面加油吧!).下一篇会开始写ISCA 2017的论文. 作者与单位: 国内知名的深鉴科技的几位初创写的一篇,拿了今年FPG…
今年去参加了ASPLOS 2017大会,这个会议总体来说我感觉偏系统和偏软一点,涉及硬件的相对少一些,对我这个喜欢算法以及硬件架构的菜鸟来说并不算非常契合.中间记录了几篇相对比较有趣的paper,今天简单写一篇. SC-DCNN: Highly-Scalable Deep Convolutional Neural Network using Stochastic Computing 单位作者: 我们知道在神经网络计算中,最主要的计算就是乘加,本篇重点就是解释了什么是Stochastic Comp…
A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence 单位:Michigan,CubeWorks(密歇根大学,CubeWorks公司) 又是一款做DNN加速的面向IOT的专用芯片,主要特点是有L1~L4四级不同速度.能耗的层次化存储.通过对全连接矩阵x向量的计算流程优化,最终可…
转载请注明,本文出自Bin的专栏http://blog.csdn.net/xbinworld,谢谢! DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks 单位:KAIST(韩国科学技术院,电子工程-半导体系统实验室) KAIST是ISSCC的常客,一年要在上面发好几篇芯片论文,16年ISSCC上Session 14有一半的paper是出自KAIST的,只能说怎一个…
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems 单位:STMicroelectronics(意法半导体) 这是一篇很综合芯片SOC设计,总体架构如下: 本文采用的DSP簇作为加速阵列,包含8个DSP簇,每簇内含2个3…
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems 单位:STMicroelectronics(意法半导体) 这是一篇很综合芯片SOC设计,总体架构如下: 本文采用的DSP簇作为加速阵列,包含8个DSP簇,每簇内含2个3…
月中在香港参加recsys2013会议,文章不少,对我有价值的并不算多,再跟目前工作相关的就更少了.这里过滤了几篇我觉得比较有意思的文章,加上了自己的理解,作为导读. A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems (best paper,p249.pdf) 这篇来自台湾国立大学libsvm团队的文章获得了本次大会的best paper.无论文章还是ppt,思路表达得非常清晰饱满.这是一篇偏工程实现的文章…
CVPR2019超分领域出现多篇更接近于真实世界原理的低分辨率和高分辨率图像对应的新思路.具体来说,以前论文训练数据主要使用的是人为的bicubic下采样得到的,网络倾向于学习bicubic下采样的逆过程,这与现实世界原理不太相符.为了得到重建结果,要么采用psnr-oriented方式获得更高的psnr,要么采用perceptual-oriented获得更好的主观效果,但这与现实世界的图像系统并不吻合,有可能会造成deterioration. 下面便对CVPR2019中的超分论文做一些介绍和剖…