FPGA的CNN加速，你怎么看？

网上对于FPGACNN加速的研究已经很多了，神经网络的硬件加速似乎已经满大街都是了，这里我们暂且不讨论谁做的好谁做的不好，我们只是根据许许多多的经验来总结一下实现硬件加速，需要哪些知识，考虑哪些因素。

很多人都说在做FPGA的神经网络加速，可是有多少人真正拿出了实际结果，可能大部分人就是用HLS(高层次综合)写了个四五层的小网络，或者简单实现了一下卷积操作。真正要用FPGA做加速，得先明白算法的整体流程以及数据的输入输出形式，然后结合FPGA的特点设计相应的加速结构，在结构设计层次里面涉及到一些关键的点。例如，如何加速原始卷积(winograd、fft或者其他)，如何对数据进行复用减少数据的搬移次数，如何设计合理的流水线结构。在算法层次，需要对计算进行量化，因为现有的算法大部分都是浮点运算，FPGA 擅长定点运算，所以必须量化，卷积层量化方法有dynamic fixed point 方法，有聚类方法，也有mini float point 方法等等，当然除了卷积，还有softmax等分类算法如何量化，NMS如何在硬件上实现。另外目前的神经网络越做越大，FPGA资源有限，因此对网络进行裁剪也是一个需要关注的问题。

总的来说用FPGA 加速神经网络，是一个整体性工程，需要软件和硬件协同配合，另外硬件这边除了核心算法，还需要考虑数据的输入以及调度形式，可能需要用PCIE 等高速接口实时传入图像，再利用DDR3/4对计算的部分结果进行缓存，当网络确定，而一个FPGA 资源又不够用的时候，可能需要考虑两个FPGA 互联，那就需要用到光口或者其他高速接口，这些外围高速接口，如果之前没有接触过，任何一个都可能花费相当长的时间。所以说，做FPGA 加速，一个人是绝对不行的，另外，目前能够进行神经网络加速的FPGA ，xilinx 的UltraScale K/V/Zynq系列是比较合适的，但是这些属于高端FPGA，当然，不是说中低端不行，而是以目前主流网络和现有的优化手段，在资源较少的FPGA 上进行加速难度较大，而高端FPGA 价格都比较高，所以必须得考虑成本问题。

作者：杭州卿萃科技ALIFPGA

原文地址：杭州卿萃科技FPGA极客空间微信公众号

扫描二维码关注杭州卿萃科技FPGA极客空间

FPGA的CNN加速，你怎么看？的更多相关文章

利用UltraScale和UltraScale+FPGA和MPSOC加速DSP设计生产力
利用UltraScale和UltraScale+FPGA和MPSOC加速DSP设计生产力 Accelerating DSP Design Productivity with UltraScale an ...
FPGA加速：面向数据中心和云服务的探索和实践
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由columneditor 发表于云+社区专栏作者介绍:章恒--腾讯云FPGA专家,目前在腾讯架构平台部负责FPGA云的研发工作,探索 ...
FPGA图像加速解决方案来了
近日,百度云与联捷计算科技(CTAccel)共同推出基于FPGA的图像加速解决方案(CIP,CTAccel Image Processor),实现对JPEG转码JPEG.JPEG转码WebP(M6)等 ...
云中的机器学习：FPGA 上的深度神经网络
人工智能正在经历一场变革,这要得益于机器学习的快速进步.在机器学习领域,人们正对一类名为“深度学习”算法产生浓厚的兴趣,因为这类算法具有出色的大数据集性能.在深度学习中,机器可以在监督或不受监督的方式 ...
优化基于FPGA的深度卷积神经网络的加速器设计
英文论文链接:http://cadlab.cs.ucla.edu/~cong/slides/fpga2015_chen.pdf 翻译:卜居转载请注明出处:http://blog.csdn.net/k ...
《FPGA全程进阶---实战演练》第十二章二进制码与格雷码PK
大家在写程序的时候,可能会听闻,什么独热码,什么格雷码,什么二进制码等等,本节意在解释这几种编码之间的区别和优势以及用verilog怎么去实现,下面先介绍这几种编码的区别. 1 基础理论部分 1.1 ...
[CNN] Face Detection
即将进入涉及大量数学知识的阶段,先读下“别人家”的博文放松一下. 读罢该文,基本能了解面部识别领域的整体状况. 后生可畏. 结尾的Google Facenet中的2亿数据集,仿佛隐约听到:“你们都玩儿 ...
国内首款 FPGA 云服务器，性能是通用 CPU 服务器 30 倍以上
版权声明:本文由薛梁原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/628340001485134638 来源:腾云阁 ht ...
convolution,fft, 加速
零零星星挖坑几个了,都没填土,实在是欠账太多,闲话少说吧,还是多记录总结一下.今天的主题是围绕convolution和加速记得之前看过lecun他们组的一篇文章,是fft加速convolution的 ...

随机推荐

Python 读取window下UTF-8-BOM 文件
with open('target.txt', 'r', encoding='utf_8_sig') as fp: print(fp.read())
【WPF】影城POS的前世今生
前言 POS从16年底开始设计到现在都过去快两年了,这里我做一个简单的回顾. 技术选型 NativeUI:性能最高,开发难度最大,代表产品QQ和微信,没有基因没有技术栈. Electron+H5:不支 ...
vue 自定义拖拽指令
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Fiddler进行模拟Post提交json数据，总为null解决方式（转）
原文链接:http://www.cnblogs.com/jys509/p/3550598.html Request Headers: User-Agent: FiddlerHost: localhos ...
一个功能丰富的 jQuery 树形插件 z-tree
链接如果你的树很复杂, 需要拖拽功能, 还可以考虑用这个另外还有一个目前在用 Dynatree 如果一般的树, 还是自己写一个, 也很轻松, 如果有一两个复杂的点, 可以参考ZTree
WIN7不能上网
http://zhidao.baidu.com/link?url=lYL0Sti_nX3JDz3pA3cVh49nyYDEQBJ6P5fxwB4La0FurHlgmWGMdgfMGjQSWxj17sH ...
jQuery 滑动选项卡jQuery tabulous.js
A jQuery tabs module for todays web! 实例DEMO 运行一下 Documentation Tabulous.js can be used with any cont ...
JavaScript的数组
属性: length(长度) 方法: join(字符);//把数组用指定字符拼接成一个字符串. 例:str.join("-"); //a-b-c-d sort();//排序(自然排 ...
Http权威指南（cookie以及web认证机制）
其实对于cookie,想必大家都不陌生,cookie目前主要用于客户端的识别技术. 说到客户端识别技术,就不得不说一个登录态的问题了.登录态顾名思义,用于验证用户的登录与否. 1.登录态对于PC端网 ...
GPU编程自学2 —— CUDA环境配置
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...

FPGA的CNN加速，你怎么看？

FPGA的CNN加速，你怎么看？的更多相关文章

随机推荐

热门专题