GPU 、APU、CUDA、TPU、FPGA介绍

购买显卡主要关注：显存、带宽和浮点运算数量

GPU ：图形处理器（英语：Graphics Processing Unit，缩写：GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器。

用途是将计算机系统所需要的显示信息进行转换驱动，并向显示器提供行扫描信号，控制显示器的正确显示，是连接显示器和个人电脑主板的重要元件，也是“人机对话”的重要设备之一。显卡作为电脑主机里的一个重要组成部分，承担输出显示图形的任务，对于从事专业图形设计的人来说显卡非常重要。

APU：(Accelerated Processing Unit)中文名字叫加速处理器，是AMD“融聚未来”理念的产品，它第一次将中央处理器和独显核心做在一个晶片上，它同时具有高性能处理器和最新独立显卡的处理性能，支持DX11游戏和最新应用的“加速运算”，大幅提升了电脑运行效率。

CUDA：(Compute Unified Device Architecture)，是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员现在可以使用C语言来为CUDA™架构编写程序，C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA™的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。

TPU：（Tensor Processing Unit）即张量处理单元[1] ，是Google设计一款为机器学习而定制的芯片，经过了专门深度机器学习方面的训练，它有更高效能（每瓦计算能力）。

因为它能加速其第二代人工智能系统TensorFlow的运行，而且效率也大大超过GPU――Google的深层神经网络就是由TensorFlow引擎驱动的。TPU是专为机器学习量身定做的，执行每个操作所需的晶体管数量更少，自然效率更高。[3]

TPU每瓦能为机器学习提供比所有商用GPU和FPGA更高的量级指令，这基本相当于7年后的科技水平。TPU是为机器学习应用特别开发，以使芯片在计算精度降低的情况下更耐用，这意味每一个操作只需要更少的晶体管，用更多精密且大功率的机器学习模型，并快速应用这些模型，因此用户便能得到更正确的结果

FPGA（Field－Programmable Gate Array），即现场可编程门阵列，它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。

英伟达（Nvidia）的图形处理器（GPU）怎样分类的，分别面向什么市场？

https://www.zhihu.com/question/60161133 介绍比较详细

https://developer.nvidia.com/cuda-gpus 英伟达官网介绍

http://wemedia.ifeng.com/26436703/wemedia.shtml

从GPU、TPU到FPGA及其它：一文读懂神经网络硬件平台战局

2017年8月17 英伟达的 GPU

这一家是很难被战胜的。来自大型视频处理市场的收益驱动着巨大的规模经济。新款英伟达 V100 带有一种新的 Tensor Core 架构，速度可达 15 TFlops（单精度/SP）或 120 TFlops（浮点精度，其中带有 FP16 的乘法和 FP32 的累加或加法，非常适合机器学习）。英伟达在它们的 DGX-1 中装入了 8 块计算卡，速度可达 960 Tensor TFlops.

AMD 的 GPU

在机器学习领域，AMD 一直是英伟达的追赶者。即将发布的 AMD Radeon Instinct MI25 有希望达到 12.3 TFlops（SP）或 24.6 TFlops（FP16）。如果你把英伟达的 Tensor Core 也算进来，则 AMD 完全无力竞争。英伟达设备的带宽 900GB/s 也是 AMD 484GB/s 的两倍。

谷歌的 TPU

谷歌原来的 TPU 相比于 GPU 有很大的领先，并帮助 DeepMind 的 AlphaGo 赢得了与李世石的围棋大战。据描述，原来的 700 MHz TPU 有 95 TFlops 的 8 位计算能力或 23 TFlops 的 16 位计算能力，同时功耗仅有 40W。这可比当时的 GPU 快得多，但现在落后于英伟达的 V100；但在单位功耗的计算能力上，TPU 并没落后。据称新的 TPU2 是一款带有 4 块芯片的 TPU 设备，速度可达到 180 TFlops 左右。每块芯片的性能都翻倍了，达到了 45 TFlops 的 16 位计算能力。你可以看到与英伟达 V100 的差距正在变小。你没法买到 TPU 或 TPU2。谷歌正在通过它们的云提供这些 TPU 服务，包含 64 台设备的 TPU pod 速度高达 11.5 PetaFlops。TPU2 上巨大的散热片说明了一些原因，但市场正在发生变化——从单独的设备转向了设备的组合以及将这些组合以云的形式提供。

http://www.sohu.com/a/191889285_747980 2017-09-14 08:14

CUDA助力英伟达成为AI产业目前最大受益者，FPGA、ASIC等“AI芯片”架构逐渐起步

CUDA是英伟达基于其生产的GPUs的一个并行计算平台和编程模型，便于更多的技术人员参与开发

CUDA，Compute Unified Device Architecture的简称，是由NVIDIA公司创立的基于他们公司生产的图形处理器GPUs的一个并行计算平台和编程模型。开发人员可以通过C/C++、Fortran等高级语言来调用CUDA的API，来进行并行编程，达到高性能计算目的。CUDA平台的推出，让很多开发人员在没有完全精通GPU的硬件架构和运算逻辑的情况下，参与到并行计算的开发中来。

CUDA帮助英伟达成为AI产业目前最大受益者，GPU生态效应使得英伟达处于领先地位

自从2013年开始英伟达发现的GPU硬件架构特别适合深度学习算法，越来越多的AI开发开始应用在英伟达GPU平台之上，同时CUDA良好的用户体验也从另一方面促进了英伟达GPU平台在深度学习市场的占有率，英伟达的股价从13年8月份的12美元涨到目前的170美元左右。CUDA开发平台以及GPU架构上的积累的开发者生态，使得英伟达在AI芯片领域处于领先地位。

CUDA之于GPU，相当于C/C++之于CPU，VHDL/Verilog之于FPGA，CUDA是目前最友好的AI开发平台

GPU、FPGA、ASIC是目前主流的三种AI计算架构，GPU目前使用最广，代表厂商有英伟达；FPGA主要用于云端的AI加速，主要厂商有Xilinx、Altera（被因特尔收购）；ASIC主要用在终端等低功耗场景，代表厂商有谷歌TPU、寒武纪（华为NPU）。各种不同的硬件机构对应着不同的编程环境，经典的因特尔CPU架构，对应的是C/C++；GPU是目前AI应用的主流架构，而且CUDA的编程相对友好（可以使用C/C++,Fortran,Java等），优势相对明显；FPGA需要使用硬件语言VHDL/Verilog，硬件语言需要硬件架构、时序等底层知识，对开发人员的要求较高；ASIC一般会有自己指令集，例如寒武纪的芯片使用的是diannaoyu（将之前深度学习算法指令从CICS指令集转化成RSIC指令集），对开发人员的要求更高。

FPGA、ASIC等AI芯片架构逐渐起步，“AI芯片+”产业链公司投资机遇大

在FPGA方面，Xilinx、Altera等已经有云端服务器的AI加速产品上线，另外百度等公司在服务器优化等方面也使用大量的FPGA，整体来说国内FPGA实力较弱；ASIC架构方面，寒武纪、深鉴科技等中国企业在AI芯片方面在全球处于第一梯队，与其合作的公司有望获益。例如，中科曙光与寒武纪同为中科院系背景公司，在云端AI芯片方面开展合作（Digitimes报道），未来有望持续受益。

GPU 、APU、CUDA、TPU、FPGA介绍的更多相关文章

软件工具将GPU代码迁移到fpga以用于AI应用
软件工具将GPU代码迁移到fpga以用于AI应用 Software tools migrate GPU code to FPGAs for AI applications 人工智能软件初创公司Mips ...
win10 用cmake 3.5.2 和 vs 2015 update1 编译 GPU版本(cuda 8.0, cudnn v5 for cuda 8.0)
win10 用cmake 3.5.2 和 vs 2015 update1 编译 GPU版本(cuda 8.0, cudnn v5 for cuda 8.0) 用vs 2015打开编译Release ...
GPU、CPU、FPGA
一.计算核心增加二者都由寄存器.控制器.逻辑单元构成,但比例很大不同,决定了CPU擅长指令处理,函数调用上:GPU在数据处理(算数运算/逻辑运算)强力很多. NIVIDA基于Maxwell构架的GP ...
Intel Cyclone SoC FPGA介绍
3.1 Intel Cyclone SoC FPGA介绍 3.1.1 SoC FPGA的基本概念 Intel Cyclone V SoC FPGA是Intel PSG(原Altera)于2013年发布 ...
显卡、GPU和CUDA简介
http://blog.csdn.net/wu_nan_nan/article/details/45603299 声明: 本文部分内容来自网络.由于知识有限,有错误的地方还请指正.本帖为自己学习过程的 ...
GPU（CUDA）学习日记（十一）------ 深入理解CUDA线程层次以及关于设置线程数的思考
GPU线程以网格(grid)的方式组织,而每个网格中又包含若干个线程块,在G80/GT200系列中,每一个线程块最多可包含512个线程,Fermi架构中每个线程块支持高达1536个线程.同一线程块中的 ...
CPU、GPU、CUDA、cuDNN
CPU擅长逻辑处理控制,GPU适合高强度的并行计算任务,为什么会存在这种差别?今天搜集了些相关资料,摘抄总结如下. 一.什么是GPU GPU这个概念是由Nvidia公司于1999年提出的.GPU是显卡 ...
显卡、显卡驱动、显存、GPU、CUDA、cuDNN
显卡 Video card,Graphics card,又叫显示接口卡,是一个硬件概念(相似的还有网卡),执行计算机到显示设备的数模信号转换任务,安装在计算机的主板上,将计算机的数字信号转换成模拟 ...
谈谈IC、ASIC、SoC、MPU、MCU、CPU、GPU、DSP、FPGA、CPLD
IC (integrated circuit) 集成电路:微电路.微芯片.芯片:集成电路又分成:模拟集成电路(线性电路).数字集成电路.数/模混合集成电路: 模拟集成电路:产生.放大.处理各种模拟信号 ...

随机推荐

LCA之tarjan离线
显然81篇题解是有点多了,不让我提交. 更为不好的是没有一篇详细的\(tarjan\)(不过我也不会写详细的). 不过\(tarjan\)并没有我们想象的那样难理解,时间也并不爆炸(巧妙的跳过难写二字 ...
01 vue入门
vue简介官网上有介绍,这里粘出来 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架.与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用.Vue 的核心 ...
Java提升二：Lambda表达式与方法引用
1.Lambda表达式 1.1.定义 lambda表达式是对于函数式接口(只含有一个抽象方法的接口)的简洁实现方式.它与匿名内部类的作用相似,但是就使用范围而言,匿名内部类更为广泛,而lambda表达 ...
jpa自定义sql语句
/** * 查询还没生成索引的帖子 * @return */ @Query(value = "SELECT * FROM t_article WHERE index_state=0" ...
javascript实现ul中列表项随机排列
方法1 <!DOCTYPE html><html lang="en"><head> <script type="text/jav ...
UVA - 10635 Prince and Princess（LCS，可转化为LIS）
题意:有两个长度分别为p+1和q+1的序列,每个序列中的各个元素互不相同,且都是1~n2的整数.两个序列的第一个元素均为1.求出A和B的最长公共子序列长度. 分析: A = {1,7,5,4,8,3, ...
GNS3 模拟Arp命令1
R1 : conf t int f0/0 no shutdown ip add 192.168.1.1 255.255.255.0 end R2: conf t int f0/0 no shutdow ...
Node.js 加载静态资源css，js等不显示问题的解决方法
一,原因 1,没有响应到css等文件 2,响应类型是由文件的后缀名决定 (1)html的请求头 Content-Type : text/html ; charset=utf-8 (2) CSS的请求头 ...
文本编辑器vim/vi——模式切换及输入模式
vim一共有三种模式:命令模式.输入模式.末行模式要从命令模式切换到输入模式:a,i,o a——append 属于在后面追加内容:i——insert 属于插入,在前面插入内容:o——other 属于 ...
七、JavaScript之console.log输出和document.write输出
一.代码如下二.运行效果如下三.点击之后,效果如下四.按一下F12,在控制台中可以看到

GPU 、APU、CUDA、TPU、FPGA介绍

GPU 、APU、CUDA、TPU、FPGA介绍的更多相关文章

随机推荐

热门专题