【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器
来自吉浦迅科技
整理发布
http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651231163&idx=1&sn=d48b4480da3481de8ae20e78b1ee22df&scene=23&srcid=0605uZ1nd6QlqnK6AJdMlZkI#rd
第五名:Tesla K80
Tesla ——英伟达高端大气上档次专用计算卡品牌,以性能高、稳定性强,适用于长时间高强度计算著称。
Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量,内置24GB GDDR5 存储器,每颗 GPU 有 12GB 存储器,比上代Tesla K40 GPU 提供多两倍存储器可处理更大的资料集分析。Tesla K80 内建4,992 CUDA 并行运算核心,可比仅用CPU 运算提升高达10 倍应用加速效能,单精度峰值浮点性能为8.74
Teraflops,双精度峰值浮点性能为2.91 Teraflops,峰值内存带宽为480 GB/s,非常适合于数据密集型应用。
特性 |
Tesla K80 |
Tesla K40 |
GPU |
2 颗 Kepler GK210 |
1 Kepler GK110B |
峰值双精度浮点性能 |
2.91 Tflops (GPU 动态提速频率) |
1.66 Tflops (GPU 动态提速频率) |
峰值单精度浮点性能 |
8.74 Tflops (GPU 动态提速频率) |
5 Tflops (GPU 动态提速频率) |
存储器带宽(ECC关闭)2 |
480 GB/s (每颗GPU 240 GB/s) |
288 GB/sec |
存储器容量(GDDR5) |
24 GB (每颗GPU 12GB) |
12 GB |
CUDA核心数量 |
4992 个 (每颗 GPU |
2880 |
上榜理由:双精度计算之冠,舍我其谁?
适用机型:机架式服务器
市场零售价:3万人民币
第四名:Tesla M40
Tesla家族第一款Maxwell架构计算卡!
Maxwell架构除了双精度是弱外,其他各方面都十分优秀,比如加入了寄存器的缓冲,用来消除寄存器的bank conflict,再比如加入远程原子操作,即shared memory能自行计算,不占用SP,同时还提高了原子操作的性能。
英伟达号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器,专为显著缩短训练时间而定制。采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算突破7TFlops,而双精度几乎只能呵呵了。
特性 |
Tesla K80 |
Tesla M40 |
GPU |
2 颗 Kepler GK210 |
1 Maxwell GM200 |
峰值双精度浮点性能 |
2.91 Tflops (GPU 动态提速频率) |
0.21Tflops |
峰值单精度浮点性能 |
8.74 Tflops (GPU 动态提速频率) |
7 Tflops |
存储器带宽(ECC关闭)2 |
480 GB/s (每颗GPU 240 GB/s) |
384GB/sec |
存储器容量(GDDR5) |
24 GB (每颗GPU 12GB) |
12 GB |
CUDA核心数量 |
4992 个 (每颗 GPU |
3072 |
上榜理由:高富帅之不需要双精度的首选,你值得拥有!
适用机型:机架式服务器
市场零售价:3.3万人民币
第三名:Titan X
小编觉得让GPU在机器学习上真正开始发扬光大的是Titan
X的出现!
同样采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算7TFlops,12GB显存,再加上同时发布的英伟达DIGITS深度学习GPU训练系统的加持,更是让数据科学家和研究人员如虎添翼,能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络,从而加速其深度学习项目和产品的开发工作,也因此让Titan X声名大噪!关键让人泪奔的还有价格:9千人民币有找!
特性 |
Titan X |
TeslaM40 |
GPU |
1 Maxwell GM200 |
1 Maxwell GM200 |
峰值双精度浮点性能 |
0.21Tflops |
0.21Tflops |
峰值单精度浮点性能 |
7Tflops |
7 Tflops |
存储器带宽(ECC关闭)2 |
384 GB/s |
384GB/sec |
存储器容量(GDDR5) |
12 GB |
12 GB |
CUDA核心数量 |
3072 |
3072 |
上榜理由:屌丝的逆袭!
适用机型:塔式服务器/工作站
市场零售价:8866元人民币(以华硕Titan X某东商城价格为例)
第二名:GTX1080
上个月英伟达 正式发布了新一代旗舰显卡 GeForce GTX 1080,应该算是首款Pascal上市的显卡产品。
Pascal架构的Half2向量操作特性,免费了200%的性能(不过是半精度),可以说早买早收益。而本月英伟达最新的cuDNN5开放下载,可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升,这使得GTX1080充满了期待。尽管有开发者表示显存没有Titan X高,但谁叫GTX1080的价格只有Titan
X的2/3呢?
特性 |
Titan X |
GTX1080 |
GPU |
1 Maxwell GM200 |
1 Pascal GP104 |
峰值双精度浮点性能 |
0.21Tflops |
N/A |
峰值单精度浮点性能 |
7Tflops |
9 Tflops |
存储器带宽(ECC关闭)2 |
384 GB/s |
320GB/sec |
存储器容量(GDDR5) |
12 GB |
8 GB |
CUDA核心数量 |
3072 |
2560 |
上榜理由:让NVIDIA在机器学习的道路上走得更加深远
适用机型:塔式服务器/工作站
市场零售价:5600元人民币(华硕GTX1080某东商城开始预售)
第一名:Tesla P100
小编只能说:这是一款大杀器,所有资料都来自于网路上。传言,它只开启了3584个单精度、1792个双精度核心,即便如此,单、双精度浮点性能也高达10.6TFlops、5.3TFlops,同时还搭配了4096-bit 16GB HBM2高带宽显存,并支持全新的NVLink互连总线,取代传统PCI-E
——它就是传说中的Tesla P100! 英伟达声称将推动深度学习和HPC应用性能跨越式发展:其中,全新的Pascal架构实现了巨大的性能飞跃,半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能;NVLink 将CPU与GPU之间的带宽实现5倍加速、CoWoS
和 HBM2带来3倍带宽提升;页面迁移引擎带来了无限制的寻址能力,实现更强的可编程性。
网上传言单颗P100都能干掉两颗M40,领先幅度10-20%不等,而对比消费级游戏卡,P1001颗已经相当于GTX Titan X四颗的水准。
而最新发布的cuDNN5也特别强调了对Tesla P100的支持!
上榜理由:高富帅的顶级装备
适用机型:NVIDIA
DGX-1
市场零售价:据说不-单-卖!
【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器的更多相关文章
- 【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三
JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...
- CUDA上的量化深度学习模型的自动化优化
CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...
- NVIDIA深度学习Tensor Core性能解析(上)
NVIDIA深度学习Tensor Core性能解析(上) 本篇将通过多项测试来考验Volta架构,利用各种深度学习框架来了解Tensor Core的性能. 很多时候,深度学习这样的新领域会让人难以理解 ...
- NVIDIA深度学习Tensor Core性能解析(下)
NVIDIA深度学习Tensor Core性能解析(下) DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM,虽然测试中可 ...
- 【ARM-Linux开发】【CUDA开发】NVIDIA Jetson TX2 进阶:Nsight Eclipse Edition
嵌入式平台:NVIDIA Jetson TX2 嵌入式系统:Ubuntu16.04 虚拟机系统:Ubuntu14.04 一.NSight简介 Jetpack开发工具为人工智能提供了一整套软件架构,包括 ...
- 【深度学习】深入理解优化器Optimizer算法(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论 ...
- Pytorch1.0深度学习:损失函数、优化器、常见激活函数、批归一化详解
不用相当的独立功夫,不论在哪个严重的问题上都不能找出真理:谁怕用功夫,谁就无法找到真理. —— 列宁 本文主要介绍损失函数.优化器.反向传播.链式求导法则.激活函数.批归一化. 1 经典损失函数 1. ...
- 【并行计算-CUDA开发】 NVIDIA Jetson TX1
概述 NVIDIA Jetson TX1是计算机视觉系统的SoM(system-on-module)解决方案.它组合了最新的NVIDIAMaxwell GPU架构,其具有ARM Cortex-A57 ...
- 【ARM-Linux开发】【CUDA开发】NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南
NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南 转载请注明作者和出处:http://blog.csdn.net/u011475210 嵌入式平台:NVIDIA Jetson TX1 ...
随机推荐
- Java实现List自定义排序
废话不多说,直接上代码 import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; i ...
- Nuxt项目中通过ESlint命令行修复格式问题
在package.json文件中, 往往会有个类似于 "lint": "eslint --ext .js,.vue --ignore-path .gitignore .& ...
- react语法注意事项
组件: var HelloMessage = React.createClass({ render: function() { return <h1>Hello {this.props.n ...
- Frightful Formula Gym - 101480F (待定系数法)
Problem F: Frightful Formula \[ Time Limit: 10 s \quad Memory Limit: 512 MiB \] 题意 题意就是存在一个\(n*n\)的矩 ...
- js replace(a,b)替换指定字符
var a="aaabbb" a= a.replace("aaa", "ccc") console.log(a) //a ="c ...
- artillery强大灵活的负载测试套件
artillery是基于nodejs 编写的负载测试套件支持http&&socket.io&&websockets&&kinesis&& ...
- ESA2GJK1DH1K微信小程序篇: 测试微信小程序APUConfig给WI-Fi模块配网并绑定设备,并通过MQTT控制设备
前言(源码使用介绍在最后) 一,微信小程序篇小程序下载(该源码为这节测试源代码) 二.有多少人一直在期盼着小程序可以实现SmartConfig或者Airkiss的功能? 来吧!我的这种方式包您满意. ...
- nginx 配置虚拟主机( 基于端口 )
一.创建网站目录及文件: [root@localhost data]# tree /data /data └── wwwroot ├── www.1.com_8080 │ └── index.ht ...
- win10中通过Anaconda安装tensorflow时报错Traceback (most recent call last): File “E:\Anaconda3\lib\site-packages\pip_vendor\urllib3\response.py”, line 360, in _error_catcher yield
问题:通过默认镜像安装,下载过程中可能会报错,下载安装失败 Traceback (most recent call last): File “E:\Anaconda3\lib\site-package ...
- eclipse 如何将文件编辑器窗口的背景填充为背景图片?
1.情景展示 文件编辑窗口的背景默认为白色. 我们知道,对于整日面对电脑的程序员来说,白色容易造成眼疲劳,而且对于眼睛的伤害比较大. 所以,eclipse添加了黑色主题. 切换成黑色主题 改变 ...