【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器

来自吉浦迅科技
整理发布

http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651231163&idx=1&sn=d48b4480da3481de8ae20e78b1ee22df&scene=23&srcid=0605uZ1nd6QlqnK6AJdMlZkI#rd

第五名：Tesla K80

　　Tesla ——英伟达高端大气上档次专用计算卡品牌，以性能高、稳定性强，适用于长时间高强度计算著称。

Tesla K80 双GPU 加速器可透过一卡双 GPU 提供双倍传输量，内置24GB GDDR5 存储器，每颗 GPU 有 12GB 存储器，比上代Tesla K40 GPU 提供多两倍存储器可处理更大的资料集分析。Tesla K80 内建4,992 CUDA 并行运算核心，可比仅用CPU 运算提升高达10 倍应用加速效能，单精度峰值浮点性能为8.74
Teraflops，双精度峰值浮点性能为2.91 Teraflops，峰值内存带宽为480 GB/s，非常适合于数据密集型应用。

特性	Tesla K80	Tesla K40
GPU	2 颗 Kepler GK210	1 Kepler GK110B
峰值双精度浮点性能	2.91 Tflops (GPU 动态提速频率) 1.87 Tflops (基础频率)	1.66 Tflops (GPU 动态提速频率) 1.43 Tflops (基础频率)
峰值单精度浮点性能	8.74 Tflops (GPU 动态提速频率) 5.6 Tflops (基础频率)	5 Tflops (GPU 动态提速频率) 4.29 Tflops (基础频率)
存储器带宽(ECC关闭)2	480 GB/s (每颗GPU 240 GB/s)	288 GB/sec
存储器容量(GDDR5)	24 GB (每颗GPU 12GB)	12 GB
CUDA核心数量	4992 个 (每颗 GPU 2496个)	2880

上榜理由：双精度计算之冠，舍我其谁？

适用机型：机架式服务器

市场零售价：3万人民币

第四名：Tesla M40

Tesla家族第一款Maxwell架构计算卡！
Maxwell架构除了双精度是弱外，其他各方面都十分优秀，比如加入了寄存器的缓冲，用来消除寄存器的bank conflict，再比如加入远程原子操作，即shared memory能自行计算，不占用SP，同时还提高了原子操作的性能。

英伟达号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器，专为显著缩短训练时间而定制。采用了完整的麦克斯韦架构大核心GM200，3072个CUDA核心，单精度浮点计算突破7TFlops，而双精度几乎只能呵呵了。

特性	Tesla K80	Tesla M40
GPU	2 颗 Kepler GK210	1 Maxwell GM200
峰值双精度浮点性能	2.91 Tflops (GPU 动态提速频率) 1.87 Tflops (基础频率)	0.21Tflops
峰值单精度浮点性能	8.74 Tflops (GPU 动态提速频率) 5.6 Tflops (基础频率)	7 Tflops
存储器带宽(ECC关闭)2	480 GB/s (每颗GPU 240 GB/s)	384GB/sec
存储器容量(GDDR5)	24 GB (每颗GPU 12GB)	12 GB
CUDA核心数量	4992 个 (每颗 GPU 2496个)	3072

上榜理由：高富帅之不需要双精度的首选，你值得拥有！

适用机型：机架式服务器

市场零售价：3.3万人民币

第三名：Titan X

小编觉得让GPU在机器学习上真正开始发扬光大的是Titan
X的出现！

同样采用了完整的麦克斯韦架构大核心GM200，3072个CUDA核心，单精度浮点计算7TFlops，12GB显存，再加上同时发布的英伟达DIGITS深度学习GPU训练系统的加持，更是让数据科学家和研究人员如虎添翼，能够通过更快的模型训练和更复杂的模型设计来创造更准确的神经网络，从而加速其深度学习项目和产品的开发工作，也因此让Titan X声名大噪！关键让人泪奔的还有价格：9千人民币有找！

特性	Titan X	TeslaM40
GPU	1 Maxwell GM200	1 Maxwell GM200
峰值双精度浮点性能	0.21Tflops	0.21Tflops
峰值单精度浮点性能	7Tflops	7 Tflops
存储器带宽(ECC关闭)2	384 GB/s	384GB/sec
存储器容量(GDDR5)	12 GB	12 GB
CUDA核心数量	3072	3072

上榜理由：屌丝的逆袭！

适用机型：塔式服务器/工作站

市场零售价：8866元人民币（以华硕Titan X某东商城价格为例）

第二名：GTX1080

上个月英伟达正式发布了新一代旗舰显卡 GeForce GTX 1080，应该算是首款Pascal上市的显卡产品。

Pascal架构的Half2向量操作特性，免费了200%的性能（不过是半精度），可以说早买早收益。而本月英伟达最新的cuDNN5开放下载，可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升，这使得GTX1080充满了期待。尽管有开发者表示显存没有Titan X高，但谁叫GTX1080的价格只有Titan
X的2/3呢？

特性	Titan X	GTX1080
GPU	1 Maxwell GM200	1 Pascal GP104
峰值双精度浮点性能	0.21Tflops	N/A
峰值单精度浮点性能	7Tflops	9 Tflops
存储器带宽(ECC关闭)2	384 GB/s	320GB/sec
存储器容量(GDDR5)	12 GB	8 GB
CUDA核心数量	3072	2560

上榜理由：让NVIDIA在机器学习的道路上走得更加深远

适用机型：塔式服务器/工作站

市场零售价：5600元人民币（华硕GTX1080某东商城开始预售）

第一名：Tesla P100

小编只能说：这是一款大杀器，所有资料都来自于网路上。传言，它只开启了3584个单精度、1792个双精度核心，即便如此，单、双精度浮点性能也高达10.6TFlops、5.3TFlops，同时还搭配了4096-bit 16GB HBM2高带宽显存，并支持全新的NVLink互连总线，取代传统PCI-E

——它就是传说中的Tesla P100！英伟达声称将推动深度学习和HPC应用性能跨越式发展：其中，全新的Pascal架构实现了巨大的性能飞跃，半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能；NVLink 将CPU与GPU之间的带宽实现5倍加速、CoWoS
和 HBM2带来3倍带宽提升；页面迁移引擎带来了无限制的寻址能力，实现更强的可编程性。

网上传言单颗P100都能干掉两颗M40，领先幅度10-20％不等，而对比消费级游戏卡，P1001颗已经相当于GTX Titan X四颗的水准。

而最新发布的cuDNN5也特别强调了对Tesla P100的支持！

上榜理由：高富帅的顶级装备

适用机型：NVIDIA
DGX-1

市场零售价：据说不-单-卖！

【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器的更多相关文章

【ARM-Linux开发】【CUDA开发】【深度学习与神经网络】Jetson Tx2安装相关之三
JetPack(Jetson SDK)是一个按需的一体化软件包,捆绑了NVIDIA®Jetson嵌入式平台的开发人员软件.JetPack 3.0包括对Jetson TX2 , Jetson TX1和J ...
CUDA上的量化深度学习模型的自动化优化
CUDA上的量化深度学习模型的自动化优化深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...
NVIDIA深度学习Tensor Core性能解析（上）
NVIDIA深度学习Tensor Core性能解析(上) 本篇将通过多项测试来考验Volta架构,利用各种深度学习框架来了解Tensor Core的性能. 很多时候,深度学习这样的新领域会让人难以理解 ...
NVIDIA深度学习Tensor Core性能解析（下）
NVIDIA深度学习Tensor Core性能解析(下) DeepBench推理测试之RNN和Sparse GEMM DeepBench的最后一项推理测试是RNN和Sparse GEMM,虽然测试中可 ...
【ARM-Linux开发】【CUDA开发】NVIDIA Jetson TX2 进阶：Nsight Eclipse Edition
嵌入式平台:NVIDIA Jetson TX2 嵌入式系统:Ubuntu16.04 虚拟机系统:Ubuntu14.04 一.NSight简介 Jetpack开发工具为人工智能提供了一整套软件架构,包括 ...
【深度学习】深入理解优化器Optimizer算法（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）
在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论 ...
Pytorch1.0深度学习：损失函数、优化器、常见激活函数、批归一化详解
不用相当的独立功夫,不论在哪个严重的问题上都不能找出真理:谁怕用功夫,谁就无法找到真理. —— 列宁本文主要介绍损失函数.优化器.反向传播.链式求导法则.激活函数.批归一化. 1 经典损失函数 1. ...
【并行计算-CUDA开发】 NVIDIA Jetson TX1
概述 NVIDIA Jetson TX1是计算机视觉系统的SoM(system-on-module)解决方案.它组合了最新的NVIDIAMaxwell GPU架构,其具有ARM Cortex-A57 ...
【ARM-Linux开发】【CUDA开发】NVIDIA TEGRA X1：LINUX驱动程序包多媒体用户指南
NVIDIA TEGRA X1:LINUX驱动程序包多媒体用户指南转载请注明作者和出处:http://blog.csdn.net/u011475210 嵌入式平台:NVIDIA Jetson TX1 ...

随机推荐

wordpress去掉category的另一个方法
今天ytkah的客户问wordpress网站一直去不掉分类url中的/category/,他说已经按ytkah之前的方法设置了还是不起作用,进入网站后台发现,他们的网站有安装yoast,然后就大概知道 ...
placeholder 效果的实现，input提示字，获取焦点时消失
<!doctype html><html><head><meta charset="utf-8"><title>plac ...
排序算法-堆排序（Java）
package com.rao.linkList; import java.util.Arrays; /** * @author Srao * @className HeapSort * @date ...
Trolley slow
JavaScript基础10——正则
什么是正则? 正则表达式(regular expression)是一个描述字符规则的对象.可以用来检查一个字符串是否含有某个字符,将匹配的字符做替换或者从某个字符串中取出某个条件的子串等. ...
Xamarin.Forms之XAML
官网参考 XAML基础知识 XAML(eXtensible Application Markup Language)可扩展应用程序标记语言,允许开发者在Xamarin.Forms应用中采用标记而不是代 ...
win10系统2分钟睡眠
https://blog.csdn.net/widenstage/article/details/78982722 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSe ...
Shell脚本中$0、$?、$!、$$、$*、$#、$@的意义
$0 当前脚本的文件名$n 传递给脚本或者函数的参数,脚本后的第n个字符串,n=1…9$# 传递给脚本或者函数的参数个数$? 上一个命名的退出状态,或者函数的返回值(非0表示错误)$$ shell本身 ...
thrift 是rpc协议
PC(Remote Procedure Call,远程过程调用)是建立在Socket之上的,出于一种类比的愿望,在一台机器上运行的主程序,可以调用另一台机器上准备好的子程序,就像LPC(本地过程调用) ...
刷题记录：[HarekazeCTF2019]encode_and_encode
目录刷题记录:[HarekazeCTF2019]encode_and_encode 一.知识点 JSON转义字符绕过 php伪协议刷题记录:[HarekazeCTF2019]encode_and_ ...

【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器

【CUDA开发-并行计算】NVIDIA深度学习应用之五大杀器的更多相关文章

随机推荐

热门专题