构建可扩展的GPU加速应用程序(NVIDIA HPC

研究人员、科学家和开发人员正在通过加速NVIDIA GPU上的高性能计算(HPC)应用来推进科学发展,NVIDIA GPU具有处理当今最具挑战性的科学问题的计算能力。从计算科学到人工智能,GPU加速应用正在带来突破性的科学发现。流行的语言如C、C++、FORTRAN和Python正被用来开发、优化和部署这些应用程序。

面向HPC的GPU程序设计

NVIDIA GPU可以编程得很像CPU。从替换GPU优化的数学库开始。使用标准C++并行算法和FORTRAN语言特征添加附加加速度。最后,使用pragma优化语言性能,并最终使用pragma来优化性能。

库文件

GPU加速库是CPU库的一个简单替代品。

多GPU和多节点感知,NVIDIA GPU加速库为HPC应用程序中最常见的模式提供最佳性能。从各种常用的计算优化库中选择。

标准语言

标准C++和FORTRAN中的并行特性可以将例程映射到多核CPU或GPU的核心。

英伟达C++ 17编译器在标准模板库(STL)上增加对执行策略的支持,英伟达2008编译器的DO并发构造允许循环迭代而不依赖于相互依赖。

指令

基于指令的编程模型为GPU、CPU和其设备上的并行计算提供了一个简单的入口。

如果标准语言不具备获得良好性能所需的灵活性或特性,可以使用指令进行扩充,并保持可移植性以供其编译器和平台使用。

CUDA

CUDA是一个并行计算平台和编程模型,旨在为GPU加速应用程序提供最大的灵活性和性能。

为了最大化性能和灵活性,通过直接在CUDA C/C++或CUDA FORTRAN中编码来获得GPU硬件的最大值。

NVIDIA HPC SDK

一套针对HPC的编译器、库和工具

NVIDIA HPC软件开发工具包(SDK)包括经过验证的编译器、库和软件工具,这些工具对于最大限度地提高开发人员的工作效率以及HPC应用程序的性能和可移植性至关重要。

NVIDIA HPC SDK C、C++和FORTRAN编译器支持HPC建模和仿真应用程序的GPU加速,标准C++和FORTRAN、OpenACC指令和CUDA。GPU加速数学库最大限度地提高通用HPC算法的性能,优化的通信库支持基于标准的多GPU和可伸缩系统编程。性能分析和调试工具简化了HPC应用程序的移植和优化,而容器化工具可以方便地在本地或云中部署。通过对NVIDIA GPU和运行Linux的Arm、OpenPOWER或x86-64 cpu的支持,HPC SDK提供了构建NVIDIA GPU加速HPC应用程序所需的工具。

为什么要使用NVIDIA HPC SDK?

性能

广泛使用的HPC应用程序,包括VASP、Gaussian、ANSYS Fluent、GROMACS和NAMD,使用CUDA、OpenACC和GPU加速数学库为用户提供突破性的性能。可以使用这些相同的软件工具来加速应用程序,并实现戏剧性的加速和能源效率使用NVIDIA GPU。

便携性

为超过99%的当今500强系统构建和优化应用程序,包括基于NVIDIA gpu或x86-64、Arm或OpenPOWER cpu的系统。可以使用下拉库、C++ 17并行算法和OpenACC指令来加速GPU,并确保应用程序完全可移植到其编译器和系统。

生产力

利用单个集成套件最大限度地提高科学和工程吞吐量,并最大限度地缩短编码时间,该套件允许快速移植、并行化和优化GPU加速,包括用于多GPU和可伸缩计算的行业标准通信库,以及用于分析的分析和调试工具。

支持喜爱的编程语言

C++ 17并行算法

C++ 17并行算法使用标准模板库(STL)实现了便携式并行编程。英伟达HPCSDK C++编译器支持CPU上的完全C++ 17,并将并行算法卸载到Nvidia GPU,使得GPU编程没有指令、语法或注释。使用C++ 17并行算法的程序很容易移植到Linux、Windows和Mac OS的大多数C++实现。

Fortran 2003编译器

NVIDIA Fortran编译器支持Fortran 2003和Fortran 2008的许多功能。支持NVIDIA GPU上的OpenACC和CUDA Fortran,支持多核x86-64、Arm和OpenPOWER CPU的SIMD矢量化、OpenACC和OpenMP,具有在当今异构GPU加速HPC系统上移植和优化Fortran应用程序所需的功能。

OpenACC指令

NVIDIA FORTRAN,C++,C++编译器支持基于OpenACC指令的NVIDIA GPU和多核CPU的并行编程。已经使用OpenACC启动或启用了200多个HPC应用程序端口,包括VASP、Gaussian、ANSYS Fluent、WRF和mpa等生产应用程序。OpenACC是一个性能成熟的gpu和多核cpu的便携式指令解决方案。

主要特点

GPU数学库

cuBLAS和cuSOLVER库提供了GPU优化和多GPU实现,实现了LAPACK的所有BLAS例程和核心例程,并在可能的情况下自动使用NVIDIA GPU张量核心。cuFFT包括GPU加速的用于真实和复杂数据的1D、2D和3D FFT例程,cuSPARSE为稀疏矩阵提供基本的线性代数子程序。这些库可以从CUDA和OpenC程序中调用,是用C、C++和FORTRAN编写的。

针对张量核心优化

NVIDIA GPU张量核心使科学家和工程师能够使用混合精度或双精度来显著地加速合适的算法。NVIDIA HPCSDK数学库针对张量核心和多GPU节点进行了优化,以最小的编码工作量实现系统的全部性能潜力。使用NVIDIA Fortran编译器,可以通过将转换数组内部函数自动映射到cuTENSOR库来利用张量核心。

CPU优化

异构HPC服务器使用gpu来加速计算,并使用基于x86-64、OpenPOWER或Arm指令集架构的多核cpu。所有这些CPU都支持NVIDIA编译器和工具,并且所有编译器优化都在支持CPU上完全启用。NVIDIA HPC SDK具有统一的特性、命令行选项、语言实现、编程模型、工具和库用户界面,简化了开发人员在各种HPC环境中的体验。

多GPU编程

NVIDIA集合通信库(NCCL)使用MPI兼容的all-gather、all-reduce、broadcast、reduce和reduce-scatter例程实现高度优化的多GPU和多节点集合通信原语,以利用HPC服务器节点内和跨HPC服务器节点的所有可用GPU。NVSHMEM实现了GPU内存的OpenSHMEM标准,并提供了多GPU和多节点通信原语,这些原语可以从主机CPU或GPU启动,也可以从CUDA内核中调用。

可扩展系统编程

MPI是分布式内存可伸缩系统编程的标准。NVIDIA HPC SDK包括一个支持GPUDirect的基于openmpi的CUDA感知MPI库 因此,可以使用远程直接内存访问(RDMA)直接发送和接收GPU缓冲区,包括在CUDA统一内存中分配的缓冲区。CUDA感知开放MPI完全兼容CUDA C/C++、CUDA FORTRAN和英伟达OpenACC编译器。

Nsight性能分析

N光 Systems提供HPC服务器上应用程序性能的全系统可视化,使能够优化消除瓶颈,跨多核CPU和GPU扩展并行应用程序。Nsight Compute允许通过图形或命令行用户界面深入研究GPU加速应用程序的交互式分析器中的GPU内核,并允许使用NVTX API直接检测源代码的区域来查明性能瓶颈。

部署到任何地方

容器通过将应用程序及其依赖项绑定到可移植虚拟环境中,简化了软件部署。NVIDIA HPC SDK包含使用HPC容器生成器开发、分析和部署软件的说明,以简化容器映像的创建。NVIDIA容器运行时支持几乎所有容器框架的无缝GPU支持,包括Docker和Singularity。

用户所说的

“需要Fortran、C和C++编译器,支持用户需要的所有编程模型,并期望Nvidia GPU和AMD EPCC CPU-MPI、OpenMP、OpenACC、CUDA和优化的数学库。NVIDIA HPC SDK会检查所有这些框。”

构建可扩展的GPU加速应用程序(NVIDIA HPC)的更多相关文章

  1. GPU加速计算

    GPU加速计算 NVIDIA A100 Tensor Core GPU 可针对 AI.数据分析和高性能计算 (HPC),在各种规模上实现出色的加速,应对极其严峻的计算挑战.作为 NVIDIA 数据中心 ...

  2. Python实现GPU加速的基本操作

    技术背景 之前写过一篇讲述如何使用pycuda来在Python上写CUDA程序的博客.这个方案的特点在于完全遵循了CUDA程序的写法,只是支持了一些常用函数的接口,如果你需要自己写CUDA算子,那么就 ...

  3. C#构建可扩展的应用程序(插件)

    构建可扩展的应用程序,特别是对于WinForm应用程序是特别有好处的.我们知道,企业的需求是瞬息万变的,企业在使用软件的过程中,很可能对于现有的需求有变动甚至是提出新的需求来,可是我们的软件已经部署在 ...

  4. GPU加速:宽深度推理

    GPU加速:宽深度推理 Accelerating Wide & Deep Recommender Inference on GPUs 推荐系统推动了许多最流行的在线平台的参与.随着为这些系统提 ...

  5. AI解决方案:边缘计算和GPU加速平台

    AI解决方案:边缘计算和GPU加速平台 一.适用于边缘 AI 的解决方案 AI 在边缘蓬勃发展.AI 和云原生应用程序.物联网及其数十亿的传感器以及 5G 网络现已使得在边缘大规模部署 AI 成为可能 ...

  6. GPU—加速数据科学工作流程

    GPU-加速数据科学工作流程 GPU-ACCELERATE YOUR DATA SCIENCE WORKFLOWS 传统上,数据科学工作流程是缓慢而繁琐的,依赖于cpu来加载.过滤和操作数据,训练和部 ...

  7. 深度学习“引擎”之争:GPU加速还是专属神经网络芯片?

    深度学习“引擎”之争:GPU加速还是专属神经网络芯片? 深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,可谓深度学习的“燃料”和“引擎”,GPU则是引 ...

  8. Python笔记_第四篇_高阶编程_进程、线程、协程_5.GPU加速

    Numba:高性能计算的高生产率 在这篇文章中,笔者将向你介绍一个来自Anaconda的Python编译器Numba,它可以在CUDA-capable GPU或多核cpu上编译Python代码.Pyt ...

  9. 0704-使用GPU加速_cuda

    0704-使用GPU加速_cuda 目录 一.CPU 和 GPU 数据相互转换 二.使用 GPU 的注意事项 三.设置默认 GPU 四.GPU 之间的切换 pytorch完整教程目录:https:// ...

随机推荐

  1. 路由器逆向分析------MIPS交叉编译环境的搭建(Buildroot)

    本文博客地址:http://blog.csdn.net/qq1084283172/article/details/68950682 为了能在我们熟悉的windows或者ubuntu下开发mips架构的 ...

  2. POJ2308连连看dfs+bfs+优化

    DFS+BFS+MAP+剪枝 题意:       就是给你一个10*10的连连看状态,然后问你最后能不能全部消没? 思路:      首先要明确这是一个搜索题目,还有就是关键的一点就是连连看这个游戏是 ...

  3. Intel汇编语言程序设计学习-第三章 汇编语言基础-下

    3.4  定义数据 3.4.1  内部数据类型 MASM定义了多种内部数据类型,每种数据类型都描述了该模型的变量和表达式的取值集合.数据类型的基本特征是以数据位的数目量的大小:8,16,32,,48, ...

  4. Linux-鸟菜-6-文件与目录管理

    Linux-鸟菜-6-文件与目录管理 这章主要是说一些对目录和文件的增删改查等等命令. .    代表当前目录 ..    代表前一个目录   / 的 . 和 .. 一样 -    代表前一个工作目录 ...

  5. 解决GET http://localhost:8080/js/layui/layui.js net::ERR_ABORTED 404

    用ssm+layui在写页面的时候,发现无法找到资源路径 <script src="js/layui/layui.js" charset="utf-8"& ...

  6. STL实现的底层数据结构简介

    STL实现的底层数据结构简介 C++ STL 的实现: 1.vector  底层数据结构为数组 ,支持快速随机访问 2.list    底层数据结构为双向链表,支持快速增删 3.deque   底层数 ...

  7. 交叉编译参数--build、host和target的区别

    build.host和target 在交叉编译中比较 常见 的一些参数就是build.host和target了,正确的理解这三者的含义对于交叉编译是非常重要的,下面就此进行解释 --build=编译该 ...

  8. [Python] tkinter 之 Listbox & Combobox

    示例: 1 #用户界面 2 import os 3 os.chdir('F:\\spyder_workspace\\ColCal') 4 import Main 5 from tkinter impo ...

  9. Iperf3网络性能测试工具详解教程

    Iperf3网络性能测试工具详解教程 小M 2020年4月17日 运维 本文下载链接 [学习笔记]Iperf3网络性能测试工具.pdf 网络性能评估主要是监测网络带宽的使用率,将网络带宽利用最大化是保 ...

  10. 使用LUKS加密你的磁盘

    计算机数据的安全,保密性在现在的生活中显得越来越重要.随着数字化的时代的来临,越来越多的数据被数字化,特别是更多有关于我们隐私的数据在不断生成,甚至还有我们需要离线保存的密钥等.而且通常我们使用磁盘, ...