多实例gpu_MIG技术快速提高AI生产率

Ride the Fast Lane to AI Productivity with Multi-Instance GPUs

一.平台介绍

NVIDIA安培架构中的MIG模式可以在A100 GPU上并行运行七个作业。

二.技术原理

还记得夏天休息后,在饮水机前排着长队等你吗?现在想象一下一个多头的喷泉,流动着所有人的清凉善良。

这就是NVIDIA安培体系结构中启用的多实例GPU(MIG)的本质。

MIG将一个NVIDIA A100 GPU划分为多达七个独立的GPU实例。它们同时运行,每个都有自己的内存、缓存和流式多处理器。这使得A100 GPU能够以比以前的GPU高7倍的利用率提供有保证的服务质量(QoS)。

在MIG模式下的A100可以运行多达7个不同大小的AI或HPC工作负载的任意组合。这种能力对于通常不需要现代GPU所提供的所有性能的AI推理工作特别有用。              例如,用户可以创建两个MIG实例,每个实例的内存为20gb,三个实例的内存为10gb,七个实例的内存为5gb。用户创建适合其工作负载的组合。

MIG隔离了GPU实例,所以它提供了故障隔离——一个实例中的问题不会影响在同一物理GPU上运行的其他实例。每个实例都提供有保证的QoS,确保用户的工作负载获得他们期望的延迟和吞吐量。

云服务提供商和其他企业可以使用MIG来提高其GPU服务器的利用率,为用户提供高达7倍的GPU实例。

英伟达是谷歌云的战略合作伙伴,MIG使共享Kubernetes集群中gpu的效率和利用率达到新的水平成为可能。启用这些共享GPU用例,并通过googlekubernetes引擎提供用例。

三.企业对MIG的推断

对于企业用户来说,MIG加速了人工智能模型的开发和部署。

MIG让多达7个数据科学家同时访问一个感觉像是专用GPU的东西,这样他们就可以并行工作,微调深度学习模型,以获得最佳的精度和性能。这是一项耗时的工作,但它通常不需要太多的计算能力——这是MIG的一个很好的用例。

一旦模型准备好运行,MIG允许一个GPU同时处理多达七个推理作业。这对于批量1推理工作负载来说是非常理想的,这些工作负载包括不需要完整GPU的肌肉的小的、低延迟的模型。

英伟达技术对送货机器人平台服务至关重要,MIG将能够充分利用部署的每一个GPU,能够动态地重新配置计算资源,以满足不断变化的工作负载需求,优化我们基于云的基础设施,从而最大限度地提高效率和节约成本。

四.专为IT/DevOps而建

用户不必改变CUDA编程模型就可以获得MIG对AI和HPC的好处。MIG可以与现有的Linux操作系统、Kubernetes和容器协同工作。

NVIDIA通过它为其A100提供的软件启用MIG。其中包括GPU驱动程序、NVIDIA的CUDA11软件(即将上市)、更新的NVIDIA容器运行时以及通过NVIDIA设备插件在Kubernetes中的新资源类型。

将NVIDIA虚拟计算服务器(vComputeServer)与MIG结合使用,将提供管理和监视系统管理程序(如Red Hat Virtualization和VMware vSphere)的优点。这种组合将支持流行的功能,如实时迁移和多租户。

客户越来越需要管理运行在虚拟机上的多租户工作流,同时提供隔离和安全好处,NVIDIA A100 GPU上新的多实例GPU功能支持一系列新的人工智能加速工作负载,这些工作负载可以在红帽平台上运行,从云端到边缘。

随着NVIDIA A100及其软件的到位,用户将能够看到和调度他们的新GPU实例上的作业,就好像他们是物理GPU一样。

多实例gpu_MIG技术快速提高AI生产率的更多相关文章

  1. 快速提高 Vi/Vim 使用效率的原则与途径

    Vi/Vim 是所有 Unix/Linux 操作系统默认配备的编辑器.因其强大的功能和高效的操作,Vi/Vim 也成为众多 Unix/Linux 用户.管理员必须掌握并熟练使用的编辑工具之一.尤其是在 ...

  2. web开发快速提高工作效率的一些资源

    前端学习资源实在是又多又广,在这样的一个知识的海洋里,我们像一块海绵一样吸收,想要快速提高效率,平时的总结不可缺少,以下总结了一些,排版自我感觉良好,推送出来,后续持续跟新中...... 开发工具 H ...

  3. 课程报名 | 基于模型训练平台快速打造 AI 能力

    我们常说的 AI 通用能力往往不针对具体的行业应用,而是主要解决日常或者泛化的问题,很多技术企业给出的方案是通用式的,比如通用文字识别,无论识别身份证.驾驶证.行驶证等,任何一张图片训练后的模型都会尽 ...

  4. Selenium 2.0 WebDriver 自动化测试 使用教程 实例教程 API快速参考

    Selenium 2.0 WebDriver 自动化测试 使用教程 实例教程 API快速参考 //System.setProperty("webdriver.firefox.bin" ...

  5. Docker技术快速精通指南

    doctor专业网站:http://www.dockerinfo.net/ Docker中文文档 csdn 的docker专栏: Docker技术快速精通指南

  6. 如何有效快速提高Java服务端开发人员的技术水平?

    我相信很多工作了3-5年的开发人员都会经常问自己几个问题: 1.为什么总是感觉技术没有质的提高? 2.如何能够有效和快速的提高自身的技术水平? 3.如何进入到一个牛逼的大公司,认识牛逼的人? 这篇文章 ...

  7. css sprites-简单实例让你快速掌握css sprites精髓

    这段时间有几次接触到了css sprites的概念,一个就是在用css做滑动门的时候,另外一个就是在用YSlow分析网站性能的时候,于是对css sprites这个概念产生了浓厚的兴趣.在网上查找了很 ...

  8. Ajax实例OR技术原理 转自 (http://blog.csdn.net/evankaka )

    摘要:AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术.AJAX 是一种用于创建快速动态网页的 ...

  9. IT之快速提高效率的方法与思考

    前言 文章也没什么很高深的问题,大概花个5分钟能看完.是一些大家都知道的道理,作为提醒与总结. 关于提高方面的内容,一般都有个人的方法,但大致都一致.可分为几个步骤. 框架.工具使用相关 使用框架.工 ...

随机推荐

  1. Vue method与computed的区别

    为了说明method与computed的区别,在此我想先来看看computed属性在vue官网中的说法: 模板内的表达式是非常便利的,但是它们实际上只用于简单的运算.在模板中放入太多的逻辑会让模板过重 ...

  2. CVE-2013-1347:从入门到放弃之调试分析令人崩溃的 Microsoft IE CGenericElement UAF 漏洞

    0x01 2013 年 "水坑" APT 攻击事件 在 2013 年 5 月,美国的劳工部网站被黑,利用的正是 CVE-2013-1347 这个漏洞,在当时导致大量使用 IE8 访 ...

  3. 逆向 stdio.h 函数库 fopen 函数(调试版本)

    0x01 fopen 函数 函数原型:FILE *fopen(const char *filename, const char *mode) 返回值为 FILE 类型 函数功能:使用给定的模式 mod ...

  4. 3.逆向分析Hello World!程序-下

    5.继续补充,常用操作指令: Ctrl+G    Go to       移动到指定地址,用来查看代码或内存,运行时不可用 F4        Execute till Cursor 执行到光标位置, ...

  5. 学习Canvas绘图与动画基础 制作弧和圆(五)

    1 <!DOCTYPE html> 2 <html> 3 <head lang="en"> 4 <meta charset="U ...

  6. Portswigger web security academy:Cross-origin resource sharing (CORS)

    Portswigger web security academy:Cross-origin resource sharing (CORS) 目录 Portswigger web security ac ...

  7. v-for详解

    v-for的引入 当我们需要对一组数据进行渲染时,我们就可以使用v-for来完成 v-for遍历数组 格式:v-for="(item, index) in items".(也许是因 ...

  8. 上手 WebRTC DTLS 遇到很多 BUG?浅谈 DTLS Fragment

    上一篇<详解 WebRTC 传输安全机制:一文读懂 DTLS 协议>详细阐述了 DTLS.本文将结合 DTLS 开发中遇到的问题,详细解读 DTLS 的一些基础概念以及 Fragment ...

  9. MindSpore模型验证

    技术背景 在前面一篇博客中,我们介绍了MindSpore在机器学习过程中保存和加载模型的方法.这种将模型存储为静态文件的做法,使得我们可以更灵活的使用训练出来的模型,比如用于各种数据集的验证,或者是迁 ...

  10. 大量客户名片如何轻松导入到CRM系统里?

    当您组织或参与了一次线下活动或展会,肯定会收集到非常多的潜在客户的名片.这个时候您是不是在发愁如何将这些信息导入到CRM系统中? 可以想到,您肯定会将这些名片分发给销售人员,让他们手动录入--这也确实 ...