ModelArts黑科技揭秘|弹性训练,让训练资源张弛有度
摘要:AI进入产业的门槛变高,开发者想要做出优秀的AI模型就不得不在算力和成本之间折中,怎么办?
为帮助企业在AI落地过程中进一步实现降本增效,华为云推出AI黑科技——弹性训练。
今年,AI界最被热议的当属OpenAI最新发布的GPT-3模型,作为迄今为止发布的最大自然语言处理(NLP)转换器,它的模型参数有1750亿个,使用了45TB的数据,算力要求为3640pfs-day,训练费用高达1200万美金。
如果AI开发者想要使用大数据来训练模型,就需要超强的算力,同时不得不支付高昂的训练费用。这就导致AI进入产业的门槛变高,开发者想要做出优秀的AI模型就不得不在算力和成本之间折中。
一方面,在预算投入有限的情况下,AI开发者只能使用较弱的算力,从而造成AI服务开发的滞后。另外一方面,对于云厂商来说,由于用户使用时间和规模的灵活性,经常会存在空闲的计算资源没有被使用,造成浪费。华为云AI黑科技弹性训练动态缩减和扩展节点,很好地解决了AI开发者算力不足和云厂商算力空闲的矛盾。
灵活调配算力资源,弹性训练为AI开发降本增效
华为云弹性训练方案实时监控资源池的算力情况,如果有空闲的计算资源,会把该资源分配给正在训练中的弹性作业,提高该训练作业的算力,从而使该训练作业快速收敛。在有新任务提交时,华为云弹性训练方案又会根据资源池空闲资源和弹性作业的使用情况,把资源回收后给新起的任务,保证新的训练的快速效应。
弹性训练流程
弹性训练可以根据模型训练速度的要求,自适应匹配最佳资源数。具体在产品上,它提供两种模式。
一是Turbo模式,可以充分利用空闲资源加速已有训练作业,在大多数典型场景下加速效率大于80%,训练速度提升10倍,并且不会影响模型收敛精度。
二是Economic模式,可以通过最大化资源利用率,给开发者提供极致的性价比,在大多数典型场景下可以提升性价比30%以上。
工程和算法多个维度优化,降低模型训练难度
华为云弹性训练方案需要解决多个复杂的分布式训练问题:如何实现动态多次弹性后训练的收敛过程和收敛结果和普通非弹性训练等价一致、如何保证弹性过程中优雅切换、如何解决混部等场景中straggler拖累系统性能、如何使用户减少代码修改、如何选择合适的通信框架从而减少梯度汇聚时间。华为云弹性训练方案从工程和算法多个维度进行优化,解决了上述问题,实现了训练的准确率不降低、加速比理想。
具体来说,华为云弹性训练方案具有易用、高效、优雅的训练框架和等价的训练过程,普惠的强大算力、高利用率的云资源四大优势。
易用、高效、优雅的训练框架
华为云的弹性训练基于易用高效的训练框架,用户只需要根据要求,简单的修改代码,就可以满足弹性训练的要求。
弹性训练框架支持NCCL通信,支持all_reduce或点对点的组网模式,可以高效的进行梯度聚合,因此有很好的加速性能。
同时,它也支持多GPU/NPU性能监控,支持基于每个GPU/NPU的性能进行训练负载动态调整,在混部等多GPU/NPU性能不均衡的场景下,依然具有很好的性能。
除此之外,弹性训练框架可以保证弹性过程是优雅的。弹性训练过程中涉及到节点数的变多和变少。在节点数变多时,它可以保证老节点在新节点切入前正常训练,新节点在准备好平滑的切入训练,因此不需要老节点长时间等待。在节点数变少时,弹性训练框架可以让释放的节点平滑退出。
等价的训练过程
弹性训练过程节点数是动态变化的,在弹性的动态过程中如何调整训练超参,保证模型的收敛是一个巨大的挑战。华为云的弹性训练方案在理论上可以保证,在初始设置正确的训练超参后,节点在弹性过程中变多或变小时,训练的模型的收敛过程和结果是一致的。因此用户在使用训练方案时,不需要因为弹性而引入过于复杂的超参调整策略,另外也不需要担心弹性的引入对收敛结果造成影响。等价训练过程让用户可以放心的使用弹性训练。
普惠的强大算力
相比传统的直接购买确定的算力方案,AI开发者在投入很少的情况下,可以获得巨大的算力。用户提起弹性训练作业后,在训练过程中可以获得华为云中空闲的运算资源,算力迅速增强,因此在较短的时间内就可以把训练跑完,从而实现高频的训练迭代、快速的服务上线变现。弹性方案真正让用户实现了用得起。
高利用率的云资源
传统的资源强化定制方案,导致无法盘活空闲资源,不能根据实时资源使用情况,动态调整已经训练的作业。因此在传统方案中,经常会出现训练任务算力不足、耗时漫长的同时资源池中大量资源闲置的矛盾局面。
相比之下,华为云弹性训练方案具有极大的灵活性。基于弹性训练方案,华为云实时监控资源池中资源的情况,动态调整弹性训练作业的算力情况,当资源池中有空闲资源时,就将空闲资源分配给训练作业,保证资源的充分利用。
在弹性方案确定后,华为云的弹性训练方案自动监控调整,无需人为参与,方便高效。该方案满足了云服务商充分利用算力资源的需求和AI开发者的诉求,实现了双赢。
弹性训练方案应用前景广阔
随着数据的爆发式增长,AI进入行业当中越发需要大算力的支撑来处理大数据。未来,弹性训练方案具有广阔的应用空间。使用华为云的弹性训练方案在ImageNet(大型可视化数据库 )上训练resent50模型。在开始时使用1节点训练模型,在有空闲资源后,将训练节点调整为16,此时的线性加速比为10。在训练60个epoch后top1 accuracy为76.1%。精度保持一致的情况下,华为云的弹性训练方案使收敛速度快了9倍。
华为云一直秉持着“将简单留给开发者,复杂留给华为云”的理念。华为云AI不断迭代创新,推出黑科技功能,加速AI进入产业,落地实际场景,让千行百业共享AI技术红利。
ModelArts黑科技揭秘|弹性训练,让训练资源张弛有度的更多相关文章
- “体检医生”黑科技|让AI开发更精准,ModelArts更新模型诊断功能
摘要:华为云AI开发平台ModelArts黑科技加持AI研发,让模型开发更高效.更简单,降低AI在行业的落地门槛.全面的可视化评估以及智能诊断功能,使得开发者可以直观了解模型各方面性能,从而进行针对性 ...
- MTSC2019-腾讯WeTest独家揭秘移动游戏测试和质量保障 QA 黑科技
WeTest 导读 TesterHome 联合腾讯 WeTest 出品 MTSC2019 重磅游戏测试 Topic ,首次公开揭秘腾讯亿级用户游戏背后的质量保障 QA 黑科技. 2019 年,中国游戏 ...
- [转帖]新iPhone的黑科技:UWB技术揭秘
新iPhone的黑科技:UWB技术揭秘 http://blog.nsfocus.net/iphone-black-technology-uwb-technology-revealed/ 阅读: ...
- 国庆出游神器:魔幻黑科技换天造物,让vlog秒变科幻大片!
摘要:国庆旅游景点人太多,拍出来的照片全是人人人.车车车,该怎么办?不妨试试这个黑科技,让你的出游vlog秒变科幻大片. 本文分享自华为云社区<国庆出游神器,魔幻黑科技换天造物,让vlog秒变科 ...
- 【转载】史上最全:TensorFlow 好玩的技术、应用和你不知道的黑科技
[导读]TensorFlow 在 2015 年年底一出现就受到了极大的关注,经过一年多的发展,已经成为了在机器学习.深度学习项目中最受欢迎的框架之一.自发布以来,TensorFlow 不断在完善并增加 ...
- MIT 黑科技:通过脑电波和手势控制机器人
简评:麻省理工黑科技,虽然现在能实现的操作还很简单,但前景(想象空间)非常巨大. 通常,控制机器人并不容易,常规手段就是编程.但是地球上从来不缺天马行空的科学家,今日 MIT 的计算机科学与人工智能实 ...
- 转:lightGBM的黑科技--plot函数
本来想研究一下lightGBM的plotting相关的接口,发现网上已经有人做了,而且还挺不错的(lightGBM的黑科技--plot函数),就直接给转过来了 # -*- coding: utf-8 ...
- 聊聊H5与JS近几年的黑科技
聊聊H5与JS近几年的黑科技 自ajax技术的诞生,编程界兴起了一股WEB开发热,facebook,Twitter等众多大佬级企业都在网页应用上大放异彩,这十年我们见证了前端技术的崛起.这期间产生了众 ...
- 机器学习在入侵检测方面的应用 - 基于ADFA-LD训练集训练入侵检测判别模型
1. ADFA-LD数据集简介 ADFA-LD数据集是澳大利亚国防学院对外发布的一套主机级入侵检测数据集合,包括Linux和Windows,是一个包含了入侵事件的系统调用syscall序列的数据集(以 ...
- 带你了解S12直播中的“黑科技”
摘要:让精彩更流畅.让较量更清晰.让参与更沉浸.让体验更有趣,幕后的舞台,从来都是技术的战场,S12背后的名场面同样场场高能. 本文分享自华为云社区<用硬核方式打开S12名场面>,作者:华 ...
随机推荐
- C#计数排序算法
前言 计数排序是一种非比较性的排序算法,适用于排序一定范围内的整数.它的基本思想是通过统计每个元素的出现次数,然后根据元素的大小依次输出排序结果. 实现原理 首先找出待排序数组中的最大值max和最小值 ...
- Hyper-V中的虚拟机(Centos)安装FTP服务
linux上是否装上了ftp服务命令: rpm -qa | grep vsftpd ,若没有安装(无显示版本号)则进行下一步 安装ftp服务,命令: yum -y install ftp vsftpd ...
- 基于iptables防火墙堵漏
之前在网上流传个段子:发现自己电脑被入侵,最有效的办法是即拔掉网线~ 虽然只是个段子却说明一旦机器发现漏洞被入侵,阻断入侵刻不容缓,无论对个人电脑和业务服务器都是如此. 商业服务器虽然有各种防护措施, ...
- 视觉差缓动效果的轮播--React版
React实现视觉差效果缓动轮播 效果如下(图片帧率低看起来有点卡顿,看个大概就行): 分享一下思路: 1.正常引入一个轮播组件(站在巨人肩膀省时省力),去除指示点.引导箭头等不需要的元素,有些组件支 ...
- 【公告】luogu blog (daiyulong20120222) 即将迁移!
\[\huge\text{luogu blog (daiyulong20120222) 即将迁移到 cnblogs!}\\ \] \[\huge\color{blue}\text{https://ww ...
- MAUI Blazor 如何通过url使用本地文件
前言 上一篇文章 MAUI Blazor 显示本地图片的新思路 中, 提出了通过webview拦截,从而在前端中显示本地图片的思路.不过当时还不完善,随后也发现了很多问题.比如, 不同平台上的url不 ...
- 🔥🔥Java开发者的Python快速进修指南:实战之跳表pro版本
之前我们讲解了简易版的跳表,我希望你能亲自动手实现一个更完善的跳表,同时也可以尝试实现其他数据结构,例如动态数组或哈希表等.通过实践,我们能够发现自己在哪些方面还有所欠缺.这些方法只有在熟练掌握之后才 ...
- 解决Vscode中代码格式化时老换行
问题: 小颖用vscode的格式化代码后发现代码老是换行,有时看起来就很难受,比如下面的: 问度娘后终于弄好啦,记录下,省的以后换电脑了重装了vscode又不会了,主要是百度给的解决方法好几个,但有的 ...
- AtCoder_abc329
AtCoder_abc329 比赛链接 A - Spread A题链接 题目大意 输入一个字符串由大写字母组成的\(S\),输出\(S\)并在每一个字符之间加上空格 解题思路 随便打打就能过.jpg ...
- [转载] Winform WebBrowser 使用 Edge 内核
原文地址 C# 设置 WebBrowser 使用 Edge 内核_c# webbrowser 内核 - CSDN 博客 原文内容 1. 问题描述 用 C# 写了一个小工具, 需要显示网页上的内容, 但 ...