摘要:所谓全场景AI,是指可以将深度学习技术快速应用在云边端不同场景下的硬件设备上,包括云服务器、移动终端以及IoT设备等等,高效运行并能有效协同。

本文分享自华为云社区《AI框架的挑战与MindSpore的解决思路》,原文作者:HWCloudAI 。

全场景统一AI框架的挑战

所谓全场景AI,是指可以将深度学习技术快速应用在云边端不同场景下的硬件设备上,包括云服务器、移动终端以及IoT设备等等,高效运行并能有效协同。对于框架而言,涉及三大挑战:快速部署、高效运行、端云协同。

  • 快速部署

如何将训练好的模型快速地部署到云服务器、移动终端以及各种IoT设备上进行推理甚至增量训练?

云服务器上推理通常以Service的方式进行部署,训练好的模型直接通过远程接口调用(gRPC/REST)推送到云服务器上,用户调用云推理服务接口进行推理。对于移动终端和IoT设备,由于硬件资源限制,云侧的模型和推理运行框架体积太大,无法直接部署,因此模型的压缩和运行框架的轻量化成为移动终端和IoT设备上部署的关键。

面向移动终端和IoT设备轻量化的挑战,提供独立的轻量化的端侧AI框架是比较好的解决方案,同时这样的轻量化框架可能还不止一种形态,比如类似于智能手机这些富终端和类似耳环这些瘦终端面临的挑战就不一样,富终端一般存储空间还是比较充裕的,有一定的算力;瘦终端的条件则要苛刻的多,底噪要求控制在百K级别,这样你就不能放一个运行时进去,同时还要考虑给AI开发者一个通用的解决方案。

有了轻量化的端侧框架以及好的模型压缩转换技术是否就可以实现快速部署的目的?其实还有问题,因为如果我们端侧的架构与云侧的架构是分离的、实现是不一致的,如模型的IR不同、算子的定义不同、推理的API接口不同,那很可能导致云侧训练的模型无法顺利的转换到端侧去执行,云侧的推理代码无法在端侧重用。

一般框架的从云侧训练模型到端侧部署的流程如下:

这种方式目前存在一些问题:

  • 第一个问题:两套模型定义很难保持一致,比如云侧和端侧的算子经常会出现一方缺失的问题,导致模型转换失败。
  • 第二个问题:云和端都需要的功能会重复开发,并可能有不一致,比如为了提升推理性能而进行的fusion优化需要端云两边都做一遍,数据处理的不一致导致精度问题等。
  • 第三个问题:云侧训练好的模型在端侧进行在线训练需要相对复杂的转换。

对于分离的端云框架的不一致问题,是否可以通过如ONNX这样的标准去解决?很难,原因在于,AI产业的快速发展,新的算子类型快速涌现,标准实际上很难跟得上,所以解决的途径还是应该着落在AI框架上。

  • 高效运行

全场景的高效运行,分解下来就是高效的算子、高效的运行时以及高效的模型,实现异构硬件的最大算力,提升AI算法的运行性能和能效比。

算子的性能,需要从算法和底层指令优化多个层面进行优化。比如卷积,Winograd算法相比于Im2Col+GEMM,在很多经典卷积神经网络上性能就有很好的性能提升。

但是,并不是所有的场景下Winograd的算法都优于Im2Col+GEMM。在下面的图中,当shape为224x224x3x64时,Winograd的性能反而有所恶化。因此,在不同条件下选择最优的算法对性能至关重要。

算法层面的优化,更多的是通过减少运行时的计算次数(乘法)来提升性能,而指令层面的优化则是为了更充分的利用硬件的算力。对于CPU硬件,影响指令执行速度的关键因素包括了L1/L2缓存的命中率以及指令的流水,通用的优化方法有:

  1. 选择合理数据排布,如NHWC、NC4HW4等等
  2. 寄存器的合理分配,将寄存器按照用途,可以划分为feature map寄存器、权重寄存器和输出寄存器,寄存器的合理分配可以减少数据加载的次数。
  3. 数据的预存取,通过prefetch/preload等指令,可以提前将数据读到cache中。
  4. 指令重排,尽量减少指令的pipeline stall。
  5. 向量化计算,使用SIMD指令,如ARM NEON指令,X86 SSE/AVX指令等。

这些优化需要对硬件架构有深入的了解。

端侧运行时的性能主要面临异构和异步并行的挑战,从模型角度看,大部分模型在推理的时候看上去是串行执行的,不过如果把算子内部打开,变成细粒度的kernel,整体执行流还是一个dataflow的图,存在不少异步并行的机会,同时端侧存在大量的异构设备,如果一个模型在执行的时候使用多种类型的设备,中间也存在不同的流水线。

模型的性能,主要还是靠离线的优化和tuning,这一块业界也已经许多实践了,总的思路主要是规则化的融合pass和离线的算子tuning结合。

  • 端云协同

端云协同主要涉及三块:云侧训练-端侧推理、云侧训练-端侧增量训练-端侧推理、云/端的联邦学习

云侧训练-端侧推理,重点需要解决怎么生成最适合端侧的模型,包括模型压缩和自适应模型生成。模型压缩技术我们前面已经做了介绍。对于神经网络自动搜索(NAS),通常被用来生成满足一定限制条件(例如,微控制器上极致的内存限制)的模型,NAS技术最大的问题在于如何缩短搜索模型的时间。

云侧训练-端侧增量训练,重点需要解决云和端的模型高效转换的问题,这个前面章节已经介绍。

联邦学习,目前业界主要有两个技术流派,一个是横向联邦学习,数据上进行聚合,典型的应用场景是,移动设备上的隐私保护问题,像广告等场景需要建立数百万移动设备之间的联邦模型,避免用户隐私数据上传到数据中心。第二个是纵向联邦学习,维度上进行聚合,比较看重跨机构跨组织大数据合作场景,尤其是银行金融场景的数据安全和隐私保护问题。

移动设备隐私保护的架构

跨机构跨组织大数据合作架构

联邦学习在技术上还有许多挑战,比如跨设备的系统异构以及算法迭代过程中的通信,将会影响最终联邦聚合的效率和精度;联邦学习的过程中的模型加密方法,因为即使通过权重也可以推测出部分隐私信息,以及客户端的投毒攻击、对抗样本等;另外一个挑战主要是架构上的,目前联邦学习还没有一个统一的架构,同时支持横向联邦学习和纵向联邦学习。

MindSpore全场景统一架构的解决方案

  • 端云统一内核

MindSpore在框架的设计上进行了分层设计,将端云共用的数据结构和模块解耦出来,在满足端侧轻量化的同时,保持了端云架构的一致性,真正实现一次训练无缝部署、端云训练共模型。

【统一IR】MindSpore core的统一IR,保证了端云模型/算子定义的一致性,使得云侧训练的模型可以无缝的部署在端侧。同时,对于端侧训练,可以和云侧使用一致的IR进行模型的重训。

统一IR定义了模型的逻辑结构和算子的属性,并且与模型的持久化是解耦的。开源项目中用于持久化数据的方式,使用最为广泛的,就是protobuffer和flatbuffer。两者相比,protobuffer功能更为强大,使用也更加的灵活,但是相应的,也更加的重量级。flatbuffer更加的轻,反序列化的速度也更快。MindSpore将统一IR的逻辑数据持久化成不同的物理形式,云侧持久化成protobuffer格式,端侧持久化成flatbuffer,兼顾了数据的一致性与部署的轻量化。

【公共pass】为了提升性能,训练好的模型在执行推理前,需要提前做一些优化手段,这些优化包括了融合、常量折叠、数据排布的调整等等。对于端云共享的优化,同样也是包含在MindSpore core模块中,只不过对于云侧推理,这些优化是在线推理时去执行的,而对于移动终端这些优化在执行推理前离线完成。

【统一接口】MindSpore设计了提供端云统一的C++接口。统一的C++接口的用法尽量与Python接口保持了一致,降低了学习成本。通过统一接口,用户可以使用一套代码在不同的硬件上进行推理。

  • 轻量化技术

【MindSpore for micro】相比于移动终端,IoT设备MCU芯片资源更加的有限,因此,如何在IoT设备上部署深度学习模型将更具有挑战。

上面的表中,左边表示了云、手机、MCU上内存和存储的大小,右边表示了ResNet-50、MobileNet-V2、int8量化的MobileNetV2占用的存储和内存。

针对IoT设备,MindSpore设计了MindSpore for micro的方案。

部署在云服务器和移动终端上的推理框架,通过模型解释的方式来进行推理,这样的方式可以支持多个模型以及跨硬件平台,但是需要额外的运行时内存(MCU中最昂贵的资源)来存储元信息(例如模型结构参数)。MindSpore for micro的CodeGen方式,将模型中的算子序列从运行时卸载到编译时,并且仅生成将模型执行的代码。它不仅避免了运行时解释的时间,而且还释放了内存使用量,以允许更大的模型运行。这样生成的二进制大小很轻,因此具有很高的存储效率。

MindSpore for micro的特性将会在1.2的版本中开源。

【量化】

MindSpore自适应混合低比特量化技术:根据模型结构和目标压缩率自动搜索出对应层量化bit数,无需量化专家深度参与。量化因子可训练,在低比特量化场景下可极大提升训练效率和减少量化损失。在图像分类/目标检测模型上验证压缩8~10倍场景下,精度优于当前业界量化算法。

MindSpore训练后量化技术:训练后量化相较于量化重训具有两个明显优势,一是无需大量训练数据集,二是无需重新训练,离线快速转换。MindSpore采用pipeline组合量化方法,一阶段采用常规线性量化手段对权重和激活值进行量化,二阶段对量化误差进行分析,利用统计学方法对量化模型进行校正,补偿因量化带来的精度损失。

Pipeline 组合量化

  • 高效运行时

【端云统一运行时】为了能够为端云的训练、推理提供统一的并行运行框架,MindSpore设计了基于Actor模型的端云统一运行时。

AI训练或者推理,最终都是执行一个DAG计算图,图中每个节点都是一个op,每条边都是一个(或一组)tensor。下面的图中,左边是actor模型的示意图,右边是一个AI计算任务示意图。

我们将一个op定义为一个actor,actor之间传递tensor。在actor模型中,message是无状态的且不复用的,但在AI计算任务中,为了提高效率,tensor通常会被复用。为了解决这个问题,MindRT中引入了tensor manager来统一管理tensor,所有op通过tensor manager获取tensor。

Tensor Manager支持tensor的引用计数和内存管理。端云统一运行时将在MindSpore 1.2/1.3版本中开源。

【软硬协同】MindSpore原生与端侧的NPU芯片深度结合,最大程度的发挥了专有芯片的性能优势。

【算子优化】在手机CPU上,MindSpore支持了多种卷积算法:Sliding Window、Im2Col+GEMM、Strassen、Winograd、Indirect Convolution、FFT等。如何在不同的条件下选择最优的卷积算法,通常有3种做法:

  1. 基于经验的人工设置
  2. 通过数学建模的Cost Model
  3. 通过机器学习算法模型,使用已有数据集对其进行离线训练,最终得到一个可靠的卷积算子选择器

目前,MindSpore支持了2和3两种方式来进行最优卷积算法的选择。

算法的选择,除了考虑性能,还需要考虑特定场景下的内存限制。例如,对于IoT场景的硬件设备,如果选择最为常见的Im2Col+GEMM算法,计算过程需要将输入和卷积核在内存中拉平,占内存较大。MindSpore针对这种场景,选择占用内存较少的Indirect Convolution算法。

  • 联邦学习

MindSpore的联邦学习方法,同时支持cross-device(ToC)和cross-silo(ToB)两种场景,在数据不出域的条件下,实现多方联合建模,以帮助企业应用提效降本,助力不同行业智慧升级。在安全性方面,MindSpore提供多种模型加密方式,可以适用于大规模无状态的终端设备,包括差分隐私、秘密共享、安全聚合等,用户可自定义安全等级。

了解完MindSpore的AI框架的几大优势,赶紧【点击链接】并【立即报名】,即可在 ModelArts 平台学习到一个经典案例掌握基于MindSpore的深度学习!

点击关注,第一时间了解华为云新鲜技术~

应对全场景AI框架部署挑战,MindSpore“四招”让你躺平的更多相关文章

  1. 昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者

    摘要:本文带大家快速浏览昇思MindSpore全场景AI框架1.6版本的关键特性. 全新的昇思MindSpore全场景AI框架1.6版本已发布,此版本中昇思MindSpore全场景AI框架易用性不断改 ...

  2. 全场景AI推理引擎MindSpore Lite, 助力HMS Core视频编辑服务打造更智能的剪辑体验

    移动互联网的发展给人们的社交和娱乐方式带来了很大的改变,以vlog.短视频等为代表的新兴文化样态正受到越来越多人的青睐.同时,随着AI智能.美颜修图等功能在图像视频编辑App中的应用,促使视频编辑效率 ...

  3. 华为全栈AI技术干货深度解析,解锁企业AI开发“秘籍”

    摘要:针对企业AI开发应用中面临的痛点和难点,为大家带来从实践出发帮助企业构建成熟高效的AI开发流程解决方案. 在数字化转型浪潮席卷全球的今天,AI技术已经成为行业公认的升级重点,正在越来越多的领域为 ...

  4. 释放至强平台 AI 加速潜能 汇医慧影打造全周期 AI 医学影像解决方案

    基于英特尔架构实现软硬协同加速,显著提升新冠肺炎.乳腺癌等疾病的检测和筛查效率,并帮助医疗科研平台预防"维度灾难"问题 <PAGE 1 LEFT COLUMN: CUSTOM ...

  5. 中国人工智能AI框架自主研发

    中国人工智能AI框架自主研发 中国AI界争相构建AI开源框架的背后,技术和业务层面的考量因素当然重要,但也不应忽视国家层面的政策支持.对于AI基础设施的建设,中国政府在<新一代人工智能发展规划& ...

  6. AI框架中图层IR的分析

    摘要:本文重点分析一下AI框架对IR有什么特殊的需求.业界有什么样的方案以及MindSpore的一些思考. 本文分享自华为云社区<MindSpore技术专栏 | AI框架中图层IR的分析> ...

  7. 乘风破浪,遇见华为鸿蒙智能终端系统(HarmonyOS 2),打造面向全场景的分布式操作系统

    什么是鸿蒙智能终端系统(HarmonyOS 2) HarmonyOS 是新一代的智能终端操作系统,为不同设备的智能化.互联与协同提供了统一的语言.带来简洁,流畅,连续,安全可靠的全场景交互体验. ht ...

  8. Kubernetes 弹性伸缩全场景解读(五) - 定时伸缩组件发布与开源

    作者| 阿里云容器技术专家刘中巍(莫源) 导读:Kubernetes弹性伸缩系列文章为读者一一解析了各个弹性伸缩组件的相关原理和用法.本篇文章中,阿里云容器技术专家莫源将为你带来定时伸缩组件  kub ...

  9. AI框架类FAQ

    AI框架类FAQ 数据处理 问题:如何在训练过程中高效读取数量很大的数据集? 答复:当训练时使用的数据集数据量较大或者预处理逻辑复杂时,如果串行地进行数据读取,数据读取往往会成为训练效率的瓶颈.这种情 ...

  10. AI框架外部用户贡献代码

    AI框架外部用户贡献代码 概述 飞桨是百度自主研发的一款开源的深度学习框架,是主流深度学习框架中首个完全国产化的产品,已经在农业.医疗.林业.科研.服务等领域成功应用.无论是已入职场的深度学习从业者. ...

随机推荐

  1. Vue之for循环

    Vue中for循环的用法总结如下: 1.基本用法 v-for <!DOCTYPE html> <html lang="en"> <head> & ...

  2. 为zabbix穿上一件漂亮的外衣

    zabbix+Grafana 7.0  zabbix的环境已部署好的情况下,zabbix部分-- 略 Grafana简介: 1.Grafana自身并存储数据,数据从其它地方获取.需要配置数据源 2.G ...

  3. LAMP配置与应用

    LAMP配置与应用 1.1 动态资源和语言 WEB 资源类型: 静态资源:原始形式与响应内容一致,在客户端浏览器执行 动态资源:原始形式通常为程序文件,需要在服务器端执行之后,将执行结果返回给客户端 ...

  4. 这次弄一下maven 多模块项目,用vscode新建一下,便于管理项目

    首先 创建一个mvn项目, 直接在命令行执行, 原型生成: mvn archetype:generate 选一个maven quick start的template, 然后删除src和target文件 ...

  5. [Python急救站课程]温度转换程序

    华氏温度转换为摄氏度的温度转换程序共有三种写法 一.简单的温度转换程序 TempStr = input("请输入带有符号的温度值: ") # TemStr表示命令,表示占位符.=为 ...

  6. vue常用方法封装收集

    // 格式化时间 export function formateTime(date) { var y = date.getFullYear(); var m = date.getMonth() + 1 ...

  7. 老是听到做PPT要会“内容可视化”,到底啥是内容可视化?

    在PPT中,内容可视化是指将文字.数据和概念等抽象信息转化为图像.图表.图表及其他可视化元素来呈现.通过合适的颜色.形状.大小和布局等视觉设计元素来强调信息的关键点和关系, 从而提高观众对信息的理解和 ...

  8. Go笔记(1)-变量的详细用法

    变量 (1)变量的定义 Go语言是静态类型的语言,所有类型都需要明确的定义. var是声明变量的关键字 使用格式:var 变量名 变量类型 变量命名规范:遵循驼峰格式,首个单词小写,每个新单词的首字母 ...

  9. WPF 绑定binding都有哪些事件

    在WPF中,源属性(Source Property)指的是提供数据的属性,通常是数据模型或者其他控件的属性,而目标属性(Target Property)则是数据绑定的目标,通常是绑定到控件的属性,例如 ...

  10. ubuntu安装opencv的正确方法

    本文介绍的是如何安装ubuntu下C++接口的opencv 1.安装准备: 1.1安装cmake sudo apt-get install cmake 1.2依赖环境 sudo apt-get ins ...