使用Apache TVM将机器学习编译为WASM和WebGPU

TLDR

在Apache TVM深度学习编译器中引入了对WASM和WebGPU的支持。实验表明，在将模型部署到Web时，TVM的WebGPU后端可以接近本机 GPU的性能。

概述

计算是现代机器学习应用程序的支柱之一。GPU的引入加快了深度学习的工作量，极大地提高了运行速度。部署机器学习的需求不断增长，浏览器已成为部署智能应用程序的自然之所。

TensorFlow.js和ONNX.js将机器学习引入浏览器，但Web版本和本机版本之间在性能上仍然存在着不小的差距。许多原因之一是缺乏对Web上GPU的标准访问和高性能访问。WebGL缺少高性能着色学习所需的重要功能，例如计算着色器和通用存储缓冲区。

WebGPU是下一代Web图形标准。与最新一代的图形API（例如Vulkan和Metal）一样，WebGPU提供了一流的计算着色器支持。

为了探索在浏览器中使用WebGPU进行机器学习部署的潜力，增强了深度学习编译器Apache（incubating）TVM，以WASM（用于计算启动参数并调用设备启动的主机代码）和WebGPU（用于设备）为目标。执行初步结果是非常积极的-第一次，可以在Web上部署机器学习应用程序，同时仍能接近GPU的本机性能。

机器学习编译器

试用WebGPU的自然反应是为深度神经网络（矩阵乘法和卷积）中的原始算子编写着色器，然后直接优化性能。这是现有框架（例如TensorFlow.js）使用的传统工作流程。

相反，采用了基于编译的方法。TVM自动从TensorFlow，Keras，PyTorch，MXNet和ONNX等高级框架中提取模型，使用机器学习驱动的方法自动生成低级代码，在这种情况下，将以SPIR-V格式计算着色器。然后可以为可部署模块生成的代码打包。

编译的方法的一个重要优点是基础架构的重用。通过重用基础结构来优化CUDA，Metal和OpenCL等本机平台的GPU内核，能够轻松地（相对于其它方法）以Web为目标。如果WebGPU API到本机API的映射有效，可以通过很少的工作获得类似的性能。更重要的是，AutoTVM基础架构，能够针对特定模型专门化计算着色器，从而能够为感兴趣的特定模型生成最佳的计算着色器。

构建WASM和WebGPU编译器

为了构建可以针对WASM和WebGPU的编译器，需要以下元素：

用于计算着色器的SPIR-V生成器。
主机程序的WASM生成器。
加载和执行生成的程序的runtime。

TVM已经有Vulkan的SPIR-V目标，使用LLVM生成主机代码。可以仅将二者的用途重新生成设备和主机程序。

主要挑战是runtime。需要一个runtime来加载着色器代码，并使主机代码对话能够正确地与着色器通信。TVM具有最低的基于C ++的runtime。构建了一个最小的Web runtime库，生成的着色器和主机驱动代码链接，生成一个WASM文件。但是，此WASM模块仍然包含两个未知的依赖项：

runtime需要调用系统库调用（malloc，stderr）。
wasmruntime需要与WebGPU驱动程序进行交互（在Javascript中，WebGPU API是the first-class citizen）。

WASI是解决第一个问题的标准解决方案。尽管网络上还没有成熟的WASI，使用emscripten生成类似WASI的库，提供这些系统库。

通过在TVM的JS runtime内部构建WebGPU runtime来解决第二个问题，在调用GPU代码时，从WASM模块中回调这些功能。使用TVM runtime系统中的PackedFunc机制，可以通过将JavaScript闭包传递到WASM接口，直接公开高级runtime原语。这种方法将大多数runtime代码保留在JavaScript中，随着WASI和WASM支持的成熟，可以将更多JS代码引入WASM runtime。

性能

进行了一个快速实验，比较了通过TVM的WebGPU后端和使用本地GPU runtime（Metal和OpenCL）的本地目标执行完整计算图的情况。在MobileNet模型上，可以发现WebGPU可以接近Metal的性能。假设Chrome WebGPU的runtime以MacOS上的Metal（而不是OpenCL）为目标，可以放心地假设以GPU为目标时，性能几乎没有损失。

此基准不包括CPU到GPU的数据复制成本，而仅基准GPU的执行。从CPU到GPU的数据复制，仍会占用25％的执行时间。可以通过诸如连续执行设置中的双缓冲之类的方法，进一步摊销这些成本。

报告的mobilenet的端到端runtime，绝不是最佳选择，重复使用了GTX 1080 Ti的优化程序，这与Intel图形GPU截然不同。希望通过在目标平台上使用AutoTVM来进一步提高性能。

展望未来

结果表明，在网络上进行机器学习有许多有趣的机会。值得注意的是，WebGPU是一个仍在不断发展的API，其含义可能会超出Web应用程序。例如，当WebGPU成熟，通过WASI标准化时，可以将其定位为WebGPU的本机API，使用WebGPU的独立WASM应用程序。

TVM社区还积极地在基于Rust的runtime上工作，该runtime将提供更强大的WASM支持，wgpu和Rust WASM生态系统等项目的交互更加轻松。

提出的方法为大多数WASM的应用场景提供了有效的机器学习支持。接近本机的性能，可以释放浏览器上更好的联合学习功能。相同的编译程序包，也应该能够在本机WASM执行程序上运行，为应用程序提供sandbox 。

使用Apache TVM将机器学习编译为WASM和WebGPU的更多相关文章

TVM编译机器学习到 WASM 和 WebGPU
TVM编译机器学习到 WASM 和 WebGPU TLDR TVM 深度学习编译器对 WASM 和 WebGPU 的支持.实验表明,TVM 的 WebGPU 后端在将模型部署到 Web 时可以接近原生 ...
TVM适配NN编译Compiler缺陷
TVM适配NN编译Compiler缺陷内容纲要前言 TVM针对VTA的编译流程自定义VTA架构:TVM的缺陷与性能瓶颈 TVM缺陷与瓶颈缺陷一:SRAM配置灵活性差缺陷二:计算阵列配置僵硬 ...
试试将.NET7编译为WASM并在Docker上运行
之前有听到说Docker支持Wasmtime了,刚好.NET7也支持WASM,就带大家来了解一下这个东西,顺便试试它怎么样. 因为WASM(WebAssembly) 一开始是一个给浏览器的技术,比起J ...
Centos7 Apache 2.4.18编译安装
安装环境:CentOS Linux release 7.0.1406 (Core) 0x01 到官网http://httpd.apache.org/download.cgi#apache24下载apa ...
Apache 流媒体拖动模块编译
Windows使用apxs独立编译 Apache 模块 http://blog.sina.com.cn/s/blog_43b83d340100mdhl.html 安装 apxs 1.解压apxs.zi ...
以Apache模块的方式编译安装php-5.4.27
为什么要安装低版本的php? 由于apc,xcache的更新版本跟不上php版本的速度,所以,我们需要安装比较稳定的php低版本程序,再安装其它与之相匹配的扩展. 开工: 新建用户及用户组 group ...
以Apache模块的方式编译安装php-5.5.4
新建用户及用户组 groupadd webuser useradd -g webuser webuser 下载php-5.5 下载地址:http://pan.baidu.com/s/1o6I6Lnk ...
apache ranger源码编译
官方文档 http://ranger.apache.org/quick_start_guide.html Quick Start Guide Build Process 1. Check out th ...
apache atlas源码编译打包 centos
参考:https://atlas.apache.org/InstallationSteps.html https://blog.csdn.net/lingbo229/article/details/8 ...

随机推荐

软件篇-04-OMPL和FCL用于SLAM轨迹规划
使用OMPL内置的infoRRTstar算法模块和FCL碰撞检测库实现当前点和目标点的轨迹规划, 参考文章:https://www.cnblogs.com/shhu1993/p/7062099.htm ...
微信小程序中的自定义组件
微信小程序中的组件前言之前做小程序开发的时候,对于开发来说比较头疼的莫过于自定义组件了,当时官方对这方面的文档也只是寥寥几句,一笔带过而已,所以写起来真的是非常非常痛苦!! 好在微信小程序的库从 ...
PAT 乙级 -- 1011 -- A+B和C
问题简述给定区间[-231, 231]内的3个整数A.B和C,请判断A+B是否大于C. 输入格式: 输入第1行给出正整数T(<=10),是测试用例的个数.随后给出T组测试用例,每组占一行,顺序 ...
php笔记之魔术方法、魔法常量和超全局变量
一.魔术方法(13个)1.__construct()实例化对象时被调用, 当__construct和以类名为函数名的函数同时存在时,__construct将被调用,另一个不被调用.2.__destru ...
如何在centos上配置802.1Q VLAN标记，linux单网卡多vlan多网段Ip配置案例
介绍 VLAN使将大型网络分成较小且易于管理的网络成为可能.802.1Q是所有供应商都在其网络设备中实施的标准.某些交换机能够将多个VLAN分配给单个网络端口.使用此功能,您可以将多个VLAN分配给单 ...
基于任务的异步编程(Task,async,await)
这节讲一下比较高级的异步编程用法Task,以及两个异步关键字async和await. Task是在C#5.0推出的语法,它是基于任务的异步编程语法,是对Thread的升级,也提供了很多API,先看一下 ...
JVM垃圾回收器总结
常见七种垃圾回收器以及使用的垃圾回收算法总结:
.NET Core 基于 Grafana Loki 日志初体验
介绍 Loki: like Prometheus, but for logs. Loki是一个轻量级的日志系统,受到Prometheus项目的启发,由Grafana团队设计和开发,所以在Grafana ...
CodeForces - 879
A 题意:就是一共有n个医生,每个医生上班的时间是第Si天,之后每隔d天去上班,问最少多少天能够访问完这n名医生思路:直接进攻模拟就可以代码: 1 #include<iostream> ...
Nifi：初识nifi
写在前面: 第一次接触这一系统的时候,只有github上的一坨源码和官方的英文文档,用起来只能说是一步一个坑,一踩一个脚印,现在回想那段血泪史,只想 ***,现在用起来算是有了一些经验和总结,这里就做 ...

使用Apache TVM将机器学习编译为WASM和WebGPU

使用Apache TVM将机器学习编译为WASM和WebGPU的更多相关文章

随机推荐

热门专题