TVM将深度学习模型编译为WebGL
使用TVM将深度学习模型编译为WebGL
TVM带有全新的OpenGL / WebGL后端!
OpenGL / WebGL后端
TVM已经瞄准了涵盖各种平台的大量后端:CPU,GPU,移动设备等。这次,添加了另一个后端:OpenGL / WebGL。
OpenGL / WebGL使能够在未安装CUDA的环境中利用GPU。在浏览器中使用GPU的方法。
后端允许以3种不同的方式使用OpenGL / WebGL:
- 本地OpenGL:可以将深度学习模型编译为OpenGL,完全使用Python在本地计算机上直接运行。
- 带有RPC的WebGL:可以将深度学习模型编译到WebGL中,通过Emscripten(带有JavaScript主机代码和WebGL设备代码)将其导出为共享库。通过RPC将该库部署到在浏览器中运行的TVM JavaScript运行时系统上。
- 带有静态库的WebGL:可以将深度学习模型编译到WebGL中,将其与TVM JavaScript运行时系统链接,然后导出整个程序包。在浏览器上的网页中运行该模型,而无需依赖。详细流程如图1所示。
依靠Emscripten及其fastcomp LLVM后端来生成javascript后端。

图1
与X有何不同?
在浏览器上运行神经网络并不是一件新鲜事。例如安德烈·卡帕蒂(Andrej Karpathy)的ConvNetJS 和Google的DeepLearning.JS。
带WebGL的TVM的独特之处是什么?最大的区别是TVM中的op内核是自动编译的,而不是手写的。如图2所示,TVM利用统一的AST定义内核,将其编译为在不同平台上进行编码。

图2
表明:
- 将现有模型部署到WebGL,无需编写大量其他代码。NNVM / TVM模型定义对于所有目标都是相同的,只需要将其编译为新目标即可。
- 要添加一个新的op内核,只需要在TVM中定义一次,而不是为每个目标实现一次。无需知道如何编写GLSL代码,即可向WebGL添加新的操作内核!
基准benchmark
为典型的工作负载执行基准测试:使用resnet18进行图像分类。
5岁的笔记本电脑,该笔记本电脑具有8核IntelCorei7-3610QM和GTX650M。
在此基准测试中,从Gluon模型动物园下载了一个resnet18模型,对猫图像进行了端到端分类。仅测量模型执行时间(没有模型/输入/参数加载),每个模型运行100次以获取平均值。结果如图3所示。

图3
基准测试有4种不同的设置:
- CPU(LLVM):将模型编译为LLVM IR和JIT。完全在CPU上运行。
- OpenCL:将模型编译到OpenCL中。仍然有一些胶水glue代码已编译到LLVM,负责设置和启动OpenCL内核。在本地计算机上运行。
- OpenGL:与OpenCL相同,但编译为OpenGL。
- WebGL:粘合代码被编译为LLVM,使用Emscripten的Fastcomp LLVM后端转换为JavaScript。设备代码被编译为WebGL。在Firefox中执行模型。
上面的结果可以看出,TVM OpenGL后端具有与OpenCL相似的性能。更有趣的是,浏览器中的WebGL版本,并不比台式机OpenGL慢得多。考虑到宿主代码是JavaScript,非常令人惊讶。可能是由于Emscripten生成了asm.js,在Firefox中进行重大优化。
这是将深度学习模型自动编译到Web浏览器中的第一步。随着将优化引入TVM堆栈,会有有更多的性能改进。
TVM将深度学习模型编译为WebGL的更多相关文章
- 用 Java 训练深度学习模型,原来可以这么简单!
本文适合有 Java 基础的人群 作者:DJL-Keerthan&Lanking HelloGitHub 推出的<讲解开源项目> 系列.这一期是由亚马逊工程师:Keerthan V ...
- CUDA上深度学习模型量化的自动化优化
CUDA上深度学习模型量化的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参数 ...
- CUDA上的量化深度学习模型的自动化优化
CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...
- AI佳作解读系列(一)——深度学习模型训练痛点及解决方法
1 模型训练基本步骤 进入了AI领域,学习了手写字识别等几个demo后,就会发现深度学习模型训练是十分关键和有挑战性的.选定了网络结构后,深度学习训练过程基本大同小异,一般分为如下几个步骤 定义算法公 ...
- 『高性能模型』Roofline Model与深度学习模型的性能分析
转载自知乎:Roofline Model与深度学习模型的性能分析 在真实世界中,任何模型(例如 VGG / MobileNet 等)都必须依赖于具体的计算平台(例如CPU / GPU / ASIC 等 ...
- 深度学习模型stacking模型融合python代码,看了你就会使
话不多说,直接上代码 def stacking_first(train, train_y, test): savepath = './stack_op{}_dt{}_tfidf{}/'.format( ...
- 深度学习模型融合stacking
当你的深度学习模型变得很多时,选一个确定的模型也是一个头痛的问题.或者你可以把他们都用起来,就进行模型融合.我主要使用stacking和blend方法.先把代码贴出来,大家可以看一下. import ...
- 利用 TFLearn 快速搭建经典深度学习模型
利用 TFLearn 快速搭建经典深度学习模型 使用 TensorFlow 一个最大的好处是可以用各种运算符(Ops)灵活构建计算图,同时可以支持自定义运算符(见本公众号早期文章<Tenso ...
- Roofline Model与深度学习模型的性能分析
原文链接: https://zhuanlan.zhihu.com/p/34204282 最近在不同的计算平台上验证几种经典深度学习模型的训练和预测性能时,经常遇到模型的实际测试性能表现和自己计算出的复 ...
随机推荐
- 【SpringBoot】Springboot2.x整合SpringSecurity
一.Spring Security是什么?有什么作用(核心作用)?以及如何阅读本篇文章 1.是什么 Spring Security是Spring家族的一个强大的安全框架,与Springboot整合的比 ...
- 【Java】 Java中的浅拷贝和深拷贝
先抛出结论: 浅拷贝是引用拷贝,A对象拷贝B以后,A对象和B对象指向同一块内存地址,改变A对象的属性值会触发B对象属性的改变,有安全风险 深拷贝是对象拷贝,A对象拷贝B以后,A对象和B对象指向不同的额 ...
- hdu3018 一笔画问题
题意: 给你一幅画,这幅画由点和边构成,问你最少几笔能把这幅画画完. 思路: 这个题目的结论比较巧妙,首先我们考虑下,如果给的图是欧拉图,或者是条欧拉回路,那么我们一笔就搞定了, ...
- Win64 驱动内核编程-15.回调监控注册表
回调监控注册表 在 WIN32 平台上,监控注册表的手段通常是 SSDT HOOK.不过用 SSDT HOOK 的方式监控注册表实在是太麻烦了,要 HOOK 一大堆函数,还要处理一些 NT6 系统有而 ...
- 使用乌龟Git连接github
之前自己是在Gitee+乌龟Git来进行管理项目,因为特殊的需求,需要再Github+乌龟Git来进行管理项目,这盘博客主要讲解的就是这个. 安装环境 Git 安装参考链接:https://www.c ...
- RxJava线程控制
RxJava中的线程转换主要通过下面两个方法: 1.subscribeOn 2.observeOn 一.subscribeOn 1.调用一次subscribeOn时: Observable obser ...
- 【前端】vue2.x 配合 bootstrapTable 动态添加元素和绑定点击事件,事件无效 解决
背景: 使用bootstrap-table 表格插件时,每一行的最后一班会加操作按钮列.如果不加入vue的话,使用插件自己的列属性formatter:function(value, row, inde ...
- SQLFlow使用中的注意事项--设置篇
SQLFlow 是用于追溯数据血缘关系的工具,它自诞生以来以帮助成千上万的工程师即用户解决了困扰许久的数据血缘梳理工作. 数据库中视图(View)的数据来自表(Table)或其他视图,视图中字段(Co ...
- 【js】Leetcode每日一题-二叉树的堂兄弟节点
[js]Leetcode每日一题-二叉树的堂兄弟节点 [题目描述] 在二叉树中,根节点位于深度 0 处,每个深度为 k 的节点的子节点位于深度 k+1 处. 如果二叉树的两个节点深度相同,但 父节点不 ...
- Educational Codeforces Round 92 (Rated for Div. 2)
A.LCM Problem 题意:最小公倍数LCM(x,y),处于[l,r]之间,并且x,y也处于[l,r]之间,给出l,r找出x,y; 思路:里面最小的最小公倍数就是基于l左端点的,而那个最小公倍数 ...