使用TVM将深度学习模型编译为WebGL

TVM带有全新的OpenGL / WebGL后端!

OpenGL / WebGL后端

TVM已经瞄准了涵盖各种平台的大量后端:CPU,GPU,移动设备等。这次,添加了另一个后端:OpenGL / WebGL。

OpenGL / WebGL使能够在未安装CUDA的环境中利用GPU。在浏览器中使用GPU的方法。

后端允许以3种不同的方式使用OpenGL / WebGL:

  • 本地OpenGL:可以将深度学习模型编译为OpenGL,完全使用Python在本地计算机上直接运行。
  • 带有RPC的WebGL:可以将深度学习模型编译到WebGL中,通过Emscripten(带有JavaScript主机代码和WebGL设备代码)将其导出为共享库。通过RPC将该库部署到在浏览器中运行的TVM JavaScript运行时系统上。
  • 带有静态库的WebGL:可以将深度学习模型编译到WebGL中,将其与TVM JavaScript运行时系统链接,然后导出整个程序包。在浏览器上的网页中运行该模型,而无需依赖。详细流程如图1所示。

依靠Emscripten及其fastcomp LLVM后端来生成javascript后端。

图1

与X有何不同?

在浏览器上运行神经网络并不是一件新鲜事。例如安德烈·卡帕蒂(Andrej Karpathy)的ConvNetJS 和Google的DeepLearning.JS

带WebGL的TVM的独特之处是什么?最大的区别是TVM中的op内核是自动编译的,而不是手写的。如图2所示,TVM利用统一的AST定义内核,将其编译为在不同平台上进行编码。

图2

表明:

  • 将现有模型部署到WebGL,无需编写大量其他代码。NNVM / TVM模型定义对于所有目标都是相同的,只需要将其编译为新目标即可。
  • 要添加一个新的op内核,只需要在TVM中定义一次,而不是为每个目标实现一次。无需知道如何编写GLSL代码,即可向WebGL添加新的操作内核!

基准benchmark

为典型的工作负载执行基准测试:使用resnet18进行图像分类。

5岁的笔记本电脑,该笔记本电脑具有8核IntelCorei7-3610QM和GTX650M。

在此基准测试中,从Gluon模型动物园下载了一个resnet18模型,对猫图像进行了端到端分类。仅测量模型执行时间(没有模型/输入/参数加载),每个模型运行100次以获取平均值。结果如图3所示。

图3

基准测试有4种不同的设置:

  • CPU(LLVM):将模型编译为LLVM IR和JIT。完全在CPU上运行。
  • OpenCL:将模型编译到OpenCL中。仍然有一些胶水glue代码已编译到LLVM,负责设置和启动OpenCL内核。在本地计算机上运行。
  • OpenGL:与OpenCL相同,但编译为OpenGL。
  • WebGL:粘合代码被编译为LLVM,使用Emscripten的Fastcomp LLVM后端转换为JavaScript。设备代码被编译为WebGL。在Firefox中执行模型。

上面的结果可以看出,TVM OpenGL后端具有与OpenCL相似的性能。更有趣的是,浏览器中的WebGL版本,并不比台式机OpenGL慢得多。考虑到宿主代码是JavaScript,非常令人惊讶。可能是由于Emscripten生成了asm.js,在Firefox中进行重大优化。

这是将深度学习模型自动编译到Web浏览器中的第一步。随着将优化引入TVM堆栈,会有有更多的性能改进。

TVM将深度学习模型编译为WebGL的更多相关文章

  1. 用 Java 训练深度学习模型,原来可以这么简单!

    本文适合有 Java 基础的人群 作者:DJL-Keerthan&Lanking HelloGitHub 推出的<讲解开源项目> 系列.这一期是由亚马逊工程师:Keerthan V ...

  2. CUDA上深度学习模型量化的自动化优化

    CUDA上深度学习模型量化的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参数 ...

  3. CUDA上的量化深度学习模型的自动化优化

    CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...

  4. AI佳作解读系列(一)——深度学习模型训练痛点及解决方法

    1 模型训练基本步骤 进入了AI领域,学习了手写字识别等几个demo后,就会发现深度学习模型训练是十分关键和有挑战性的.选定了网络结构后,深度学习训练过程基本大同小异,一般分为如下几个步骤 定义算法公 ...

  5. 『高性能模型』Roofline Model与深度学习模型的性能分析

    转载自知乎:Roofline Model与深度学习模型的性能分析 在真实世界中,任何模型(例如 VGG / MobileNet 等)都必须依赖于具体的计算平台(例如CPU / GPU / ASIC 等 ...

  6. 深度学习模型stacking模型融合python代码,看了你就会使

    话不多说,直接上代码 def stacking_first(train, train_y, test): savepath = './stack_op{}_dt{}_tfidf{}/'.format( ...

  7. 深度学习模型融合stacking

    当你的深度学习模型变得很多时,选一个确定的模型也是一个头痛的问题.或者你可以把他们都用起来,就进行模型融合.我主要使用stacking和blend方法.先把代码贴出来,大家可以看一下. import ...

  8. 利用 TFLearn 快速搭建经典深度学习模型

      利用 TFLearn 快速搭建经典深度学习模型 使用 TensorFlow 一个最大的好处是可以用各种运算符(Ops)灵活构建计算图,同时可以支持自定义运算符(见本公众号早期文章<Tenso ...

  9. Roofline Model与深度学习模型的性能分析

    原文链接: https://zhuanlan.zhihu.com/p/34204282 最近在不同的计算平台上验证几种经典深度学习模型的训练和预测性能时,经常遇到模型的实际测试性能表现和自己计算出的复 ...

随机推荐

  1. [Web] 通用轮播图代码示例

    首先是准备好的几张图片, 它们的路径是: "img/1.jpg", "img/2.jpg", "img/3.jpg", "img/ ...

  2. 记一次linux下安装ftp的愉快体验

    三三两两,试了几次就出来了,挺开心的 linux安装vsftpd,请自行百度 贴出部分配置点 阿里云服务器,开发相关端口以及部分区域端口访问 /etc/pad.d/vsftpd添加部分注释 #%PAM ...

  3. FlinkSQL使用自定义UDTF函数行转列-IK分词器

    一.背景说明 本文基于IK分词器,自定义一个UDTF(Table Functions),实现类似Hive的explode行转列的效果,以此来简明开发过程. 如下图Flink三层API接口中,Table ...

  4. 基于ray的分布式机器学习(一)

    基本思路:1.对数据分块,使用多个worker分别处理一个数据块,每个worker暴露两个接口,分别是损失计算的接口loss和梯度计算的接口grad:2.同时定义full_loss和full_grad ...

  5. IOCP实现高并发以及与传统socke编程的对比

    前言 传统socket编程中服务端一般为每一个客户端创建一个线程(一对一).这样虽然可以使程序的结构简单明了并且方便对数据处理,但是这些都是建立在创建多个线程的基础上,也就是以牺牲线程为代价.一旦有大 ...

  6. 理解微信小程序的双线程模型

    有过微信小程序开发经验的朋友应该都知道"双线程模型"这个概念,本文简单梳理一下双线程模型的一些科普知识,学识浅薄,若有错误欢迎指正. 我以前就职于「小程序·云开发」团队,在对外的一 ...

  7. 前端必读:Vue响应式系统大PK

    转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 原文参考:https://www.sitepoint.com/vue-3-reactivity-system ...

  8. [面向对象之继承应用(在子类派生重用父类功能(super),继承实现原理(继承顺序、菱形问题、继承原理、Mixins机制),组合]

    [面向对象之继承应用(在子类派生重用父类功能(super),继承实现原理(继承顺序.菱形问题.继承原理.Mixins机制),组合] 继承应用 类与类之间的继承指的是什么'是'什么的关系(比如人类,猪类 ...

  9. ES6对象的新增方法的使用

    Object.assign Object Object.assign(target, ...sources) 将所有可枚举属性的值从一个或多个源对象复制到目标对象 参数: target 目标对象 so ...

  10. 使用基于centos7 dbus问题总结

    Authorization not available. Check if polkit Authorization not available. Check if polkit service is ...