TensorFlow XLA加速编译器

吴建明wujianming 2024-10-19 09:00:39 原文

TensorFlow XLA加速编译器

加速线性代数器（Accelerated linear algebra，XLA）是线性代数领域的专用编译器。根据 https://www.tensorflow.org/performance/xla/，它仍处于实验阶段，用于优化 TensorFlow 计算。

XLA 可以提高服务器和移动平台的执行速度、内存使用率和可移植性。提供了双向 JIT（Just In Time）编译或 AoT（Ahead of Time）编译。使用 XLA，可以生成平台相关的二进制文件（针对大量平台，如 x64、ARM等），可以针对内存和速度进行优化。

准备工作

目前，XLA 并不包含在 TensorFlow 的二进制版本中。用时需要从源代码构建它。

从源代码构建 TensorFlow，需要 TensorFlow 版的 LLVM 和 Bazel。TensorFlow.org 仅支持从 macOS 和 Ubuntu 的源代码构建。从源代码构建 TensorFlow 所需的步骤如下（参见https://www.tensorflow.org/install/install_sources）：

确定要安装哪个版本的 TensorFlow——仅支持 CPU 的 TensorFlow 或支持 GPU 的 TensorFlow。
复制 TensorFlow 存储库：
安装以下依赖：

Bazel
TensorFlow 的 Python 依赖项
对GPU版本，需要NVIDIA软件包以支持TensorFlow

配置安装。需要选择不同的选项，如 XLA、Cuda 支持、Verbs 等：

./configure

使用 bazel-build。
对于仅使用 CPU 的版本：
如果有兼容的 GPU 设备，并且需要 GPU 支持，请使用：
成功运行后，获得一个脚本：build_pip_package。按如下所示运行这个脚本来构建 whl 文件：
安装 pip 包：

现在你已经准备好了。

具体做法

TensorFlow 生成 TensorFlow 图表。在
XLA 的帮助下，可以在任何新类型的设备上运行 TensorFlow 图表。

JIT 编译：在会话级别中打开JIT编译：

这是手动打开 JIT 编译：
还可以通过将操作指定在特定的
XLA 设备（XLA_CPU 或 XLA_GPU）上，通过 XLA 来运行计算：

AoT编译：独立使用
tfcompile 将 TensorFlow 图转换为不同设备（手机）的可执行代码。

TensorFlow.org
中关于 tfcompile 的论述：tfcompile 采用一个由 TensorFlow 的 feed 和
fetch 概念所标识的子图，并生成一个实现该子图的函数。feed 是函数的输入参数，fetch 是函数的输出参数。所有的输入必须完全由 feed 指定；生成的剪枝子图不能包含占位符或变量节点。通常将所有占位符和变量指定值，这可确保生成的子图不再包含这些节点。生成的函数打包为一个 cc_library，带有导出函数签名的头文件和一个包含实现的对象文件。用户编写代码以适当地调用生成的函数。

TensorFlow XLA加速编译器的更多相关文章

用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割
用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割 Accelerating Medical Image Segmentation with NVIDIA Tensor ...
TensorFlow从0到1之XLA加速线性代数编译器（9）
加速线性代数器(Accelerated linear algebra,XLA)是线性代数领域的专用编译器.根据 https://www.tensorflow.org/performance/xla/, ...
ubuntu16.04下安装TensorFlow(GPU加速)----详细图文教程【转】
本文转载自:https://blog.csdn.net/zhaoyu106/article/details/52793183 le/details/52793183 写在前面一些废话接触深度学习已 ...
Tensorflow计算加速
在tensorflow里可以通过tf.device函数来指定每个运行的设备,可以是GPU也可以是CPU,比如CPU在tensorflow里的名称为/cpu:0,即便电脑里有多个CPU,tensorfl ...
TensorFlow API 汉化
TensorFlow API 汉化模块:tf 定义于tensorflow/__init__.py. 将所有公共TensorFlow接口引入此模块. 模块 app module:通用入口点脚本. ...
学习笔记TF067:TensorFlow Serving、Flod、计算加速，机器学习评测体系，公开数据集
TensorFlow Serving https://tensorflow.github.io/serving/ . 生产环境灵活.高性能机器学习模型服务系统.适合基于实际数据大规模运行,产生多个模型 ...
【转载】史上最全：TensorFlow 好玩的技术、应用和你不知道的黑科技
[导读]TensorFlow 在 2015 年年底一出现就受到了极大的关注,经过一年多的发展,已经成为了在机器学习.深度学习项目中最受欢迎的框架之一.自发布以来,TensorFlow 不断在完善并增加 ...
XLA
原 TensorFlow技术内幕(七):模型优化之XLA(上) 2018年06月13日 14:53:49 jony0917 阅读数 5513 版权声明:本文为博主原创文章,遵循CC 4.0 by- ...
端到端TVM编译器（下）
端到端TVM编译器(下) 4.3 Tensorization DL工作负载具有很高的运算强度,通常可以分解为张量运算符,如矩阵乘法或一维卷积.这些自然分解导致了最近的添加张量计算原语.这些新的原语带来 ...

随机推荐

POJ 3613 快速幂+Floyd变形（求限制k条路径的最短路）
题意: 给你一个无向图,然后给了一个起点s和终点e,然后问从s到e的最短路是多少,中途有一个限制,那就是必须走k条边,路径可以反复走. 思路: 感觉很赞的一个题目,据说证明是什 ...
Intel汇编语言程序设计学习-第五章过程-下
5.3.3 库测试程序测试程序#1:整数I/O 该测试程序把输出文本的颜色改为蓝底黄字,然后以十六进制数显示七个数组的内容,最后提示用户输入一个有符号整数,再分别以十进制.十六进制和二进制格式重复 ...
2.逆向分析Hello World!程序-上
先写一个HelloWorld程序(vs2015 / C++) 编译链接生成可执行文件XX.exe,然后用OD[OllyDbg]打开调试: 代码窗口:默认用于显示反汇编代码,还用于各种注释.标签,分析代 ...
Nacos 1.3.2 启动报错[db-load-error]load jdbc.properties error
原因: 1.3.2版本Nacos默认启动模式为集群,在startup.cmd文件中第27行可以看到. 解决办法: 一.选择以默认的集群方式启动,就需要配置集群所需环境: 1.创建持久化数据库,推荐使用 ...
【maven】maven创建项目问题
这个问题困扰了很多,几个月在做大数据课设的时候,本想创建maven项目,但是创建项目失败了.这次又碰到maven创建项目失败,终于解决了.下面按碰到问题的时间来描述,所以需要从头认真看前提须知 Ma ...
【opencv】Java实现opencv 调用本地摄像头，实现人脸识别、人形识别、人眼识别
本博客为老魏原创,如需转载请留言咨询. 效果预览:(没办法,为了效果只能上像了,丑别介意.哈哈..) 上代码: 1 package com.lw.test; 2 3 import java.awt.G ...
LeetCode 26. 删除有序数组中的重复项
双指针法分析: 设置两个指针:p1,p2,初始p1指向数组的第一个元素,p2指向第二个元素 1)如果p1的值 == p2的值,就让p2后移一位 2)如果p1的值 != p2的值,修改p1的下一个元素 ...
web&HTML
内容索引 1. web概念概述 2. HTML web概念概述 * JavaWeb: * 使用Java语言开发基于互联网的项目 * 软件架构: 1. C/S: Client/Server 客户端/服务 ...
关于文字内容过长，导致文本内容超出html 标签宽度的解决方法之自动换行
在标签的style 属性中设置 word-break style="word-break:break-all;" 这样就可以实现换行上截图没设置之前设置之后完美解决!!!!! ...
awk sed grep 常用命令
文本间隔在每一行后面增加一空行: sed G sed G v1 >v2 在每一行后面增加两行空行: sed 'G;G' 将第一个脚本所产生的所有空行删除(即删除所有偶数行): sed 'n;d ...