初见-TensorRT简介<转>

下面是TensorRT的介绍，也可以参考官方文档，更权威一些：https://developer.nvidia.com/tensorrt

关于TensorRT首先要清楚以下几点：

1. TensorRT是NVIDIA开发的深度学习推理工具，只支持推理，不支持训练；目前TensorRT3已经支持Caffe、Caffe2、TensorFlow、MxNet、Pytorch等主流深度学习库；

2. TensorRT底层针对NVIDIA显卡做了多方面的优化，不仅仅是量化，可以和 CUDA CODEC SDK 结合使用，也就是另一个开发包DeepStream；

3. TensorRT独立于深度学习框架，通过解析框架文件来实现，不需要额外安装DL库；

 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎，用于在生产环境中部署深度学习应用程序，应用有图像分类、分割和目标检测等，可提供最大的推理吞吐量和效率。TensorRT是第一款可编程推理加速器，能加速现有和未来的网络架构。

TensorRT需要CUDA的支持。TensorRT包含一个为优化生产环境中部署的深度学习模型而创建的库，可获取经过训练的神经网络(通常使用32位或16位数据)，并针对降低精度的INT8运算来优化这些网络。借助CUDA的可编程性，TensorRT将能够加速助推深度

神经网络日益多样化、复杂的增长趋势。通过TensorRT的大幅度加速，服务提供商能够以经济实惠的成本部署这些计算密集型人工智能工作负载。

    已有来自各行各业的公司开始采用NVIDIA推理平台，借助此从数据中获得全新洞察，并为企业和消费者部署智能服务。

    TensorRT由英伟达(NVIDIA)发布，目前包括TensorRT1、TensorRT 2、TensorRT 3，是深度学习软件包，支持FP16特性。TensorRT支持使用Caffe的模型。TensorRT相对简单易用，在深度学习算法推理阶段能将GPU的计算能力更大程度释放出来。

TensorRT在不断的改进过程中，在保证软件精度的同时，不断提高速度。TensorRT针对运行时性能自动优化训练过的神经网络。

    TensorRT是一个C++库。TensorRT只能用来做Inference(推理)，不能用来进行train。

    TensorRT基本处理过程：(1)、caffe model转化GIE的model，或者从磁盘或者网络加载GIE可用的model；(2)、运行GIE引擎(数据提前copy到GPU中)；(3)、提取结果。

    转化GIE model两种方式：(1)、caffeToGIEModel；(2)、参考sampleMNIST API自己构建GIE model.

    用深度神经网络解决监督机器学习问题包含两个步骤：第一步是使用GPU对海量标签数据进行深度神经网络训练，训练时需要迭代的通过网络进行前向传播和反向传播。最终会生成训练好的model文件。第二步是推理(Inference)即使用训练好的模型对新

数据做出预测，仅需通过网络进行前向传播。TensorRT是一款高性能的推理引擎，旨在为常见的深度学习应用如图像分类、分割、目标检测等提供最大的推理吞吐量和效率。针对运行时性能，TensorRT会优化已训练的神经网络。

    使用TensorRT包含两个阶段：构建(build)和部署(deployment)。在构建阶段，TensorRT对网络配置进行优化，并生成一个优化了的plan用于计算深度神经网络的前向传播。这个plan是一个优化了的目标代码，可以序列化存储在内存或磁盘上。

部署阶段通常采用长时间运行的服务或用户应用程序的形式，该服务或用户应用程序接受批量输入数据，通过对输入数据执行plan来执行推理，并返回批量输出数据。使用TensorRT，你无需在部署硬件上安装并运行深度学习框架。

    TensorRT构建阶段：TensorRT运行时需要三个文件来部署一个分类神经网络：一个网络体系结构文件(deploy.prototxt)，已训练的权值(net.caffemodel)和一个标签文件为每个输出类提供一个名称。另外，你必须定义batch size和输出层。

    TensorRT对神经网络图(neural network graph)进行了几个重要的转换和优化：消除未使用的输出的层以避免不必要的计算；在可能的情况下，convolution、bias和ReLU层被融合以形成单个层，包括垂直层融合和水平层融合。

在TensorRT解析器读入已训练的网络和配置文件后，TensorRT在构建阶段对API用户透明地执行其转换。

    在构建阶段，TensorRT优化网络，在部署阶段，TensorRT以最小化延迟和最大化吞吐量运行优化了的网络。

    TensorRT 2.1关键特性：(1)、支持自定义层；(2)、INT8支持以用于性能改进；(3)、提供递归神经网络(LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit))实现；(4)、”original” RNN层实现。

    2017年9月，NVIDIA发布了神经网络推理加速器TensorRT3，TensorRT 3是一款针对人工智能应用生产部署的高性能优化编译器和运行时引擎，用于在生产环境中部署深度学习程序。它能够快速优化、验证并部署经过训练的神经网络，

从而在超大型数据中心、嵌入式GPU或车用GPU平台上开展推理工作。它能够确保高度精确的INT8和FP16网络执行。

    TensorRT 3能支持Caffe2、Mxnet、Pytorch、TensorFlow等所有的深度学习框架，将TensorRT 3和NVIDIA的GPU结合起来，能在所有的框架中进行超快速和高效的推理传输，支持图像和语言识别、自然语言处理、可视化搜索和个性化推荐等AI服务。

借助该推理引擎可以大幅提升云端及包括机器人、无人驾驶汽车在内的终端设备的推理性能，并有效降低成本。

可从 https://developer.nvidia.com/nvidia-tensorrt-download 下载TensorRT 1.0和TensorRT2.1.

安装TensorRT 2.1要求：

(1)、操作系统仅支持Ubuntu14.04或Ubuntu 16.04，目前不支持Windows和Mac；

(2)、安装的CUDA要求是7.5或8.0;

(3)、有两种方法安装TensorRT2.1：通过deb包或者通过tar文件；

(4)、对于显卡为GTX 750和K1200的用户需要将CUDA升级到8.0。

TensorRT 2.1用户指南可以参考： http://docs.nvidia.com/deeplearning/sdk/tensorrt-user-guide/index.html

以上部分内容翻译于： https://devblogs.nvidia.com/parallelforall/deploying-deep-learning-nvidia-tensorrt/

GitHub： https://github.com/fengbingchun/CUDA_Test

TensorRT简介

初见-TensorRT简介<转>的更多相关文章

TensorRT简介-转载
前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...
TensorRT加速 ——NVIDIA终端AI芯片加速用，可以直接利用caffe或TensorFlow生成的模型来predict（inference）
官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...
NVIDIA TensorRT高性能深度学习推理
NVIDIA TensorRT高性能深度学习推理 NVIDIA TensorRT 是用于高性能深度学习推理的 SDK.此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和高 ...
【YOLOv5】手把手教你使用LabVIEW ONNX Runtime部署 TensorRT加速，实现YOLOv5实时物体识别（含源码）
前言上一篇博客给大家介绍了LabVIEW开放神经网络交互工具包[ONNX],今天我们就一起来看一下如何使用LabVIEW开放神经网络交互工具包实现TensorRT加速YOLOv5. 以下是YOLOv ...
2、前端--初见前后端交互、CSS简介、基本选择器、组合选择器、属性选择器、分组与嵌套、伪类选择器
今日内容概要初窥后端框架 css简介 css选择器今日内容详细初次体验前后端交互 # 代码无需掌握只看效果即可 """后端框架:可以简单的理解为别人写好的一个非常 ...
【Linux探索之旅】第一部分第五课：Unity桌面，人生若只如初见
内容简介 1.第一部分第五课:Unity桌面,人生若只如初见 2.第一部分第六课预告:Linux如何安装在虚拟机中 Unity桌面,人生若只如初见不容易啊,经过了前几课的学习,我们认识了Linux是 ...
Flume初见与实践
Photo by Janke Laskowski on Unsplash 参考书籍:<Flume构建高可用.可扩展的海量日志采集系统> --Hari Shreedharan 著以下简称& ...
TensorRT 介绍
引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应 ...
Python API vs C++ API of TensorRT
Python API vs C++ API of TensorRT 本质上,C++ API和Python API应该在支持您的需求方面接近相同.pythonapi的主要优点是数据预处理和后处理都很容易 ...

随机推荐

Codeforces Round #490 (Div. 3) F - Cards and Joy
F - Cards and Joy 思路:比较容易想到dp,直接dp感觉有点难,我们发现对于每一种数字要处理的情况都相同就是有 i 张牌要给 j 个人分, 那么我们定义dp[ i ][ j ]表示 ...
saltstack系统初始化（九）
一.系统初始化需要的配置当我们的服务器上架并安装好操作系统后,都会有一些基础的操作,所以生产环境中使用SaltStack,建议将所有服务器都会涉及的基础配置或者软件部署归类放在base环境下.此处, ...
eclipse maven 配置
http://www.cnblogs.com/little-YTMM/p/5970878.html
mysql 笔记（一）
mysql 笔记预留 mysql> use mysql; mysql> grant all privileges on *.* to root@'%' identified by &q ...
Qt中translate、tr关系与中文问题
原文请看:http://hi.baidu.com/dbzhang800/item/d850488767bdc3cdee083d43 题外话:何时使用 tr ? 在论坛中漂,经常遇到有人遇到tr相关的问 ...
湖南大学ACM程序设计新生杯大赛（同步赛）L - Liao Han
题目描述 Small koala special love LiaoHan (of course is very handsome boys), one day she saw N (N<1e1 ...
【HDU 6017】 Girls Love 233 （DP）
Girls Love 233 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)To ...
BZOJ1018 堵塞的交通(线段树)
题目很好明白,然后实现很神奇.首先如果考虑并查集的话,对于删边和加边操作我们无法同时进行.然后暴力分块的话,复杂度是O(n sqrt n) ,不是很优.于是看了题解,发现了线段树的神奇用途. 我们维护 ...
[BZOJ4651][NOI2016]网格(Tarjan)
下面直接给出结论,相关证明见官方题解. 1.若跳蚤数不超过1或仅有两只跳蚤且相邻,则答案为-1. 2.若跳蚤形成的连通块个数大于1,则答案为0. 3.若跳蚤之间建图存在割点,则答案为1. 4.否则为2 ...
Java高级架构师（一）第42节：应用上Nginx过后的体系结构
以后的架构思考方向: 体系结构的演变

初见-TensorRT简介<转>

TensorRT简介

初见-TensorRT简介<转>的更多相关文章

随机推荐

热门专题