使用TensorRT集成推理inference

使用TensorRT集成进行推理测试。

使用ResNet50模型对每个GPU进行推理，并对其它模型进行性能比较，最后与其它服务器进行比较测试。

ResNet-50 Inference performance: Throughput vs Batch size

在每个GPU上使用不同的批处理大小（从1到32）运行带有预训练的ResNet50模型的吞吐量测试。

图1显示了吞吐量（帧/秒）的结果。

结果在gpu和潜伏期（在右纵轴上表示）上是一致的。

Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s

上面的曲线图显示，使用Batchsize为1-8的批处理可以达到7ms的延迟，并且从y轴来看，当Batchsize为4时，在7ms延迟窗口内我们可以得到670个帧/秒。

在运行测试时，我们发现默认情况下推理inference是在设备0上进行的，这意味着当前的TensorRT 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量，Nvidia建议现在使用原生TensorFlow。

另一方面，TensorRT推理服务器（TRTIS）支持多个GPU，但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型（和/或同一模型的多个实例）以提高吞吐量。

2．All Models: Images/sec vs batch size vs Neural models

Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes

使用不同的神经模型在不同的Batchsize中进行推理测试。

以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量（图像/秒）。

Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes

3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU

Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers

Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers

使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试，并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍，延迟只有一半。

使用TensorRT集成推理inference的更多相关文章

中继TensorRT集成
中继TensorRT集成介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...
TensorRT 进行推理
tensorRT 构建推理引擎
10分钟内基于gpu的目标检测
10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...
Paddle Inference原生推理库
Paddle Inference原生推理库深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...
TensorRT加速 ——NVIDIA终端AI芯片加速用，可以直接利用caffe或TensorFlow生成的模型来predict（inference）
官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...
TensorRT 介绍
引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应 ...
TensorRT Analysis Report分析报告
TensorRT Analysis Report 一．介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟.高吞吐率的部署推理.TensorRT可 ...
TensorRT简介-转载
前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...

随机推荐

OAuth2（未完待续）
一.OAuth2是什么?OAuth2解决了什么问题 1.OAuth2是第三方授权协议,用于支撑认证和授权 2.OAuth2中的角色划分: 资源拥有者客户端资源服务器授权服务器二.OAuth2怎 ...
2sat建边总结
2sat的基础建边 AND = 1 : ~x -> x ,~y -> y (两个数必须全为1) AND = 0 : y -> ~x ,x -> ~y (两个数至少有一个为 ...
缓冲区溢出分析第04课：ShellCode的编写
前言 ShellCode究竟是什么呢,其实它就是一些编译好的机器码,将这些机器码作为数据输入,然后通过我们之前所讲的方式来执行ShellCode,这就是缓冲区溢出利用的基本原理.那么下面我们就来编写S ...
Intel汇编语言程序设计学习-第五章过程-下
5.3.3 库测试程序测试程序#1:整数I/O 该测试程序把输出文本的颜色改为蓝底黄字,然后以十六进制数显示七个数组的内容,最后提示用户输入一个有符号整数,再分别以十进制.十六进制和二进制格式重复 ...
<JVM下篇：性能监控与调优篇>03-JVM监控及诊断工具-GUI篇
笔记来源:尚硅谷JVM全套教程,百万播放,全网巅峰(宋红康详解java虚拟机) 同步更新:https://gitee.com/vectorx/NOTE_JVM https://codechina.cs ...
SpringBoot简单尝试
一.spring boot核心配置在类路径下autoconfigure下(多瞅瞅) @SpringBootApplication里的重要注解(@Configuration,@EnableAutoCo ...
curl: (35) SSL connect error
curl: (35) SSL connect error weixin_34212762 2018-02-23 20:16:23 230 收藏文章标签: 运维版权阿里云的机器,昨晚githu ...
$(cd "$(dirname "$0")",pwd) 解析
xx.sh 文件内容如下: #!/bin/bash BIN_FOLDER=$(cd "$(dirname "$0")";pwd) echo $BIN_FOLDE ...
debian用户手册-20200317
https://www.debian.org/doc/manuals/debian-reference/ 文档与使用手册在每一个操作系统中都是很重要的一部份,是描述程序操作和使用的技术手册.正由于说明 ...
mysql基础之数据库备份和恢复实操
一.基于二进制文件的恢复*** 1.算好要恢复数据的时间段,重定向输入到bin.sql文件中 [root@ren7 mysql]# mysqlbinlog --start-datetime=" ...

使用TensorRT集成推理inference

使用TensorRT集成推理inference的更多相关文章

随机推荐

热门专题