使用TensorRT集成推理inference
使用TensorRT集成推理inference
使用TensorRT集成进行推理测试。
使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。
- ResNet-50 Inference performance: Throughput vs Batch size
在每个GPU上使用不同的批处理大小(从1到32)运行带有预训练的ResNet50模型的吞吐量测试。
图1显示了吞吐量(帧/秒)的结果。
结果在gpu和潜伏期(在右纵轴上表示)上是一致的。
Figure 1. Resnet_50 Inference on each GPU. Server with 6 GPU’s
上面的曲线图显示,使用Batchsize为1-8的批处理可以达到7ms的延迟,并且从y轴来看,当Batchsize为4时,在7ms延迟窗口内我们可以得到670个帧/秒。
在运行测试时,我们发现默认情况下推理inference是在设备0上进行的,这意味着当前的TensorRT 推理引擎不能与GPU-GPU通信一起工作以最大限度地利用服务器中可用的GPU。如果目标是在多个GPU中运行同一个图形来提高吞吐量,Nvidia建议现在使用原生TensorFlow。
另一方面,TensorRT推理服务器(TRTIS)支持多个GPU,但不支持运行分布在多个GPU上的单个推理。TRTIS可以在多个GPU上运行多个模型(和/或同一模型的多个实例)以提高吞吐量。
2.All Models: Images/sec vs batch size vs Neural models
Figure 2. Throughput Inference Performance with Several Neural Models and Batch Sizes
使用不同的神经模型在不同的Batchsize中进行推理测试。
以Batchsize大小1、2、4、8、26和32显示运行推理inference的吞吐量和延迟。ResNet50以最低的延迟产生最高的吞吐量(图像/秒)。
Figure 3. Latency Inference Performance with Several Neural Models and Batch Sizes
3 All Models - R7425-T4-16GB versus Other servers and NVIDIA GPU
Figure 4. Throughput Inference Performance on R7425-T4-16GB Server versus Other Servers
Figure 5. Latency Inference performance on R7425-T4-16GB Server versus other servers
使用几种模型在服务器R740-P4和R7245-P4上进行了推理测试,并将它们的结果与R7425-T4-16GB的结果进行了比较。服务器R7425-T4-16GB的性能比ResNet50型号上的其它服务器快1.8倍,延迟只有一半。
使用TensorRT集成推理inference的更多相关文章
- 中继TensorRT集成
中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库.这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提 ...
- TensorRT 进行推理
- tensorRT 构建推理引擎
- 10分钟内基于gpu的目标检测
10分钟内基于gpu的目标检测 Object Detection on GPUs in 10 Minutes 目标检测仍然是自动驾驶和智能视频分析等应用的主要驱动力.目标检测应用程序需要使用大量数据集 ...
- Paddle Inference原生推理库
Paddle Inference原生推理库 深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...
- TensorRT加速 ——NVIDIA终端AI芯片加速用,可以直接利用caffe或TensorFlow生成的模型来predict(inference)
官网:https://developer.nvidia.com/tensorrt 作用:NVIDIA TensorRT™ is a high-performance deep learning inf ...
- TensorRT 介绍
引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应 ...
- TensorRT Analysis Report分析报告
TensorRT Analysis Report 一.介绍 TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟.高吞吐率的部署推理.TensorRT可 ...
- TensorRT简介-转载
前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有 图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...
随机推荐
- OAuth2(未完待续)
一.OAuth2是什么?OAuth2解决了什么问题 1.OAuth2是第三方授权协议,用于支撑认证和授权 2.OAuth2中的角色划分: 资源拥有者 客户端 资源服务器 授权服务器 二.OAuth2怎 ...
- 2sat建边总结
2sat的基础建边 AND = 1 : ~x -> x ,~y -> y (两个数必须全为1) AND = 0 : y -> ~x ,x -> ~y (两个数至少有一个为 ...
- 缓冲区溢出分析第04课:ShellCode的编写
前言 ShellCode究竟是什么呢,其实它就是一些编译好的机器码,将这些机器码作为数据输入,然后通过我们之前所讲的方式来执行ShellCode,这就是缓冲区溢出利用的基本原理.那么下面我们就来编写S ...
- Intel汇编语言程序设计学习-第五章 过程-下
5.3.3 库测试程序 测试程序#1:整数I/O 该测试程序把输出文本的颜色改为蓝底黄字,然后以十六进制数显示七个数组的内容,最后提示用户输入一个有符号整数,再分别以十进制.十六进制和二进制格式重复 ...
- <JVM下篇:性能监控与调优篇>03-JVM监控及诊断工具-GUI篇
笔记来源:尚硅谷JVM全套教程,百万播放,全网巅峰(宋红康详解java虚拟机) 同步更新:https://gitee.com/vectorx/NOTE_JVM https://codechina.cs ...
- SpringBoot简单尝试
一.spring boot核心 配置在类路径下autoconfigure下(多瞅瞅) @SpringBootApplication里的重要注解(@Configuration,@EnableAutoCo ...
- curl: (35) SSL connect error
curl: (35) SSL connect error weixin_34212762 2018-02-23 20:16:23 230 收藏 文章标签: 运维 版权 阿里云的机器,昨晚githu ...
- $(cd "$(dirname "$0")",pwd) 解析
xx.sh 文件内容如下: #!/bin/bash BIN_FOLDER=$(cd "$(dirname "$0")";pwd) echo $BIN_FOLDE ...
- debian用户手册-20200317
https://www.debian.org/doc/manuals/debian-reference/ 文档与使用手册在每一个操作系统中都是很重要的一部份,是描述程序操作和使用的技术手册.正由于说明 ...
- mysql基础之数据库备份和恢复实操
一.基于二进制文件的恢复*** 1.算好要恢复数据的时间段,重定向输入到bin.sql文件中 [root@ren7 mysql]# mysqlbinlog --start-datetime=" ...