在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据

如今，最流行的拍照设备智能手机可以捕获高达4K UHD的图像（3840×2160图像），原始数据超过25 MB。即使考虑到令人尴尬的低HD分辨率（1280×720），原始图像也需要超过2.5 MB的存储空间。存储少至100张UHD图像将需要近3 GB的可用空间。

显然，如果以这种方式存储数据，则会很快耗尽空间。这是图像压缩派上用场的地方。众所周知的JPEG格式可以将图像大小从30 MB缩小到3 MB。

对于深度学习的计算机视觉应用程序（其中有数百万个样本的训练数据集是通用的），压缩和有效存储图像数据比以往任何时候都更为重要。行业标准的数据集（例如ImageNet和COCO）使用JPEG格式存储数据。因此，ImageNet仅占用150 GB的空间，而不是惊人的32 TB的未压缩数据。

压缩效果很好-它可以节省大量磁盘空间。不幸的是，它突出了另一项挑战，在与计算机视觉相关的深度学习应用程序中尤为明显：图像解压缩是一项计算密集型任务。实际上，这是数据处理管道中最耗时的任务，直到JPEG解码在GPU上运行的训练变得空缺。

面对这一问题，开发了NVIDIA数据加载库（DALI）来加速图像解码，增强和管道预处理。它缓解了此CPU瓶颈。DALI通过利用nvJPEG（用于JPEG解码的CUDA库）来加速图像解码。不仅如此，还可以采用数据处理管道，从解码到扩充再到训练，再到更高的性能水平。

最近，推出了基于NVIDIA Ampere架构的A100 GPU。它添加了硬件JPEG解码器以进一步提高性能。它是负责解码JPEG图像的专用硬件模块。

先前的架构没有这种硬件单元，并且JPEG解码是使用CPU和GPU可编程SM单元的纯软件（CUDA）解决方案。利用专用的硬件单元，解码不再与CUDA核心竞争其它计算密集型任务，例如在神经网络训练期间进行正向和反向馈送。

它通过CUDA工具包的一部分nvJPEG库公开。有关更多信息，请参阅在NVIDIA A100 GPU上利用硬件JPEG解码器和NVIDIA nvJPEG库。作为DALI用户，随着DALI和NVJPEG集成的抽象化，将自动受益于硬件加速的解码，而无需更改任何代码。

通过将JPEG硬件解码器与DALI配合使用，可以轻松地为深度学习应用程序访问此JPEG硬件解码器功能。如果将DALI ImageDecoder与后端混合使用，则无需更改代码。获取CUDA 11的最新DALI版本，并享受NVIDIA Ampere架构支持的，硬件加速的JPEG解码。

以下代码示例显示了DALI管道，该管道可加载图像并使用GPU对其进行解码：

class SimplePipeline(Pipeline): def __init__(self, batch_size, num_threads, device_id): super().__init__(batch_size, num_threads, device_id, seed = 12) self.input = ops.FileReader(file_root = image_dir) self.decode = ops.ImageDecoder(device = 'mixed', output_type = types.RGB) def define_graph(self): jpegs, labels = self.input() images = self.decode(jpegs) return images, labels

混合GPU解码器

借助DALI，可以更进一步，并将基于硬件，软件和基于CUDA的方法结合起来进行JPEG解码，并行运行它们以获得更高的吞吐量。图1显示了这样一种管道如何工作。

图1：采用软件/ CUDA和硬件加速JPEG图像解码并行使用的DALI管线图。

可以通过调整hw_decoder_load参数来决定工作量，以决定将多少解码负载分配给硬件解码器，以及通过GPU加速的CUDA方法同时完成多少负载。

结果取决于现有的GPU工作负载（GPU必须完成的工作量），并且可以根据经验进行调整以最大程度地提高每种用例的吞吐量。

图2提供了比例为75:25的数字。但是，当GPU已被其它工作（例如正向传播和反向传播）占用时，可能会通过将较大一部分图像解码任务卸载到硬件解码器（例如80％甚至更多）来找到最佳位置。

以下代码示例显示了将75％的图像解码任务卸载到硬件解码器的管道：

class SimplePipeline(Pipeline): def __init__(self, batch_size, num_threads, device_id): super().__init__(batch_size, num_threads, device_id, seed = 12) self.input = ops.FileReader(file_root = image_dir) self.decode = ops.ImageDecoder(device = 'mixed', output_type = types.RGB, hw_decoder_load=0.75) def define_graph(self): jpegs, labels = self.input() images = self.decode(jpegs) return images, labels

图2显示了将DALI解码从CPU切换到各种基于GPU的方法时可以期望的性能提升。针对不同的批处理大小，CPU libjpeg-turbo解决方案，Volta CUDA解码，A100硬件JPEG解码器以及A100双硬件和CUDA解码器执行了测试。

图2：用于ImageNet训练数据集的CPU，CUDA，A100硬件以及双CUDA和硬件JPEG图像解码之间的解码速度比较。批次样品均分。

图2和4的测试配置：

NVIDIA V100 GPU: CPU – E5-2698 v4@2GHz 3.6GHz Turbo (Broadwell) HT On, GPU – Tesla V100-SXM2-16GB(GV100) 1*16160 MiB 1*80 SM, GPU Video Clock 1312, 4 threads used in DALI pipeline
NVIDIA A100 GPU: CPU – Platinum 8168@2GHz 3.7GHz Turbo (Skylake) HT On, GPU – A100-SXM4-40GB(GA100) 140557 MiB 1108 SM, GPU Video Clock 1095, 4 threads used in DALI pipeline
CPU: CPU – Platinum 8168@2GHz 3.7GHz Turbo (Skylake) HT On, Dataset – training set of ImageNet, 4 threads used in DALI pipeline

图3显示了典型的类似ResNet50的图像分类管道。

图3.类似ResNet50的图像分类管道。

图4显示了ResNet-50模型的端到端数据管道加速。总体管线加速看起来与前面图2中的解码加速相同。

图4：针对类似ResNet50的图像分类模型，CPU，CUDA，A100硬件加速以及双CUDA和硬件加速JPEG图像解码之间的端到端数据处理管道吞吐量比较。

以下是一些要点：

对于基于图像的工作负载，解码是数据预处理管道中计算最密集的方面。通过加快速度，整个管道都能看到好处。
端到端的训练吞吐量在很大程度上取决于可以为GPU提供数据的速度（管道的输出）。DALI专门用于确保GPU不断获得数据。有关如何确定的数据管道是否受CPU瓶颈以及DALI如何提供帮助的信息，请参阅案例研究：带有DALI的ResNet50。

在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据的更多相关文章

NVIDIA A100 GPUs上硬件JPEG解码器和NVIDIA nvJPEG库
NVIDIA A100 GPUs上硬件JPEG解码器和NVIDIA nvJPEG库 Leveraging the Hardware JPEG Decoder and NVIDIA nvJPEG Lib ...
在NVIDIA A100 GPU上利用硬件JPEG解码器和NVIDIA nvJPEG库
在NVIDIA A100 GPU上利用硬件JPEG解码器和NVIDIA nvJPEG库根据调查,普通人产生的1.2万亿张图像可以通过电话或数码相机捕获.这样的图像的存储,尤其是以高分辨率的原始格式, ...
echarts在.Net中使用实例(二) 使用ajax动态加载数据
通过上一篇文章可以知道和echarts参考手册可知,series字段就是用来存储我们显示的数据,所以我们只需要用ajax来获取series的值就可以. option 名称描述 {color}back ...
Flexigrid从对象中加载数据
(有问题,在找…………) Flexigrid是用来动态加载数据的一种比较好(老)的Jquery表插件,然后有些时候,我们需要其从本地或者jQuery对象中加载数据,比如有这么个需求,页面显示中有两个表 ...
smarty中增加类似foreach的功能自动加载数据方法
第一步:在Smarty_Compiler.class.php的_compile_tag函数中增加: 复制代码代码如下: //加载数据的开始标签case 'load': $this->_push ...
WinForm中异步加载数据并使用进度条
在WinForm程序中,有时会因为加载大量数据导致UI界面假死,这种情况对于用户来说是非常不友好的.因此,在加载大量数据的情况下,首先应该将数据加载放在另一线程中进行,这样保证了UI界面的响应:其次可 ...
ArcGIS Engine中加载数据
ArcGIS Engine中加载数据 http://blog.csdn.net/gisstar/article/details/4206822 分类: AE开发积累2009-05-21 16:49 ...
Android中GridView滚动到底部加载数据终极版
之前在项目中有一个需求是需要GridView控件,滚动到底部自动加载.但是呢GridView控件并不提供诸如ListView监听滚动到底部的onScrollListener方法,为了实现这样一个效果, ...
Android中ListView分页加载数据
public class MainActivity extends Activity { private ListView listView=null; //listview的数据填充器 privat ...

随机推荐

常用head标签
最小推荐 <meta charset="utf-8"> <meta http-equiv="x-ua-compatible" content= ...
Windows新建选项排序
运行输入:regedit 然后找到:HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\Discardable\P ...
Python中shodan模块的使用
关于shodan的安装和使用,传送门--> 渗透测试之Shodan的安装和使用常用 Shodan 库函数 shodan.Shodan(key) :初始化连接API Shodan.count(q ...
PHP Proxy 负载均衡技术
<?php $whitelistPatterns = array( ); $forceCORS = false; $anonymize = true; $startURL = "&qu ...
深入浅出带你玩转sqlilabs(一)
一.MySQL数据库结构分层 1.1库名,表名,列名,数据库用户等 Mysql数据库结构示例: 数据库A zblog = www.zblog.com 表名列名(字段) 数据数据库B dede = ...
pandas（10）：数据增删改
目录一.对索引进行操作 1 操作索引值df.rename() 二.指定数据替换.修改df.replace() 三.特殊值--缺失值处理四.新增行列 1 直接赋值添加新列 2 df.assign() ...
ThinkPHP5.1 输出到模板HTML格式被强行转成了字符
出现问题控制器传给视图一个input标签,在视图页面显示出来就是 <input type='text'></input>,显示出来的是一个文本,而不是一个可以输入的文本框解 ...
Pytest自动化测试-简易入门教程（01）
我们今天主讲的内容,就是测试框架Pytest,讲到这个测试框架对于没有做过Web自动化的伙伴来说,会觉得这个东西是陌生的,那么到底什么是框架呢?什么又是自动化呢?自动化为什么又要用框架呢? 难道我学自 ...
utf8改成utf8mb4实战教程
前言: 在 MySQL 中,系统支持诸多字符集,不同字符集之间也略有区别.目前最常用的字符集应该是 utf8 和 utf8mb4 了,相比于 utf8 ,utf8mb4 支持存储 emoji 表情,使 ...
详解Redis中两种持久化机制RDB和AOF
redis是一个内存数据库,数据保存在内存中,但是我们都知道内存的数据变化是很快的,也容易发生丢失.幸好Redis还为我们提供了持久化的机制,分别是RDB(Redis DataBase)和AOF(Ap ...

在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据

在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据的更多相关文章

随机推荐

热门专题