在NVIDIA A100 GPU中使用DALI和新的硬件JPEG解码器快速加载数据

如今，最流行的拍照设备智能手机可以捕获高达4K UHD的图像（3840×2160图像），原始数据超过25 MB。即使考虑到令人尴尬的低HD分辨率（1280×720），原始图像也需要超过2.5 MB的存储空间。存储少至100张UHD图像将需要近3 GB的可用空间。

显然，如果以这种方式存储数据，则会很快耗尽空间。这是图像压缩派上用场的地方。众所周知的JPEG格式可以将图像大小从30 MB缩小到3 MB。

对于深度学习的计算机视觉应用程序（其中有数百万个样本的训练数据集是通用的），压缩和有效存储图像数据比以往任何时候都更为重要。行业标准的数据集（例如ImageNet和COCO）使用JPEG格式存储数据。因此，ImageNet仅占用150 GB的空间，而不是惊人的32 TB的未压缩数据。

压缩效果很好-它可以节省大量磁盘空间。不幸的是，它突出了另一项挑战，在与计算机视觉相关的深度学习应用程序中尤为明显：图像解压缩是一项计算密集型任务。实际上，这是数据处理管道中最耗时的任务，直到JPEG解码在GPU上运行的训练变得空缺。

面对这一问题，开发了NVIDIA数据加载库（DALI）来加速图像解码，增强和管道预处理。它缓解了此CPU瓶颈。DALI通过利用nvJPEG（用于JPEG解码的CUDA库）来加速图像解码。不仅如此，还可以采用数据处理管道，从解码到扩充再到训练，再到更高的性能水平。

最近，推出了基于NVIDIA Ampere架构的A100 GPU。它添加了硬件JPEG解码器以进一步提高性能。它是负责解码JPEG图像的专用硬件模块。

先前的架构没有这种硬件单元，并且JPEG解码是使用CPU和GPU可编程SM单元的纯软件（CUDA）解决方案。利用专用的硬件单元，解码不再与CUDA核心竞争其它计算密集型任务，例如在神经网络训练期间进行正向和反向馈送。

它通过CUDA工具包的一部分nvJPEG库公开。有关更多信息，请参阅在NVIDIA A100 GPU上利用硬件JPEG解码器和NVIDIA nvJPEG库。作为DALI用户，随着DALI和NVJPEG集成的抽象化，将自动受益于硬件加速的解码，而无需更改任何代码。

通过将JPEG硬件解码器与DALI配合使用，可以轻松地为深度学习应用程序访问此JPEG硬件解码器功能。如果将DALI ImageDecoder与后端混合使用，则无需更改代码。获取CUDA 11的最新DALI版本，并享受NVIDIA Ampere架构支持的，硬件加速的JPEG解码。

以下代码示例显示了DALI管道，该管道可加载图像并使用GPU对其进行解码：

class SimplePipeline(Pipeline): def __init__(self, batch_size, num_threads, device_id): super().__init__(batch_size, num_threads, device_id, seed = 12) self.input = ops.FileReader(file_root = image_dir) self.decode = ops.ImageDecoder(device = 'mixed', output_type = types.RGB) def define_graph(self): jpegs, labels = self.input() images = self.decode(jpegs) return images, labels

混合GPU解码器

借助DALI，可以更进一步，并将基于硬件，软件和基于CUDA的方法结合起来进行JPEG解码，并行运行它们以获得更高的吞吐量。图1显示了这样一种管道如何工作。

图1：采用软件/ CUDA和硬件加速JPEG图像解码并行使用的DALI管线图。

可以通过调整hw_decoder_load参数来决定工作量，以决定将多少解码负载分配给硬件解码器，以及通过GPU加速的CUDA方法同时完成多少负载。

结果取决于现有的GPU工作负载（GPU必须完成的工作量），并且可以根据经验进行调整以最大程度地提高每种用例的吞吐量。

图2提供了比例为75:25的数字。但是，当GPU已被其它工作（例如正向传播和反向传播）占用时，可能会通过将较大一部分图像解码任务卸载到硬件解码器（例如80％甚至更多）来找到最佳位置。

以下代码示例显示了将75％的图像解码任务卸载到硬件解码器的管道：

class SimplePipeline(Pipeline): def __init__(self, batch_size, num_threads, device_id): super().__init__(batch_size, num_threads, device_id, seed = 12) self.input = ops.FileReader(file_root = image_dir) self.decode = ops.ImageDecoder(device = 'mixed', output_type = types.RGB, hw_decoder_load=0.75) def define_graph(self): jpegs, labels = self.input() images = self.decode(jpegs) return images, labels

图2显示了将DALI解码从CPU切换到各种基于GPU的方法时可以期望的性能提升。针对不同的批处理大小，CPU libjpeg-turbo解决方案，Volta CUDA解码，A100硬件JPEG解码器以及A100双硬件和CUDA解码器执行了测试。

图2：用于ImageNet训练数据集的CPU，CUDA，A100硬件以及双CUDA和硬件JPEG图像解码之间的解码速度比较。批次样品均分。

图2和4的测试配置：

NVIDIA V100 GPU: CPU – E5-2698 v4@2GHz 3.6GHz Turbo (Broadwell) HT On, GPU – Tesla V100-SXM2-16GB(GV100) 1*16160 MiB 1*80 SM, GPU Video Clock 1312, 4 threads used in DALI pipeline
NVIDIA A100 GPU: CPU – Platinum 8168@2GHz 3.7GHz Turbo (Skylake) HT On, GPU – A100-SXM4-40GB(GA100) 140557 MiB 1108 SM, GPU Video Clock 1095, 4 threads used in DALI pipeline
CPU: CPU – Platinum 8168@2GHz 3.7GHz Turbo (Skylake) HT On, Dataset – training set of ImageNet, 4 threads used in DALI pipeline

图3显示了典型的类似ResNet50的图像分类管道。

图3.类似ResNet50的图像分类管道。

图4显示了ResNet-50模型的端到端数据管道加速。总体管线加速看起来与前面图2中的解码加速相同。

图4：针对类似ResNet50的图像分类模型，CPU，CUDA，A100硬件加速以及双CUDA和硬件加速JPEG图像解码之间的端到端数据处理管道吞吐量比较。

以下是一些要点：

对于基于图像的工作负载，解码是数据预处理管道中计算最密集的方面。通过加快速度，整个管道都能看到好处。
端到端的训练吞吐量在很大程度上取决于可以为GPU提供数据的速度（管道的输出）。DALI专门用于确保GPU不断获得数据。有关如何确定的数据管道是否受CPU瓶颈以及DALI如何提供帮助的信息，请参阅案例研究：带有DALI的ResNet50。