NVIDIA TensorRT：可编程推理加速器

NVIDIA TensorRT：可编程推理加速器

一．概述

NVIDIA TensorRT™是一个用于高性能深度学习推理的SDK。它包括一个深度学习推理优化器和运行时间，为深度学习推理应用程序提供低延迟和高吞吐量。

在推理过程中，基于TensorRT的应用程序执行速度比仅限CPU的平台快40倍。使用TensorRT，可以优化在所有主要框架中训练的神经网络模型，以高精度校准较低精度，最后部署到高规模数据中心、嵌入式或汽车产品平台。

TensorRT建立在NVIDIA的并行编程模型CUDA的基础上，使能够利用CUDA-X中的库、开发工具和技术，为人工智能、自动化机器、高性能计算和图形优化所有深度学习框架的推理。 TensorRT为深度学习推理应用程序（如视频流、语音识别、推荐和自然语言处理）的生产部署提供INT8和FP16优化。减少的精确推理显著减少了应用程序延迟，这是许多实时服务、自动和嵌入式应用程序的要求。

可以将每个深度学习框架中经过训练的模型导入TensorRT。在应用优化后，TensorRT选择特定于平台的内核，以在数据中心的Tesla gpu、Jetson嵌入式平台和NVIDIA驱动自主驾驶平台上实现性能最大化。

使用TensorRT，开发人员可以专注于创建新的人工智能应用程序，而不是为推理部署进行性能调整。