bert 推理加速 使用tensorRt

之前对bert轻量化,显存占用减少一半。但是推理速度仍然没多大变化。因此 计划通过tensorRT完成模型的推理加速。

轻量化之前链接: https://www.cnblogs.com/dhName/p/12628828.html

脑残级教程:

1.  官网  https://developer.nvidia.com/nvidia-tensorrt-5x-download

   找到对应的unbuntu版本和cuda版本

  unbuntu 版本查看 : cat /etc/lsb-release

  

       cuda版本: nvidia-smi

  

       那么我只需要下载

  

原文地址:https://www.cnblogs.com/dhName/p/13538121.html