[深度学习]模型部署之优化

当前原始bert模型的推理时间是100ms左右，缩短推理时间的方法有3种：

1、模型蒸馏
2、onnxruntime推理加速
3、查看系统的使用情况，CPU及内存是否全都用上，如果没有使用全部，可以指定部分数据或者模型使用指定的CPU来运行，达到多线程、分布式运行程序。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/mj-selina/p/15010064.html