SlowFast Networks for Video Recognition

▌Kinetics 数据集的动作分类

对于视频动作分类，作者采用 Kinetics-400 数据集，其中包含约 240k 个训练视频数据和20k个验证数据，共涵盖400种动作类别。实验结果得到 Top1 和 Top5 的分类准确性，单条 Slow 网络与 SlowFast 网络的性能对比，以及 SlowFast 网络与 Kibetics-400 数据集上当前最佳模型之间的性能对比，详细结果如下图3，图4，图5所示。

图3 Kinetics-400 数据集动作分类结果，包括 top-1 和 top-5 分类准确度，以及计算复杂度 GFLOPs。

图4 Kinetics-400 数据集上 Slow-only 网络与 SlowFast 网络的性能对比；top-1 训练误差 (虚线表示) 和验证误差 (实线表示)。

图5 Kinetics-400 数据集上当前最佳模型与 SlowFast 网络的性能对比。

对于视频动作检测，作者采用 AVA 数据集，其中包含有 211k 个训练数据和 57k 个验证数据，共涵盖 60 种动作类别。实验结果得到 60 个类别的平均精度 mAP 值，SlowFast 网络与 AVA 数据集上当前最佳模型之间的性能对比，以及 AVA 数据集动作检测结果的可视化过程，详细结果如下图 6，图 7，图 8 所示。

图6 AVA 数据集上每个类别的 AP：Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中，黑色突出显示的是绝对增长最高的5个类别，而这里实例化的 SlowFast 网络并不是最佳的模型。

图7 AVA 数据集上最佳模型与 SlowFast 网络的性能对比。其中，++ 表示在测试过程引入了诸如水平翻转的图像增强操作。

图8 可视化 AVA 数据集的动作检测结果。其中真实的标签用红色表示，而 SlowFast 模型在验证集上的预测结果用绿色表示。