ACTION-Net论文笔记

- 一、简介
  - 先介绍了Videos understanding的重要性
  - 接着提出Action recognizes是Videos understanding的关键，指出复杂动作识别不仅仅依赖于空间，而且依赖与时间。而且空间上。具有块空间上相似特征，可能在时间上特征完全相反。指出了传统的模型，只考虑到了空间上的依赖，但是没有考虑到时间依赖性。
  - Two stream 架构比起单纯的3D CNNs来说有更好的空间和时间特性，但是Two stream很昂贵贵，实际应用不太现实。3D CNNs也有过拟合和慢收敛的缺点。而且好多框架都继承了3D CNNs的这种缺点。2D CNNs框架中提到了:TSN(最初的2D CNNs,缺乏时间魔模型的能力，容易丢失关键动作)，TSM(缺乏针对明确动作的时间模型)
  - 本篇论文提供了一个即插即用、轻量级的和two stream结构很相似的结构，但是与two stream不同的是，不为了训练网络而产生另外的输入(不太懂，可能Two stream训练网络还要再产生一个输入的吧)
  - Action有三个组成成分:时空激励运算(STE)，信道激励运算(CE)，和行动激励运算(ME)
  - 第1部分末尾给出了本文Action net的几个研究方面
- 二、相关工作
  - 基于3D卷积网络框架
    - I3D(Inflated the Convnet)扩展了2D卷积核至3D卷积核，SlowFast可以分别识别视频中的快慢部分。3D卷积网络缺点是:容易过拟合、不容易收敛、计算比2D的要复杂的多。
  - 基于2D卷积的框架
    - TSN（Temporal Segment Networks）：引入了segment来处理视频
    - TSM（Temporal Shift Module）：在2D CNN中潜入了可以使部分channel转化的操作，但缺乏对动作的显著时间模型
  - 最近几项新的研究可以使得模型能够得到模型和时间信息，而且被证明在ResNet结构上比较高效
  - SENet 和 Beyond
    - SENet：SE(squeeze-and-excitation)嵌入到2D CNNS
    - ActionNet：由STE(Spatio-Temporal Excitation)、CE(Channel Excitation)、ME(Motion Excitation)构成（以平等的方式），这样视频中多种信息会被触发。
- 三、设置Action网络
  - 符号说明：
    - N: batch size;
    - T: number of segments
    - C: channels
    - H: height
    - W:width
    - r: channel reduce ratio
  - Acrion 模型种所有tensors 都是4维的（N×T,C,H,W）,首先将4Dtensors转变成5Dtensors（N,T,C,H,W）送到ACTION中，以便与对ACTION内部的特定tensors进行操作。之后再将5Dtensors 转变为4D放到2D卷积模块中
    - STE
      - M：spattio-temporal mask （N,T,1,H,W）
      - X: 输入向量（N,T,C,H,W）
    - ME
    - CE
    - ACTION-NET
- 四、实验
  - 数据集：
    - Something-Something V2
    - Jester
    - EgoGesture
  - 执行细节：
    - 训练过程
      - 对视频的处理和TSN一样
        
        将视频等长度分成T个片段；之后随机的在每个片段中选择一帧，从而获取到T帧的一个片段。
        
        （之后提到了shorter side、cropping、scale-jittering不太懂这些概念，可能意思是将其中一些不太规整帧的尺寸修剪为256像素）。每一帧最终像素被resize为224，用于训练模型。
      - input为：N×T×3×224×224；其中N:batch size、T:片段的数量。
      - 使用当N=64时、T=8，当N=48时，T=16
      - 网络权重默认使用ImageNet预处理的权重
      - 对于Something-Something V2数据集来说，学习率开始为0.01，之后再epoch为30、40、45的时候减少了10倍，最后在epoch为50的时候停止
      - 对于Jester数据集来说，学习率开始为0.01，之后再epoch为10、20、25的时候减少了10倍，最后在epoch为30的时候停止
      - 对于EgoGesture数据集来说，学习率开始为0.01，之后再epoch为5、410、15的时候减少了10倍，最后在epoch为25的时候停止
    - 推断：通过three-crop（三次裁剪）方法进行推断
      - 首先把每帧的短边裁剪为256像素，之后可以得到三个256×256的crops
      - 对整个视频随机采样十次
      - 最后预测的Softmax评分时所有片段的平均值
  - 改善2D CNNs的表现
    - ACTION-NET、TSN、TSM比较
      - 图中Top-1是指，在结果得到的概率中，概率最大的为正确答案则预测正确。Top-5是指，在所有的答案概率中，排名前五有正确答案则为预测正确
    - 与最先进的技术进行比较
      - ACTION-NET 与 TSN、TSM进行比较
        
        提出了一个效率系数：
      - ACTION Block 数量的影响
        
        数量越多，效果越好
    - 效率和灵活度的分析
      - 和TSM一样，是即插即用的，所以可以嵌入到2D卷积神经网络中
- 结论
  - 能使任何2D神经网络构建Action-Net
  - 从三个大数据集中证明了Action-Net的效率