视频分割

主要的视频分割算法分为两类：

OSVOS（one shot video object segmentation）每一帧单独处理
MaskTrack考虑时序信息

在MaskTrack中，首先使用图像语义分割网络（deeplabv2）得到instance segmentation。但问题是：怎么让网络知道哪一个instance需要分割？MaskTrack 中提出引导式实体分割的思路，将前一帧的预测结果作为掩膜额外输入给网络。输入包含四个通道RGB+Mask。Mask 是提供可能的预测目标，包含大概的位置和形状信息。在此基础上训练pixel labeling convnet，可以看做一个Mask Refinement。

论文的可行性：

粗糙的Mask就ok
不需要将视频数据怎么训练数据，因为输入只需要多一个通道的Mask。作者通过对标注进行变换（deforming、coarsening）模拟前一帧Mask。其中affine transformations 和non-rigid deformations 模拟相邻帧的运动变换，coarsening 用来模拟测试时前一帧的预测结果。

本篇论文的另一个亮点是： on-line training的设计

在测试时，使用online training的技巧（在最优的tracking方法中使用）。将第一帧的标注信息作为额外的信息。在每个特定的instance下重新finetuning网络。

网络的变形：

可以使用不同的标注数据（box annotation）
使用optical flow 作为guidance（epicflow with flow fields matches and convolutional boundaries）

Lucid Data Dreaming数据扩充