视频学习——《Expectation-Maximization Attention Networks for Semantic Segmentation》（《语义分割中的自注意力机制和低秩重建》）

原文详细讲解，见《[ICCV 2019 Oral] 期望最大化注意力网络 EMANet 详解》

一、基础概念扫盲

语义分割：计算机视觉中的基础任务，在语义分割中我们需要将视觉输入分为不同的语义可解释类别。
语义的可解释性：分类类别在真实世界中是有意义的。
语义分割的目的：为每个像素预测类别标签。
Nonlocal神经网络：非局部操作。使得每个像素可以充分捕获全局信息。
注意力机制：模仿生物观察行为的内部过程，将内部经验和外部感觉对齐从而增加部分区域的观察精细度的极值。
自注意力机制：注意力机制的改进，减少对外部信息的依赖，擅长捕捉数据或特征的内部相关性。
最大化注意力机制（EMA）：
期望最大化算法（EM）：目的在于找出潜在变量模型的最大似然解。

二、详细介绍

期望最大化算法（EM算法）

第一步：计算期望（E），利用对隐藏变量的现有估计值，计算最大似然估计值。

第二步：最大化（M），在（E）步上求得的最大似然值来计算参数的值。（M）步上找到的参数估计值被用于下一个（E）步计算中，整个过程不断交替进行，直到满足了拟合条件。
高斯混合模型

高斯混合模型使用高斯分布作为参数模型，并使用期望最大算法进行训练。详细介绍见《一文详解高斯混合模型原理》
非局部网络（Nonlocal）

将自注意力机制使用在计算机视觉中，核心算子是：

其中 $f \left(\cdot, \cdot\right)$ 表示广义的核函数， $\mathcal{C} \left( \mathbf{x} \right)$ 是归一化系数。它将第 $i$ 个像素的特征 $\mathbf{x}_i$ 更新为其他所有像素特征经过 $g$ 变换之后的加权平均 $\mathbf{y}_i$ ，权重通过归一化后的核函数计算，表征两个像素之间的相关度。这里 $1 < j < N$ ，所以视为像素特征被一组过完备的基进行了重构。这组基数目巨大，且存在大量信息冗余。

期望最大化注意力

原理：摒弃了在全图上计算注意力图的流程，通过期望最大化算法（EM算法）迭代出一组紧凑的基，在这组基上运行注意力机制，从而大大降低了复杂度。

下图为期望最大化注意力模块（EMAU）的结构

流程：

输入图片经过CNN网络，得到特征图X，经过1×1卷积降维
其中H和W是特征图X的分辨率尺寸
初始化一个作为基，K为基的数量
E步（下面的分支）：得到Attention maps Z。有K个Attention maps，每个map的尺寸是H×W
M步（上面的分支）：更新基Bases μ，得到的Attention maps Z
在每次M步之后，为了保证μ的学习是稳定的，选择L2Norm对μ做归一化处理
E步和M步重复执行。
用得到的Attention maps Z和基μ重构X，得到
经过一个1×1卷积（+BN）reshape到C×H×W。

三、总结

个人认为，整个过程类似于CNN+RNN的一个组合。输入的图片先通过CNN生成特征图，再经过EMA结构进行语义分割。其中，EMA的迭代过程相当于是一个RNN。从作者的讲解中得知，RNN中采取LayerNorm（LN）来进行归一化，但是EMA中采用L2Norm来对基进行归一化，目的是避免LN改变基的方向，进而影响其语义。

视频学习——《Expectation-Maximization Attention Networks for Semantic Segmentation》（《语义分割中的自注意力机制和低秩重建》）

视频学习——《Expectation-Maximization Attention Networks for Semantic Segmentation》（《语义分割中的自注意力机制和低秩重建》）

一、基础概念扫盲

二、详细介绍

期望最大化算法（EM算法）

高斯混合模型

非局部网络（Nonlocal）

期望最大化注意力

三、总结