论文解读（GAT）《Graph Attention Networks》

　　论文标题：Graph Attention Networks
　　论文方向：图像领域
　　论文来源：ICLR 2018
　　论文链接：https://arxiv.org/abs/1710.10903
　　论文代码：https://github.com/PetarV-/GAT

1 介绍

　　针对图结构数据，本文提出了一种GAT（ Graph Attention Networks ）网络。该网络使用 masked self-attention层解决了之前基于图卷积的模型所存在的问题。在 GAT 中，图中的每个节点可以根据邻节点的特征，为其分配不同的权值。GAT的另一个优点在于，无需使用预先构建好的图。因此，GAT可以解决一些基于谱的图神经网络中所具有的问题。实验证明，GAT模型可以有效地适用于（基于图的）归纳学习问题与转导学习问题。

　　Attention architecture 有几个有趣的特性：

计算速度快，可以在不同的节点上进行并行计算；
可以通过指定邻居指定任意权值应用于具有不同程度的图节点；
该模型直接适用于归纳学习问题，包括模型必须推广到完全看不见的图的任务。

2 GAT 网络架构

　　通过堆叠单个的图注意力层（building block layer）来构建任意的图注意力网络。

2.1 Graph Attentional Layer

　　首先来介绍单个的 Graph attentional layer.

　　单个的 Graph attentional layer 的输入是一个节点特征向量集：

　　　　$mathbf{h}=left{vec{h}_{1}, vec{h}_{2}, ldots, vec{h}_{N} ight}, vec{h}_{i} in mathbb{R}^{F}$

　　其中， $N$ 表示节点集中节点的个数， $F$ 表示相应的特征向量维度。

　　每一层的输出是一个新的节点特征向量集：

　　　　$mathbf{h}^{prime}=left{vec{h}_{1}^{prime}, vec{h}_{2}^{prime}, ldots, vec{h}_{N}^{prime} ight}, vec{h}_{i}^{prime} in mathbb{R}^{F^{prime}}$

　　其中，$F^{prime}$ 表示新的节点特征向量维度 (可以不等于 $F$ )。

　　一个 Graph attentional layer 的结构如下图所示：

　　为了获得足够的表达能力将输入特征转换为更高层次的特征，Graph attentional layer 首先根据输入的节点特征向量集，进行 self-attention处理：

　　　　$e_{i j}=aleft(mathbf{W} vec{h}_{i}, mathbf{W} vec{h}_{j} ight)$

　　其中， $a$ 是一个 $mathbb{R}^{F^{prime}} imes mathbb{R}^{F^{prime}} ightarrow mathbb{R}$ 的映射，$W in mathbb{R}^{F^{prime} imes F}$ 是一个权重矩阵（被所有 $vec{h}_{i}$ 的共享）。$e_{ij}$ 表明节点 $j$ 的特征对节点 $i$ 的重要性。

　　一般来说，self-attention 会将注意力分配到图中所有的节点上，这种做法显然会丢失结构信息。为了解决这一问题，本文使用了一种 masked attention 的方式——仅将注意力分配到节点 $i$ 的邻节点集上，即 $j in mathcal{N}_{i}$，（在本文中，节点 $i$ 也是 $mathcal{N}_{i}$ 的一部分）：

　　为了使注意力权重在不同节点之间容易比较，我们使用 Softmax 函数对所有的选择进行标准化：

　　　　$alpha_{i j}=operatorname{softmax}_{j}left(e_{i j} ight)=frac{exp left(e_{i j} ight)}{sum limits _{k in mathcal{N}_{i}} exp left(e_{i k} ight)}$

　　其中，$overrightarrow{mathbf{a}} in mathbb{R}^{2 F^{prime}} $ 是单层前馈神经网络 $a$ 的一个权重向量参数。$a$ 使用 LeakyReLU 非线性激活函数（在负区间，斜率 $alpha=0.2$）。

　　注意力机制的完全形式为：

　　　　$alpha_{i j}=frac{exp left(operatorname{LeakyReLU}left(overrightarrow{mathbf{a}}^{T}left[mathbf{W} vec{h}_{i} | mathbf{W} vec{h}_{j} ight] ight) ight)}{sum limits _{k in mathcal{N}_{i}} exp left(operatorname{LeakyReLU}left(overrightarrow{mathbf{a}}^{T}left[mathbf{W} vec{h}_{i} | mathbf{W} vec{h}_{k} ight] ight) ight)}$

　　其中， $vec{a}^{T} in mathbb{R}^{2 F^{prime}}$ 为前馈神经网络 $a$ 的参数，${.}^{T} $ 代表着是转置操作，$||$ 是串联操作（ t.cat ）。这里最终 $alpha_{ij} epsilon {mathbb{R}}$ 。

　　此时就可以得到 $vec{h}_{i}^{prime}$ ：

　　　　$vec{h}_{i}^{prime}=sigmaleft(sum limits _{j in mathcal{N}_{mathbf{1}}} alpha_{i j} mathbf{W} vec{h}_{j} ight)$

　　为提高模型的拟合能力，本文引入了 multi-head attention ，即同时使用多个 $W^{k}$ 计算 self-attention，然后将各个 $W^{k}$ 计算得到的结果合并（连接或求和）：

　　　　$vec{h}_{i}^{prime}=|_{k=1}^{K} sigmaleft(sum limits _{j in mathcal{N}_{i}} alpha_{i j}^{k} mathbf{W}^{k} vec{h}_{j} ight)$

　　其中， $||$ 表示拼接，$a_{i j}^{k}$ 表示 $W^{k}$ 与第 $k$ 个抽头得到的计算结果。由于 $W^{k} in mathbb{R}^{F^{prime} imes F}$ , 因此这里的 $vec{h}_{i}^{prime} in mathbb{R}^{K F^{prime}}$ 。

　　如果我们对网络的最终（预测）层执行 multi-head attention ，那么连接就不再是明智的，可以采取求和的方式来得到 $vec{h}_{i}^{prime}$：

　　　　$vec{h}_{i}^{prime}=sigmaleft(frac{1}{K} sum limits _{k=1}^{K} sum limits_{j in mathcal{N}_{i}} alpha_{i j}^{k} mathbf{W}^{k} vec{h}_{j} ight)$

　　由于 $W^{k} in mathbb{R}^{F^{prime} imes F}$ ，因此这里的 $vec{h}_{i}^{prime} in mathbb{R}^{ F^{prime}}$ 。

2.2 与相关工作的比较

　　本文使用了很大的篇幅将GAT与其他的图模型进行了比较：

GAT是高效的。相比于其他图模型，GAT 无需使用特征值分解等复杂的矩阵运算。单层 GAT 的时间复杂度为 $Oleft(|V| F F^{prime}+|E| F^{prime} ight) $ (与 GCN 相同) 。其中，$ |V| $ 与 $|E|$ 分别表示图中节点的数量与边的数量。
相比于GCN，每个节点的重要性可以是不同的，因此，GAT具有更强的表示能力。
对于图中的所有边，attention 机制是共享的。因此GAT也是一种局部模型。也就是说，在使用GAT时，我们无需访问整个图，而只需要访问所关注节点的邻节点即可。这一特点的作用主要有：最新的归纳学习方法（GraphSAGE）通过从每个节点的邻居中抽取固定数量的节点，从而保证其计算的一致性。这意味着，在执行推断时，我们无法访问所有的邻居。然而，本文所提出的模型是建立在所有邻节点上的，而且无需假设任何节点顺序。
- 可以处理有向图（若 $jlongrightarrow i$ 不存在，仅需忽略 $alpha _{ij}$ 即可）；
- 可以被直接用于进行归纳学习——包括在训练过程中完全看不到的图上评估模型的任务。
GAT可以被看作是 MoNet 的一个特例。具体来说，可以通过将伪坐标函数（pseudo-coordinate function）设为 $u(x, y)=f(x) | f(y)$ 。其中，$f(x)$ 表示节点 $x$ 的特征，$||$ 表示连接符号；相应的权值函数则变成了 $w_{j}(u)=operatorname{softmax}(operatorname{MLP}(u))$ 。然而，需要注意的是，与之前考虑的 MoNet 实例相比，我们的模型使用节点特征进行相似性计算，而不是节点的结构属性(假设知道图的结构）。

3 实验

　　本文的实验建立在四个基于图的任务上，这些任务包括三个转导学习（transductive learning）任务以及一个归纳学习（inductive learning）任务。具体如下：

　　这两个模型都使用 Glorot 初始化进行初始化，并使用 AdamSGD 优化器进行训练，以减少训练节点上的交叉熵，Pubmed 的初始学习率为0.01，其他数据集的初始学习率为 0.005。在这两种情况下，我们都使用交叉熵损失的早期停止策略和验证节点的准确性（转导学习），使用$micro-F_{1} $f1（归纳学习）得分的停止策略，训练 100 个epoch。

3.1 转导学习（Transductive learning）

　　三个标准的引文网络基准数据集——Cora, Citeseer and Pubmed 。这三个数据库每个类20 个节点用于训练，然而，根据 transductive setup ，训练算法可以访问所有节点的特征向量（这就是转导学习的特点），使用500 个节点做验证，使用1000个节点做测试。

　　对于转导学习任务，我们应用了一个两层 GAT 模型。它的架构超参数已经在 Cora 数据集上进行了优化，然后被重新用于 Citeseer。第一层由 $K = 8$ 个 attention head 组成，每个 attention head 计算 $F^{prime} = 8$ 个特征（总共 64 个特征），然后使用指数线性单元（ELU）非线性。第二层用于分类：计算 $C$ 个特征的 single attention head（其中 $C$ 是类的数量），然后是 softmax 激活。为了应对较小的训练集大小，模型中大量应用了正则化。在训练期间，我们应用 $L_2$ 正则化，$lambda = 0.0005$。此外，$p = 0.6$ 的 dropout 应用于两个层的输入以及归一化的注意力系数。我们发现 Pubmed 的训练集大小（60 个示例）需要对 GAT 架构稍作更改：我们应用了 $K = 8$ 个输出注意力头（而不是一个），并将 $L_2$ 正则化增强为 $lambda = 0.001$。否则，该架构与用于 Cora 和 Citeseer 的架构相匹配。

　　转导学习的实验结果如下表所示，可以看到，GAT模型的效果要基本优于其他模型。

3.2 归纳学习（Inductive learning ）

　　使用 protein-protein interaction (PPI) dataset ，该数据集包含 20 张图用于训练，2 张图用于验证，2 张图用于测试。每个节点可能的标签数为121个，而且，每个节点可以同时拥有多个标签（在分类时使用sigmoid激活函数）。

　　对于归纳学习任务，我们应用了一个三层的 GAT 模型。前两层都由 $K=4$ 注意头计算 $F^{prime}=256$ 特征（总共 1024 个特征），然后是 ELU 非线性。最后一层用于（多标签）分类：$K=6$ 个 attention head 计算每个 121 个特征，平均，然后是一个 logistic sigmoid activation 。这个任务的训练集足够大，我们发现不需要应用 $L_2$ 正则化或 dropout ——然而，我们已经成功地在中间注意层使用了 skip connections 。我们在训练过程中使用了 2 个图的批处理大小。为了严格评估在此设置中应用注意机制的好处(即与接近GCN等效的模型相比)，我们还提供了当使用恒定注意机制 $a(x，y)=1$ 时的结果，具有相同的架构——这将为每个邻居分配相同的权重。

　　归纳学习的实验结果如下表所示，可以看到，GAT模型的效果要远远优于其他模型。

4 结论

本文提出了一种基于 self-attention 的图模型。总的来说，GAT的特点主要有以下两点：

与GCN类似，GAT同样是一种局部网络。因此，（相比于GNN或GGNN等网络）训练GAT模型无需了解整个图结构，只需知道每个节点的邻节点即可。

　　　　$A=left[egin{array}{lll} 1 & 1 & 0 \ 0 & 1 & 1 \ 0 & 0 & 1 end{array} ight] quad X=left[egin{array}{ll}x_{11} & x_{12} \x_{21} & x_{22} \ x_{31} & x_{32} end{array} ight] quad W=left[egin{array}{ll} w_{11} & w_{12} \ w_{21} & w_{22} end{array} ight]$

　　单层GCN（忽略激活函数）

　　　　$mathrm{XW}=left[egin{array}{l} oldsymbol{y}_{1} \ oldsymbol{y}_{2} \ oldsymbol{y}_{3} end{array} ight]=left[egin{array}{ll} w_{11} x_{11}+w_{21} x_{12} & w_{12} x_{11}+w_{22} x_{21} \ w_{11} x_{21}+w_{21} x_{22} & w_{12} x_{21}+w_{22} x_{22} \ w_{11} x_{31}+w_{21} x_{32} & w_{12} x_{31}+w_{22} x_{32} end{array} ight]$

　　　　$X^{n o w}=mathrm{AWX}=left[egin{array}{cc} w_{11} x_{11}+w_{21} x_{12}+w_{11} x_{21}+w_{21} x_{22} & w_{12} x_{11}+w_{22} x_{21}+w_{12} x_{21}+w_{22} x_{22} \w_{11} x_{21}+w_{21} x_{22}+w_{11} x_{31}+w_{21} x_{32} & w_{12} x_{21}+w_{22} x_{22}+w_{12} x_{31}+w_{22} x_{32} \ w_{11} x_{31}+w_{21} x_{32} & w_{12} x_{31}+w_{22} x_{32} end{array} ight]$

　　　　$X^{n e w}=A^{n e w} X W=left[egin{array}{cc}a_{11}left(w_{11} x_{11}+w_{12} x_{12} ight)+a_{12}left(w_{11} x_{21}+w_{21} x_{22} ight) & ldots \ldots & ldots \ldots & w_{12} x_{31}+w_{22} x_{32}end{array} ight]$

GAT与GCN有着不同的节点更新方式。GCN使用的是GAT使用 self-attention为每个邻节点分配权重，也就是说，GAT的节点更新方式与以下是一个具体的示例。假设有三个节点，每个节点使用二维向量进行表示，则两种网络对应于以上运算。通过对比可以发现，GAT在计算新的节点表示时，相比于GCN，多引入了一个权值矩阵（可以看成将原先的 $A$ 修改成了 $A^{new}$。

因上求缘，果上努力~~~~ 作者：每天卷学习，转载请注明原文链接：https://www.cnblogs.com/BlairGrowing/p/15339757.html