图卷积网络

图神经网络一开始是按照RNN的方式进行研究，用RNN的方式处理网络上的数据。在CNN流行之后，思考如何在图上进行卷积。即图卷积网络(GCN)。关于GCN有两个方向，一个是基于谱的方法，一个基于图的方法，类似于图像处理中的频域和空间域。本文主要讲频域上的处理，基于论文2016 - Semi-Supervised Classification with Graph Convolutional Networks - Kipf, Welling，以及一个知乎上的讲解：如何理解 Graph Convolutional Network（GCN）？

卷积操作在图像上很有用，可以提取图像的特征，但是在图上就有很多限制，原因在于图和图像的数据结构不一样，图像是一个Euclidean Structure，图像的数据是排列整齐的矩阵，但是图上的数据是Non Euclidean Structure，每一个节点的邻居的数量不是固定的，所以很难直接像图像卷积一样在图上做卷积。但是可以类似图像上的傅里叶变换以及卷积定理，将空间域的卷积转换为频域(图上叫做谱)的乘积。但是面临的的问题就是，图上的傅里叶变换是什么，从而需要了解图信号处理(graph signal processing)以及谱图理论(spectral graph theory)，这里需要一个核心的概念就是拉普拉斯矩阵L。

拉普拉斯矩阵

拉普拉斯矩阵有三种形式:

[L = D - A\ L = D^{-1/2}(D-A)D^{-1/2}\ L = D^{-1}(D-A) ]

其有很好的性质：

L是实对称矩阵，意味着L有n个线性无关的特征向量，可以进行特征分解，这些特征向量可以化成两两正交的特征向量，形成正交矩阵。
L是半正定矩阵，所以L的特征值一定非负。

对L进行特征分解得到:

[L = ULambda U^{-1} = ULambda U^{T}\ 其中, U = (u_1, u_2, ..., u_n), Lambda = diag([lambda_1, lambda_2, ..., lambda_n]) ]

设L的多个特征值

[0 = lambda_1 < lambda_2 leq ... leq lambda_n = lambda_{max} ]

L的特征值可以看作频率，其对应的特征向量可以看作该频率下网络上的图信号graph signal。网络的图信号意思是网络每一个节点上对应一个值，这些值合起来表示的一个向量就是graph signal。特征值越大（即频率越大）的特征值对应的特征向量（一个图信号）看起来就会更震荡，反之这个信号就会更平稳，如图（来自2013 - The emerging field of signal processing on graphs Extending high-dimensional data analysis to networks and other irregular domain）：

换一个方法，我们需要知道特征方程

[Lu=lambda u ]

特征值为0时，根据L的定义可以得出此时特征向量u为全1的向量，这样的向量自然如上图第一个图一样，非常平滑，变化的频率为0也理所应当。

由于U构成了n维空间的一个正交基，那么这个图上的任意一个信号f都可以根据U进行分解：

[f=hat{f}(lambda_1)u_1 + hat{f}(lambda_2)u_2 + ... + hat{f}(lambda_n)u_n\ hat{f} 为f的傅里叶变换。 ]

这样就形成了谱和空间域的对应，图信号的傅里叶变换为拉普拉斯矩阵特征值表示的频率上的向量

[fxrightarrow[]{F}hat{f} ]

那么图上的傅里叶变换应该怎么做。

图上的傅里叶变换

普通的傅里叶变换如下：

[F(w)=int f(t)e^{-iwt}dt\ e^{-iwt}是拉普拉斯算子的特征函数，满足特征方程。 ]

广义的特征方程为：

[AV = lambda V ]

[A 表示一种变换，包括算子，矩阵。\ V 表示特征向量，函数可以看作无穷维的向量（特征函数）\ lambda 表示特征值 ]

[e^{-iwt}满足\ Delta e^{-iwt} = frac{partial^2 e^{-iwt} }{partial t^2} = -w^2e^{-iwt}\ 所以e^{-iwt}是变换Delta 即拉普拉斯算子的特征函数。 ]

那么我们需要一个图上的拉普拉斯算子，然后求其特征函数，上面的拉普拉斯矩阵其实就是一个离散拉普拉斯算子，

拉普拉斯矩阵与拉普拉斯算子的关系 - 知乎 (zhihu.com)

拉普拉斯算子是一个二阶微分算子，在离散情况下有：

[一维情况下 Delta f = f(x+1) + f(x-1) - 2f(x)\ 二维网格情况下 Delta f = f(x+1, y) + f(x-1, y) + f(x, y+1) + f(x, y-1) - 4f(x, y) ]

可以看出都是周围点与中心点的梯度差的和，那类比到图上就是中心点与邻居节点的梯度差的和。而拉普拉斯矩阵可以做到这点

[(Lf)(i) = sum_{jin N_i}^{}W_{ij}[f(i) - f(j)] \ Proof: \ ecause Lf = (D-W)f = Df - Wf\ egin{aligned} herefore (Lf)(i) &= d(i)f(i) - sum_{jin N_i}^{}W_{ij}f(j) \ &= sum_{jin N_i}^{}W_{ij}f(i) - sum_{jin N_i}^{}W_{ij}f(j) \ &= sum_{jin N_i}^{}W_{ij}[f(i)-f(j)] end{aligned} ]

所以可以将拉普拉斯矩阵看作图上的拉普拉斯算子，

根据拉普拉斯矩阵的特征分解，给出特征方程：

[L = ULambda U^{-1} = ULambda U^{T}\ LU = ULambda = lambda U ]

所以U为特征向量，类比傅里叶变换里的积分操作（求和），傅里叶变换及其逆变换为：

[傅里叶变换hat{f} = U^Tf\ 傅里叶逆变换f = U hat{f} ]

卷积定理及图卷积网络

卷积定理：函数（向量）卷积的傅里叶变换是函数（向量）傅里叶变换的乘积。

那么在图上我们对一个信号f做卷积时，由于空间域的卷积不好做，我们可以利用卷积定理做谱（频域）上的乘积。

设空间域上的卷积核为h, 则由卷积定理

[(fstar h)_G = U((U^Th)igodot (U^Tf))\ 设空间域上的卷积核h在图上的傅里叶变换为hat{h}\ (fstar h)_G = Uhat{h}(U^Tf)\ hat{h}为diag(U^Th),主要为了简化公式，防止出现hadamard productigodot ]

第一代GCN

[y = sigma(Ug_{ heta}(Lambda)U^Tx)\ 其中g_{ heta}(Lambda)为待训练的参数，是一个对角矩阵, diag([ heta_1, heta_2, ..., heta_n])。 ]

论文 2013 - Spectral Networks and Locally Connected Networks on Graphs - Bruna et al.

第一代GCN基本上就是上面卷积定理的翻版，直接将卷积核的傅里叶变换作为训练参数。但是，这样缺点明显，每一次前向传播的计算量大，且参数数量为n个, 与网络规模有关。

第二代GCN

[设参数g_{ heta}(Lambda) = sum_{k=0}^{K-1} heta_k Lambda^k\ 则Ug_{ heta}(Lambda)U^T = sum_{k=0}^{K-1} heta_k L^k, 注意ULambda^kU^T = L^k \ 最后y = sigma(sum_{k=0}^{K-1} heta_k L^kx) ]

论文 2016 - Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering - Defferrard, Bresson, Vandergheynst

参数减少为k个，与网络规模无关，但是计算复杂度依然很大，因为要计算矩阵的幂。

第三代GCN

论文 2016 - Semi-Supervised Classification with Graph Convolutional Networks - Kipf, Welling

[g_{ heta}(Lambda) =sum_{k=0}^{K-1} heta_k T_k(widetilde{Lambda}), 其中widetilde{Lambda} = frac{2}{lambda_{max}}Lambda - I_N \ T_k(x)为切比雪夫多项式，是一个迭代构造的多项式\ T_0(x)=1, T_1(x)=x, T_k(x)=2xT_{k-1}(x)-T_{k-2}(x) \ 矩阵形式下T_0(widetilde{Lambda})=I, T_1(widetilde{Lambda})=widetilde{Lambda}, T_k(widetilde{Lambda})=2widetilde{Lambda}T_{k-1}(widetilde{Lambda})-T_{k-2}(widetilde{Lambda})\ 最后y = sigma(sum_{k=0}^{K-1} heta_k T_k(widetilde{L})x) ]

在这篇论文中，作者限制K=2（只有两项，原文中K=1是因为这里和原文公式中求和的上限不一样）。并近似最大特征值为2，通过重整化的技巧，简化了算法在编程时的困难，并适用于普遍的图信号，及一个节点的信号是一个向量，而不是一个值，这样就可以进行网络嵌入。

[Z = softmax(hat{A}ReLU(hat{A}XW^0)W^1)\ hat{A}=widetilde{D}^{-1/2}widetilde{A}widetilde{D}^{-1/2}\ widetilde{A} = A + I_N \ widetilde{D}_{ii} = sum_{j}widetilde{A}_{ij} ]

W是可训练的参数，可以通过W调节层与层之间节点向量维度的变化。