机器学习中的矩阵向量求导(五) 矩阵对矩阵的求导

　　　　在矩阵向量求导前4篇文章中，我们主要讨论了标量对向量矩阵的求导，以及向量对向量的求导。本文我们就讨论下之前没有涉及到的矩阵对矩阵的求导，还有矩阵对向量，向量对矩阵求导这几种形式的求导方法。

　　　　本文所有求导布局以分母布局为准，为了适配矩阵对矩阵的求导，本文向量对向量的求导也以分母布局为准，这和前面的文章不同，需要注意。

　　　　本篇主要参考了张贤达的《矩阵分析与应用》和长躯鬼侠的矩阵求导术

1. 矩阵对矩阵求导的定义

　　　　假设我们有一个$p imes q$的矩阵$F$要对$m imes n$的矩阵$X$求导，那么根据我们第一篇求导的定义，矩阵$F$中的$pq$个值要对矩阵$X$中的$mn$个值分别求导，那么求导的结果一共会有$mnpq$个。那么求导的结果如何排列呢？方法有很多种。

　　　　最直观可以想到的求导定义有2种：

　　　　第一种是矩阵$F$对矩阵$X$中的每个值$X_{ij}$求导，这样对于矩阵$X$每一个位置(i,j)求导得到的结果是一个矩阵$frac{partial F}{partial X_{ij}}$,可以理解为矩阵$X$的每个位置都被替换成一个$p imes q$的矩阵，最后我们得到了一个$mp imes nq$的矩阵。

　　　　第二种和第一种类似，可以看做矩阵$F$中的每个值$F_{kl}$分别对矩阵$X$求导，这样矩阵$F$每一个位置(k,l)对矩阵$X$求导得到的结果是一个矩阵$frac{partial F_{kl}}{partial X}$, 可以理解为矩阵$F$的每个位置都被替换成一个$m imes n$的矩阵，最后我们得到了一个$mp imes nq$的矩阵。

　　　　这两种定义虽然没有什么问题，但是很难用于实际的求导，比如类似我们在机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法中很方便使用的微分法求导。

　　　　目前主流的矩阵对矩阵求导定义是对矩阵先做向量化，然后再使用向量对向量的求导。而这里的向量化一般是使用列向量化。也就是说，现在我们的矩阵对矩阵求导可以表示为：$$frac{partial F}{partial X} = frac{partial vec(F)}{partial vec(X)}$$

　　　　对于矩阵$F$，列向量化后，$vec(F)$的维度是$pq imes 1$的向量，同样的，$vec(X)$的维度是$mn imes 1$的向量。最终求导的结果，这里我们使用分母布局，得到的是一个$mn imes pq$的矩阵。

2. 矩阵对矩阵求导的微分法

　　　　按第一节的向量化的矩阵对矩阵求导有什么好处呢？主要是为了使用类似于前面讲过的微分法求导。回忆之前标量对向量矩阵求导的微分法里，我们有：$$df= tr((frac{partial f}{partial mathbf{X}})^Tdmathbf{X})$$

　　　　这里矩阵对矩阵求导我们有：$$vec(dF) =frac{partial vec(F)^T}{partial vec(X)} vec(dX) = frac{partial F^T}{partial X} vec(dX)$$

　　　　和之前标量对矩阵的微分法相比，这里的迹函数被矩阵向量化代替了。

　　　　矩阵对矩阵求导的微分法，也有一些法则可以直接使用。主要集中在矩阵向量化后的运算法则，以及向量化和克罗内克积之间的关系。关于矩阵向量化和克罗内克积，具体可以参考张贤达的《矩阵分析与应用》，这里只给出微分法会用到的常见转化性质, 相关证明可以参考张的书。

　　　　矩阵向量化的主要运算法则有：

　　　　1) 线性性质：$vec(A+B) =vec(A) +vec(B)$

　　　　2) 矩阵乘法：$vec(AXB)= (B^T igotimes A)vec(X)$,其中$igotimes$是克罗内克积。

　　　　3) 矩阵转置：$vec(A^T) =K_{mn}vec(A)$,其中$A$是$m imes n$的矩阵，$K_{mn}$是$mn imes mn$的交换矩阵，用于矩阵列向量化和行向量化之间的转换。

　　　　4) 逐元素乘法：$vec(A odot X) = diag(A)vec(X)$, 其中$diag(A)$是$mn imes mn$的对角矩阵，对角线上的元素是矩阵$A$按列向量化后排列出来的。

　　　　克罗内克积的主要运算法则有：

　　　　1) $(A igotimes B)^T = A^T igotimes B^T$

　　　　2) $vec(ab^T) = b igotimes a$

　　　　3) $(A igotimes B)(C igotimes D )=AC igotimes BD$

　　　　4) $K_{mn} = K_{nm}^T, K_{mn}K_{nm}=I$

　　　　使用上面的性质，求出$vec(dF)$关于$ vec(dX)$的表达式，则表达式左边的转置即为我们要求的$frac{partial vec(F)}{partial vec(X)} $,或者说$frac{partial F}{partial X} $

3. 矩阵对矩阵求导实例

　　　　下面我们给出一个使用微分法求解矩阵对矩阵求导的实例。

　　　　首先我们来看看：$frac{partial AXB}{partial X}$, 假设A,X,B都是矩阵，X是$m imes n$的矩阵。

　　　　首先求$dF$, 和之前第三篇的微分法类似，我们有: $$dF =AdXB$$

　　　　然后我们两边列向量化(之前的微分法是套上迹函数), 得到：$$vec(dF) = vec(AdXB) = (B^T igotimes A)vec(dX)$$

　　　　其中，第二个式子使用了上面矩阵向量化的性质2。

　　　　这样，我们就得到了求导结果为：$$frac{partial AXB}{partial X} = (B^T igotimes A)^T = B igotimes A^T$$

　　　　利用上面的结果我们也可以得到：$$frac{partial AX}{partial X} = I_n igotimes A^T$$$$frac{partial XB}{partial X} = B igotimes I_m$$

　　　　来个复杂一些的：$frac{partial Aexp(BXC)D}{partial X}$

　　　　首先求微分得到：$$dF =A [dexp(BXC)]D = A[exp(BXC) odot (BdXC)]D $$

　　　　两边矩阵向量化，我们有：$$vec(dF) = (D^T igotimes A) vec[exp(BXC) odot (BdXC)] = (D^T igotimes A) diag(exp(BXC))vec(BdXC) = (D^T igotimes A) diag(exp(BXC))(C^Tigotimes B)vec(dX) $$

　　　　其中第一个等式使用了矩阵向量化性质2，第二个等式使用了矩阵向量化性质4，第三个等式使用了矩阵向量化性质2。

　　　　这样我们最终得到：$$frac{partial Aexp(BXC)D}{partial X} = [(D^T igotimes A) diag(exp(BXC))(C^Tigotimes B)]^T = (C igotimes B^T) diag(exp(BXC)) (Digotimes A^T )$$

4. 矩阵对矩阵求导小结

　　　　由于矩阵对矩阵求导的结果包含克罗内克积，因此和之前我们讲到的其他类型的矩阵求导很不同，在机器学习算法优化中中，我们一般不在推导的时候使用矩阵对矩阵的求导，除非只是做定性的分析。如果遇到矩阵对矩阵的求导不好绕过，一般可以使用机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则中第三节最后的几个链式法则公式来避免。

　　　　到此机器学习中的矩阵向量求导系列就写完了，希望可以帮到对矩阵求导的推导过程感到迷茫的同学们。