Introduction:A Non-Rigorous Review of Deep Learning

原文地址
本篇文章为 MIT 课程 Mathematical Aspects of Deep Learning 的lecture 1 的学习笔记，没有进行完整的翻译，仅供参考

2.卷积网络(Convolution Network)

卷积网络是有线性算子的网络，有使用“底层网格几何”（underlying grid geometry）的局部卷积算子。

举例来说，用 m×m 的网格结构来表示网络的第 k 层的话，如下图所示
k-th grid

我们定义第 k+1 层的函数 h(k+1)i,j 是由其下面一层的 2×2 方阵卷积运算，再带入非线性函数 g 求得的：

h (k + 1) i, j = g (a (k) h (k) i, j + b (k) h (k) i + 1, j + c (k) h (k) i, j + 1 + d (k) h (k) i + 1, j + 1)

参数 a(k),b(k),c(k),d(k) 只取决于其所在的层，与具体的方阵坐标 i,j 无关（在视觉领域应用中的必要限制，基本定义并无这一限制）

优点：
- 参数共享
- 函数 h 定义的局部性使网络获得了“稀疏性”（sparsity）

经过卷积操作和 g 函数运算后，得到 grid-indexed 函数 h(k+1)i,j ,我们用其邻近范围内的所有函数的均值或最大值来替代这个函数。

h ¯ (k + 1) i, j = 1 4 (h (k + 1) i, j + h (k + 1) i + 1, j + h (k + 1) i, j + 1 + h (k + 1) i + 1, j + 1)

这个技巧也可以用来减少维度