万能近似定理

universal approximation theorem

万能近似定理(universal approximation theorem)，是深度学习最根本的理论依据。它声明了在给定网络具有足够多的隐藏单元的条件下，配备一个线性输出层和一个带有任何“挤压”性质的激活函数(如logistic sigmoid激活函数)的隐藏层的前馈神经网络，能够以任何想要的误差量近似任何从一个有限维度的空间映射到到另一个有限维度空间的Borel可测的函数。

前馈网络的导数也可以以任意好地程度近似函数的导数。

任意定义在 $mathbb{R}^n$ 有界集上的连续函数都是Borel可测的，因此可以用神经网络来近似。神经网络也可以近似从任何有限离散空间映射到另一个有限离散空间的函数。

在原始的定理中，要求激活函数在变量取非常大的正值或者非常大的负值时饱和。实际上，万能近似定理对更广泛的激活函数也是适用的，包括ReLU。

万能近似定理其实说明了理论上神经网络可以近似任何函数。但实践上我们不能保证学习算法一定能学习到目标函数。即使网络可以表示这个函数，学习也可能因为两个不同的原因而失败。第一，训练算法可能无法找到目标函数的参数值；第二，训练算法可能由于过拟合而选择了错的函数。

参考文献

Deep Learning - Chapter 6.4.1. www.deeplearningbook.org
Hornik, K., Stinchcombe, M., and White, H. (1989). Multilayer feedforward networks are uni-versal approximators. Neural Networks, 2, 359–366. 171
Hornik, K., Stinchcombe, M., and White, H. (1990). Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural networks, 3(5), 551–560. 171
Leshno, M., Lin, V. Y., Pinkus, A., and Schocken, S. (1993). Multilayer feedforward networks with a nonpolynomial activation function can approximate any function. Neural Networks, 6, 861––867. 171, 172