《神经网络与深度学习》：第一章使用神经网络来识别手写数字（一）

译者：本文为转载翻译自免费英文电子书《Neural Networks and Deep Learning》，将逐步翻译成中文，原文链接：http://neuralnetworksanddeeplearning.com/chap1.html

由于本章节很长，编辑器很卡，翻译时我会分成几个小节，这是第一小节。

人类的视觉系统是很神奇的。考虑一下下面几个手写的数字：

大多数人一眼就认出这些数字是504192。在人的每个大脑半球，人类有一个主要的视觉皮质，被称为 V1，包含 1.4亿个神经元，有几百亿的神经连接。人类的视觉系统不单只涉及V1，而且涉及到一整个视觉皮质 - V2, V3, V4, 和 V5 - 它们一步步处理着复杂的图像。我们大脑是一个超级计算机，经过几十亿年的演变，逐渐适应这个可视化的世界。识别手写数字不是那么容易的。相反地，人类的处理能力是惊人的，人类善于使我们理解看到的东西。几乎所有工作都是无意识地进行。我们通常不会佩服自己的视觉系统怎样解决怎么困难的问题。视觉模式识别的困难性显而易见，如果你尝试写一个程序来识别类似下面数字。看起来简单的东西实现起来非常困难。简单直观的例子是我们怎么识别形状。 - "数字 9 头顶上有一个圈，右下方是一竖" - 用算法来表达不是那么容易的。当你尝试让这些规则变得很精确，你很快就会在异常、警告和例外的困境中蒙圈。它看起来毫无解决的希望。

神经网络以不同的方式解决这个问题。思路是拿大量的手写数字来作为训练样本，

然后演化为一个可以从样本中学习的系统，从另外的角度来讲，神经网络使用样本来自动推理手写识别的规则。进一步，通过增加训练样本，网络可以学习更多手写文字，改善它识别的准确度。我只是在上面展示了100个用于训练的数字，也许我们可以通过使用几千、几百万、几十亿的训练样本来建一个更好的手写识别器。

在这一节，我们会写一个程序来实现一个学习手写数字的神经网络。这个程序只有74行代码，并且没有用到第三方的神经网络库。但这个小程序的识别精度可以达到96%，而且是在没有人的介入的情况下达到的。然后进一步，在接下来的章节中，我们会改进，使程序的精度达到99%。事实上，最好的商业应用神经网络可以应用在银行的账单处理中，以及邮局的地址识别。

我们专注于讲解手写识别，因为这是一个学习神经网络的非常棒的原型。手写识别作为学习例子有个好处：有挑战性 - 识别手写数字是一个不小的本领 - 但不需要非常复杂的解决方案，也不需要海量计算那么困难。进一步讲，这是一个发展高级计算，例如深度学习的很好的途径。这这本书的整个过程，我们会重复地提到手写识别的问题。这本书的后面，我们会讨论怎样将这些思想应用到计算机视觉方面，人机对话和自然语言处理，以及其他领域。

当然，如果这节的关键在于写一个程序来识别手写数字，那么这节内容会短很多。但在此期间，我们会引出很多关键的神经网络思想，包括两种重要的人工神经网络 (感知网络和 sigmoid 神经网络)，以及标准的神经网络学习算法，例如梯度下降算法。在此期间，我会集中讲解为什么神经网络的原理，让你从直观上认识神经网络。我不止给你简单展示基本的机制，我需要啰嗦一大段。啰嗦是值得的，希望你会理解更加深刻。从这章节，你可以理解什么是深度学习，为什么它那么重要。

感知器

什么是神经网络？为了开始，我会解释一种叫感知网络的神经网络。感知网络在1950到1960左右被科学家 Frank Rosenblatt提出，它受到 Warren McCulloch 和 Walter Pitts早期研究成果的启发。今天，这种网络以及被其它种类的神经网络代替了 - 在这本书中，更加先进的主流使用的神经网络是sigmoid 神经网络。我们很快就介绍到它了。但为了明白为什么会出现 sigmoid 网络，首先要明白什么是感知网络。

那么感知网络是怎样工作的呢？感知网络有一个或以上的输入

在下面的例子，展示了感知网络有三个输入，

$\begin{array}{rcl} (1) & output & = & {\begin{cases} 0 & if \sum_{j} w_{j} x_{j} \leq threshold \\ 1 & if \sum_{j} w_{j} x_{j} > threshold \end{cases} \end{array}$ $\begin{array}{rcl} (1) & output & = & {\begin{cases} 0 & if \sum_{j} w_{j} x_{j} \leq threshold \\ 1 & if \sum_{j} w_{j} x_{j} > threshold \end{cases} \end{array}$

输出=1 如果

这是基本的数学模型。你可以这样理解感知网络，它是一个通过衡量各种因素的重要程度来作决定的设备。我举个例子，不是很现实的例子，但人容易明白，稍后我们会了解到更加现实的例子。假如周末要来了，你听说你所在将举办一个奶酪节。你很喜欢奶酪，你纠结是否要去这个奶酪节看看。你可能会衡量三个因素来决定是否要去：

天气是否下雨
你的男朋友或者女朋友会不会陪你去
奶酪节现场是否有公共交通工具 (假如你没有私家车)

现在，假如你非常喜欢奶酪，你当然乐于去奶酪节现场，即使你男/女朋友对此不感兴趣，或者交通不是特别方便。但可能你非常讨厌下雨天，如果下雨的话你对什么节之类丧失兴趣。你可以用感知网络来作这种决策的建模。其中的一个建模方法是选择一个圈子

通过不同的权重和阈值，我们可以得到不同的决策模型。例如，假如你的阈值选了3。那么感知网络会认为你应该去，无论天气情况、交通状况、是否有朋友陪伴。换言之，这变成了另外一个决策模型了。减少阈值意味着你更想去奶酪节。

显然，感知网络不是人类完整的决策模型。但至少证明了感知网络可以通过设置不同条件的权重来做决策。而且它看起来可以通过复杂的网络来作出稳定的决策：

很意外，当我定义感知网络的时候，我说过感知网络只有一个输出。在上面的感知网络看起来好像有很多个输出。事实上，它们依然只有一个输出。多个输出都指向下一个网络作为下一个网络的输入。画一条想然后分开两条并不难。

我们简化地描述感知器。

output = 0 if w \cdot x + b \leq 0

output = 1 if w \cdot x + b > 0

我将感知器描述为衡量各种因素来做决策的一种方法。感知器也可以用于计算基本的逻辑函数例如与门AND, 或门 OR, 和与非门NAND。例如，假如你有一个感知器有两个输入的，每一个输入的权重都是-2，偏移量为

与非门 NAND的例子表明我们可以使用感知器来计算简单的逻辑功能。事实上，我们可以使用感知器的网络来计算任何的逻辑函数。因为非门在计算机领域是通用的，也就是说我们可以使用非门来实现任意计算。例如我们可以使用非门来建立一个用于两个位相加的回路，x1和x2。这需要计算按位相加

加法器的例子证明了一个感知器怎样用于模拟一个包含很多个与非门的电路。因为与非门 NAND 对于计算是通用的，所以可以说感知器对计算也是通用的。

感知器的计算通用性同时令人安慰和失望。令人安慰是因为它告诉我们感知器网络可以和其它计算设备那么强大。但令人失望的是，因为它看起来仅仅是一种新的与非门。这几乎不上什么大新闻！

然而，情况比看起来要好。结果是我们可以设计出可以自动调整神经网络权重和偏移量的学习算法。这种调整发生在响应外界的刺激时，没有程序员的直接介入。这个学习算法可以让我们通过一种完全不同与传统逻辑门的方式来使用神经网络。而不是明确的与非门和其它逻辑门的电路层，我们的神经网络可以简单的学会解决问题，特别是对于那些直接设计传统电路很难解决的难题。

S型神经元（Sigmoid neurons ）

学习算法听起来很了不起。但是我们怎样给神经网络设计出这样算法呢？假如我们有一个想用来学习解决问题的感知器神经网络。例如，网络的输入可能是来自扫描机或者手写数字的图片像素数据。我们想让网络学习权重和偏移量，网络的输出可以正确的分类这些数字。为了能看见学习是怎样开展的，我们假设在权重（或者偏移量）上面作一个小的改动，这个小的改动会相应的引起输出的一个变化。我们一会之后就可以看到，这个特性会让学习成为可能。下图就是我们想要的 (明显这个网络对于手写识别过于简单):

如果这是真的，一个权重或者偏移量的值得一个小的变化只会引起输出的一个小的变化，那么我们可以用这个机制类改变权重和偏移量让升级网络以我们想的方式来表现。例如，假如网络错误地将数字9识别为8。我们可以计算出怎样改变权重和偏移量，让网络的识别结果偏向的正确的9。然后我们会重复这样调整，改变权重和偏移量，让输出原来越正确。这样的话，网络就有学习的能力了。

问题是感知器不能实现这种微调的的效果。事实上，权重或者偏移量的一个微小的变化有时候会导致输出结果意想不到的改变，该输出0的输出了1，改输出1的输出了0。当你调整网络的权重或者偏移量使数字图片

我们可以通过引入一种叫做S型神经元的新的人工神经元来解决这个问题。S型神经元类似于感知器，但是经过了改造，从而能够使得权重和偏移量的小的变化会对输出产生小的影响。这个关键的特性使得是S型神经元具有学习能力。

好，让我妈描述一下S型神经元。我们会已面试感知器的形式类描述S型神经元：

σ (z) \equiv 1 1 + e - z .

1/( 1 + exp ( - \sum j w j x j - b ))

一眼看去，它和感知器有很大的不同。这个代数公司看起来晦涩难懂，除非你很熟悉它。事实上，它和感知器有很多类似的地方。

为了明白它和感知器的相似性，假如

代数式

这个形式就是阶梯函数平滑一点的版本：

如果

Δ output \approx \sum j \partial

如果

我们应该怎么诠释S型神经元的输出呢？明显，一个很大不同是S型神经元不只是输出0或者1。它们可以输出0到1之间的任意小数值例如

练习题

Sigmoid神经元用来仿真感知器第一部分
Sigmoid神经元用来仿真感知器第二部分

神经网络的架构

在下一节我会介绍一个可以很好地分类手写数字的神经网络。作为预热，我们先熟悉一些术语。假如我们有一个网络：

输入输出层的设计通常是很直观的。例如，假如我们尝试判断手写数字图片是否是9.一个很自然的方法是实际一个网络将图片的像素的颜色长度转换为数字输入神经网络。如果图片是

我们也可以很有技巧地设计一个隐藏层。尤其，将隐藏层处理结果用简单的规则加起来的比较困难的。神经网络研究者已经发明了很多设计探索法设计隐藏层，帮助人们设计出能获得想要的输出结果的网络。这些方法可以用来帮助决定怎样权衡隐藏层的数量和时间需求。我们会在后面介绍几个这样的方法。

迄今为止，我们邮件讨论输出用于下一层输入的神经网络。这样的网络叫做前馈网络。这意味着网络中没有循环 - 信息总是向前传递，不会往回传递。如果我们有了循环，我们就打破

然而，有很多神经网络模型可以有反馈的循环。这些模型称为递归神经网络。这些模型的思想是让神经元在某个时间段内激活，然后转为非激活状态。激活可以模拟其它迟点激活的神经元。这样导致了级联式的神经元激活。在这个模型中循环不会有问题，因为输出只会在一段时间后影响输入，不是立刻。

递归神经网络比前馈网络的影响力小，某方面原因是递归神经网络的算法（至少到现在）还没显现出巨大威力。但他仍然非常有意思。因为它们比前馈网络更接近大脑的工作原理。而且它可能可以解决对于前馈网络很难解决的问题。然而，基于文本章节限制，我们暂时不讨论这个，我们集中讨论广泛应用的前馈网络。

继续阅读第一章的第二小节： http://www.cnblogs.com/pathrough/p/5322736.html