课程一(Neural Networks and Deep Learning)，第四周（Deep Neural Networks）—— 1.Practice Questions: Key concepts on Deep Neural Networks

【解释】

　　比如算法中的learing rateα（学习率）、iterations(梯度下降法循环的数量)、L（隐藏层数目）、n^[l] （隐藏层单元数目）、choice of activation function（激活函数的选择）都需要你来设置，这些数字实际上控制了最后的参数W和b的值，所以它们被称作超参数。

【解释】

　　在深度神经网络的这许多隐藏层中，较早的前几层能学习一些低层次的简单特征，等到后几层，就能把简单的特征结合起来，去探测更加复杂的东西。比如你录在音频里的单词、词组或是句子，然后就能运行语音识别了。同时我们所计算的之前的几层，也就是相对简单的输入函数，比如图像单元的边缘什么的。到网络中的深层时，你实际上就能做很多复杂的事，比如探测面部或是探测单词、短语或是句子。

【解释】

　　如果你回顾一下向量化的全过程，其实就是一个for循环，for循环 i从1到4，for循环 i等于1到大写L，然后你去计算第一层的激活函数，接着算第2、3、4层，所以看起来是个for循环。我猜你在用代码实现自己的网络时，通常是不想用显式for循环的，但是在这个情况下除了显式for循环，并没有更好的办法，所以当我们在实现正向传播的时候，用for循环也是可以的，它可以计算第一层的激活函数，然后按顺序算好第2、3、4层等等，应该没有人能用除了for循环以外更好的方法来一层层地计算1到L，也就是从输入层到输出层的整个神经网络，这个地方用显式for循环是可以的。

【解释】

　　例如，上图是一个四层的神经网络，有三个隐藏层。我们用L表示层数。记住当我们算神经网络的层数时，我们不算输入层，我们只算隐藏层和输出层。

【解释】

反向传播过程中，计算需要用到g[l]的倒数，所以需要知道激活函数的什么。