《python深度学习》笔记---9.1、深度学习知识回顾

一、总结

一句话总结：

【深度学习可能在几年的时间里被夸大炒作，但从长远来看，它仍然是一场改变我们经济和生活的重大革命】：炒作很可能会烟消云散，但深度学习带来的持久经济影响和技术影响将会永远持续下去。从这个意义上来讲，深度学习与互联网很类似：它可能在几年的时间里被夸大炒作，但从长远来看，它仍然是一场改变我们经济和生活的重大革命。

【深度学习以一己之力引发了第三次人工智能夏天】：深度学习取得了前所未有的技术上的成功，以一己之力引发了第三次人工智能夏天（AI summer），这也是迄今为止规模最大的一次，人们对人工智能领域表现出强烈的兴趣，投入大量投资并大肆炒作。

1、人工智能、机器学习、深度学习概念？

【人工智能：将认知过程自动化的所有尝试】：人工智能（artificial intelligence）是一个古老而宽泛的领域，通常可将其定义为“将认知过程自动化的所有尝试”，换句话说，就是思想的自动化。它的范围非常广泛，既包括很基本的内容，比如 Excel 电子表格，也包括非常高级的内容，比如会走路和说话的人形机器人。

【机器学习：仅靠观察训练数据来自动开发程序】：机器学习（machine learning）是人工智能的一个特殊子领域，其目标是仅靠观察训练数据来自动开发程序［即模型（model）］。将数据转换为程序的这个过程叫作学习（learning）。

【深度学习：一长串几何函数，一个接一个地作用在数据上】：深度学习（deep learning）是机器学习的众多分支之一，它的模型是一长串几何函数，一个接一个地作用在数据上。这些运算被组织成模块，叫作层（layer）。深度学习模型通常都是层的堆叠，或者更通俗地说，是层组成的图。这些层由权重（weight）来参数化，权重是在训练过程中需要学习的参数。模型的知识（knowledge）保存在它的权重中，学习的过程就是为这些权重找到正确的值。

2、深度学习以一己之力引发了第三次人工智能夏天？

【深度学习以一己之力引发了第三次人工智能夏天】：深度学习取得了前所未有的技术上的成功，以一己之力引发了第三次人工智能夏天（AI summer），这也是迄今为止规模最大的一次，人们对人工智能领域表现出强烈的兴趣，投入大量投资并大肆炒作。

【深度学习已经为许多大型科技公司提供了巨大的商业价值】：并且实现了人类水平的语音识别、智能助理、人类水平的图像分类、极大改进的机器翻译，等等，这与之前的人工智能夏天形成了鲜明对比。

【深度学习可能在几年的时间里被夸大炒作，但从长远来看，它仍然是一场改变我们经济和生活的重大革命】：炒作很可能会烟消云散，但深度学习带来的持久经济影响和技术影响将会永远持续下去。从这个意义上来讲，深度学习与互联网很类似：它可能在几年的时间里被夸大炒作，但从长远来看，它仍然是一场改变我们经济和生活的重大革命。

【将深度学习部署到可能应用的所有领域需要超过十年的时间】：深度学习就是一场革命，目前正以惊人的速度快速发展，这得益于在资源和人力上的指数式投资。从立场来看，未来很光明，尽管短期期望有些过于乐观。将深度学习部署到可能应用的所有领域需要超过十年的时间。

3、如何看待深度学习？

【深度学习非常非常简单】：关于深度学习，最令人惊讶的是它非常简单。十年前没人能预料到，通过梯度下降来训练简单的参数化模型，就能够在机器感知问题上取得如此惊人的结果。现在事实证明，你需要的只是足够大的参数化模型，并且在足够多的样本上用梯度下降来训练。

【它并不复杂，只是很多而已】：正如费曼曾经对宇宙的描述：“它并不复杂，只是很多而已。

4、深度学习集合解释？

【在深度学习中，一切都是向量，即一切都是几何空间（geometric space）中的点（point）】：首先将模型输入（文本、图像等）和目标向量化（vectorize），即将其转换为初始输入向量空间和目标向量空间。

【深度学习模型的每一层都对通过它的数据做一个简单的几何变换】：模型中的层链共同形成了一个非常复杂的几何变换，它可以分解为一系列简单的几何变换。

【这个复杂变换试图将输入空间映射到目标空间，每次映射一个点】：这个变换由层的权重来参数化，权重根据模型当前表现进行迭代更新。

【可微：连续且平滑】：这种几何变换有一个关键性质，就是它必须是可微的（differentiable），这样我们才能通过梯度下降来学习其参数。直观上来看，这意味着从输入到输出的几何变形必须是平滑且连续的，这是一个很重要的约束条件。

5、深度学习的神奇之处？

【将意义转换为向量，转换为几何空间】：然后逐步学习将一个空间映射到另一个空间的复杂几何变换。

【维度足够大的空间】：你需要的只是维度足够大的空间，以便捕捉到原始数据中能够找到的所有关系。

6、深度学习核心思想？

整件事情完全取决于一个核心思想：意义来自于事物之间的成对关系（一门语言的单词之间，一张图像的像素之间等），而这些关系可以用距离函数来表示。

7、神经网络（neural network）与神经和网络都没有关系？

【核心在于连续的几何空间操作】：更合适的名称应该是分层表示学习（layered representations learning）或层级表示学习（hierarchical representations learning），甚至还可以叫深度可微模型（deep differentiable model）或链式几何变换（chained geometric transform），以强调其核心在于连续的几何空间操作。

8、深度学习发展趋势？

【像Web技术一样，人人都需要用】：未来，深度学习不仅会被专家（研究人员、研究生与具有学习背景的工程师）使用，而且会成为所有开发人员工具箱中的工具，就像当今的Web 技术一样。所有人都需要构建智能应用程序——正如当今每家企业都需要一个网站，每个产品都需要智能地理解用户生成的数据。

9、对于时序预测，训练集、测试集、验证集需要注意什么？

对于时序预测，验证数据和测试数据的时间都应该在训练数据之后。

10、保留一个单独的测试集的意义？

【避免验证集过拟合】：调节超参数时要小心验证集过拟合，即超参数可能会过于针对验证集而优化。我们保留一个单独的测试集，正是为了避免这个问题！

11、输入模式与适当的网络架构之间的对应关系？

声音数据（比如波形）：一维卷积神经网络（首选）或循环神经网络。

其他类型的序列数据：循环神经网络或一维卷积神经网络。如果数据顺序非常重要（比如时间序列，但文本不是），那么首选循环神经网络。

视频数据：三维卷积神经网络（如果你需要捕捉运动效果），或者帧级的二维神经网络（用于特征提取）+ 循环神经网络或一维卷积神经网络（用于处理得到的序列）。

立体数据：三维卷积神经网络。

向量数据：密集连接网络（Dense 层）。
图像数据：二维卷积神经网络。
声音数据（比如波形）：一维卷积神经网络（首选）或循环神经网络。
文本数据：一维卷积神经网络（首选）或循环神经网络。
时间序列数据：循环神经网络（首选）或一维卷积神经网络。
其他类型的序列数据：循环神经网络或一维卷积神经网络。如果数据顺序非常重要（比如时间序列，但文本不是），那么首选循环神经网络。
视频数据：三维卷积神经网络（如果你需要捕捉运动效果），或者帧级的二维神经网络（用于特征提取）+ 循环神经网络或一维卷积神经网络（用于处理得到的序列）。
立体数据：三维卷积神经网络。

12、密集连接网络为什么叫作密集连接？

【是因为 Dense 层的每个单元都和其他所有单元相连接】：这种层试图映射任意两个输入特征之间的关系，它与二维卷积层不同，后者仅查看局部关系。

13、单标签多分类和多标签多分类问题的最后一次及激活函数选择？

【对于单标签多分类问题】：（single-label categorical classification，每个样本只有一个类别，不会超过一个），层堆叠的最后一层是一个 Dense 层，它使用 softmax 激活，其单元个数等于类别个数。如果目标是one-hot 编码的，那么使用 categorical_crossentropy 作为损失；如果目标是整数，那么使用 sparse_categorical_crossentropy 作为损失。

【对于多标签多分类问题】：（multilabel categorical classification，每个样本可以有多个类别），层堆叠的最后一层是一个 Dense 层，它使用 sigmoid 激活，其单元个数等于类别个数，并使用 binary_crossentropy 作为损失。目标应该是 k-hot 编码的。

14、一维（序列）、二维（图像）、三维（立体数据）卷积的共性是什么？

【得到的表示具有平移不变性】：这使得卷积层能够高效利用数据，并且能够高度模块化。

15、池化层可以对数据进行空间下采样，这么做有两个目的？

【降低尺寸】：随着特征数量的增大，我们需要让特征图的尺寸保持在合理范围内；

【扩大视野】：让后面的卷积层能够“看到”输入中更大的空间范围。

16、卷积神经网络的基本构造？

卷积神经网络或卷积网络是卷积层和最大池化层的堆叠。

17、大部分（或者全部）普通卷积很可能不久后会被深度可分离卷积（depthwise separable convolution，SeparableConv2D 层）所替代，后者与前者等效，但速度更快、表示效率更高。对于三维、二维和一维的输入来说都是如此？

【SeparableConv2D层】：如果你从头开始构建一个新网络，那么一定要使用深度可分离卷积。SeparableConv2D 层可直接替代 Conv2D 层，得到一个更小、更快的网络，在任务上的表现也更好。

18、什么时候使用循环神经网络，什么时候使用一维卷积神经网络？

【时间平移不变性】：如果序列中的模式不具有时间平移不变性（比如时间序列数据，最近的过去比遥远的过去更加重要），那么应该优先使用循环神经网络，而不是一维卷积神经网络。

二、内容在总结中

博客对应课程的视频位置：

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处

一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

人工智能群：939687837

作者相关推荐

感悟总结

《python深度学习》笔记---9.1、深度学习知识回顾

《python深度学习》笔记---9.1、深度学习知识回顾

一、总结

一句话总结：

1、人工智能、机器学习、深度学习 概念？

2、深度学习以一己之力引发了第三次人工智能夏天？

【深度学习已经为许多大型科技公司提供了巨大的商业价值】：并且实现了人类水平的语音识别、智 能助理、人类水平的图像分类、极大改进的机器翻译，等等，这与之前的人工智能夏天形成了 鲜明对比。

3、如何看待深度学习？

【它并不复杂，只是很多而已】：正如费曼曾经对宇宙的 描述：“它并不复杂，只是很多而已。

4、深度学习 集合解释？

【在深度学习中，一切都是向量，即一切都是几何空间（geometric space）中的点（point）】：首先将模型输入（文本、图像等）和目标向量化（vectorize），即将其转换为初始输入向量空间和目标向量空间。

【深度学习模型的每一层都对通过它的数据做一个简单的几何变换】：模型 中的层链共同形成了一个非常复杂的几何变换，它可以分解为一系列简单的几何变换。

【这个复杂变换试图将输入空间映射到目标空间，每次映射一个点】：这个变换由层的权重来参数化， 权重根据模型当前表现进行迭代更新。

5、深度学习的神奇之处？

【将意义转换为向量，转换为几何空间】：然后逐步学习将一个 空间映射到另一个空间的复杂几何变换。

【维度足够大的空间】：你需要的只是维度足够大的空间，以便捕捉到原始数 据中能够找到的所有关系。

6、深度学习核心思想？

整件事情完全取决于一个核心思想：意义来自于事物之间的成对关系（一门语言的单词之间，一张图像的像素之间等），而这些关系可以用距离函数来表示。

7、神经网络（neural network）与神经和网络都没有关系？

8、深度学习发展趋势？

9、对于时序预测，训练集、测试集、验证集需要注意什么？

对于时序预测，验证数据和测试数据的 时间都应该在训练数据之后。

10、保留一个单独的测试集 的意义？

【避免验证集过拟合】：调节超参数时要小心验证集过拟合，即超参数可能会过于针对验证集而优化。我们保留 一个单独的测试集，正是为了避免这个问题！

11、输入模式与适当的网络架构之间的对应关系？

声音数据（比如波形）：一维卷积神经网络（首选）或循环神经网络。

其他类型的序列数据：循环神经网络或一维卷积神经网络。如果数据顺序非常重要（比 如时间序列，但文本不是），那么首选循环神经网络。

视频数据：三维卷积神经网络（如果你需要捕捉运动效果），或者帧级的二维神经网络（用 于特征提取）+ 循环神经网络或一维卷积神经网络（用于处理得到的序列）。

立体数据：三维卷积神经网络。

12、密集连接网络 为什么叫作密集连接？

【是因为 Dense 层的每个单元都和其他所有单元相 连接】：这种层试图映射任意两个输入特征之间的关系，它与二维卷积层不同，后者仅查看局部 关系。

13、单标签多分类 和 多标签多分类 问题的最后一次及激活函数选择？

14、一维（序列）、二维（图像）、三维（立体数据）卷积的共性是什么？

【得到的表示具有平移不变性】：这使得卷积层能够高效利用数据，并且能够高度 模块化。

15、池化层可以对数据进行空间下采样， 这么做有两个目的？

【降低尺寸】：随着特征数量的增大，我们需要让特征图的尺寸保持在合理范围内；

【扩大视野】：让后面 的卷积层能够“看到”输入中更大的空间范围。

16、卷积神经网络的基本构造？

卷积神经网络或卷积网络是卷积层和最大池化层的堆叠。

17、大部分（或者全部）普通卷积很可能不久后会被深度可分离卷积（depthwise separable convolution，SeparableConv2D 层）所替代，后者与前者等效，但速度更快、表示效率更高。 对于三维、二维和一维的输入来说都是如此？

【SeparableConv2D层】：如果你从头开始构建一个新网络，那么一定要使用 深度可分离卷积。SeparableConv2D 层可直接替代 Conv2D 层，得到一个更小、更快的网络， 在任务上的表现也更好。

18、什么时候使用循环神经网络，什么时候使用一维卷积神经网络？

【时间平移不变性】：如果序列中的模式不具有时间平移不变性（比如时间序列数据，最近的过去比 遥远的过去更加重要），那么应该优先使用循环神经网络，而不是一维卷积神经网络。

二、内容在总结中

作者相关推荐

1、人工智能、机器学习、深度学习概念？

【深度学习已经为许多大型科技公司提供了巨大的商业价值】：并且实现了人类水平的语音识别、智能助理、人类水平的图像分类、极大改进的机器翻译，等等，这与之前的人工智能夏天形成了鲜明对比。

【它并不复杂，只是很多而已】：正如费曼曾经对宇宙的描述：“它并不复杂，只是很多而已。

4、深度学习集合解释？

【深度学习模型的每一层都对通过它的数据做一个简单的几何变换】：模型中的层链共同形成了一个非常复杂的几何变换，它可以分解为一系列简单的几何变换。

【这个复杂变换试图将输入空间映射到目标空间，每次映射一个点】：这个变换由层的权重来参数化，权重根据模型当前表现进行迭代更新。

【将意义转换为向量，转换为几何空间】：然后逐步学习将一个空间映射到另一个空间的复杂几何变换。

【维度足够大的空间】：你需要的只是维度足够大的空间，以便捕捉到原始数据中能够找到的所有关系。

对于时序预测，验证数据和测试数据的时间都应该在训练数据之后。

10、保留一个单独的测试集的意义？

【避免验证集过拟合】：调节超参数时要小心验证集过拟合，即超参数可能会过于针对验证集而优化。我们保留一个单独的测试集，正是为了避免这个问题！

其他类型的序列数据：循环神经网络或一维卷积神经网络。如果数据顺序非常重要（比如时间序列，但文本不是），那么首选循环神经网络。

视频数据：三维卷积神经网络（如果你需要捕捉运动效果），或者帧级的二维神经网络（用于特征提取）+ 循环神经网络或一维卷积神经网络（用于处理得到的序列）。

12、密集连接网络为什么叫作密集连接？

【是因为 Dense 层的每个单元都和其他所有单元相连接】：这种层试图映射任意两个输入特征之间的关系，它与二维卷积层不同，后者仅查看局部关系。

13、单标签多分类和多标签多分类问题的最后一次及激活函数选择？

【得到的表示具有平移不变性】：这使得卷积层能够高效利用数据，并且能够高度模块化。

15、池化层可以对数据进行空间下采样，这么做有两个目的？

【扩大视野】：让后面的卷积层能够“看到”输入中更大的空间范围。

17、大部分（或者全部）普通卷积很可能不久后会被深度可分离卷积（depthwise separable convolution，SeparableConv2D 层）所替代，后者与前者等效，但速度更快、表示效率更高。对于三维、二维和一维的输入来说都是如此？

【SeparableConv2D层】：如果你从头开始构建一个新网络，那么一定要使用深度可分离卷积。SeparableConv2D 层可直接替代 Conv2D 层，得到一个更小、更快的网络，在任务上的表现也更好。

【时间平移不变性】：如果序列中的模式不具有时间平移不变性（比如时间序列数据，最近的过去比遥远的过去更加重要），那么应该优先使用循环神经网络，而不是一维卷积神经网络。