《我在谷歌大脑见习机器学习的一年：Node.js创始人的尝试笔记》阅读笔记

文章来源：https://www.toutiao.com/i6539751003690893828/

“超分辨率”问题：用条件型生成对抗网络（conditional GAN）来解决这个问题，但经过几次失败

换成了另一种有望解决该问题的新型生产式模型——PixelCNN：降低了输出图像的尺寸并使用脸部或卧室类的小型数据集

但PixelCNN却对过时的梯度极其敏感，这就导致了通过增加硬件的数量来使用异步随机梯度下降算法所带来收益微乎其微。

但同步随机梯度下降算法也有自己的问题：首先，它需要大量的机器经常进行同步，这就无可避免的会导致停机时间的增加；其次，除非将每台机器的批尺寸设为1，否则它无法通过增加机器的数量来增加每秒训练的次数。最终，我发现对我而言最简单有效的设置是用一台8GPU的机器使用同步随机梯度下降算法进行训练，即便如此每次训练仍需花上数天的时间。

拥有大量计算能力的另一好处是可以对超参数的优化进行大规模的暴力搜索。

另一个难题是如何量化评估结果。最后，我们把这项任务交给了大众——询问参与调查的人哪些图像看上去更真实，这才证明了我们模型的价值。

失败与未报告的实验结果：

大数的素因数分解：Mohammad和我尝试过两种方法：他修改了Google机器翻译的seq2seq模型，该模型把一个半素大数的整数序列作为输入，并以预测其素因数中的一个做为输出；我则使用一个较为简单的模型，它将定长整数作为输入，并用几个全连接层来预测输入的分类：素数或合数。但这两种方法最后都只学到了最为明显的规律（如果尾数为0，那它就不是素数！）

给出一张噪点图片并让它使用梯度自我更新来生成图像（也称为deep dreaming），训练的目标是令该网络把“真实”类别的输出达到最大化。该模型通过交替生成“假”实例来进行训练，跟典型的GAN中的鉴别器一样。这个模型在MNIST数据集上的确输出了不错的结果，但我没法在CIFAR-10 数据集上达到同样的效果，并且它的实用性也极为有限。

很多模型都不适用于异步随机梯度下降算法。最近，一篇名为DCASGD的论文提出了一种解决过时梯度问题的可能方法——在每一个线程更新自己的权重时使用差分向量。不幸的是，我没能在TensorFlow上复原他们的结果，也就无法尝试我基于此方法的几个设想，可能还是哪里有Bug。

思考，结论：

不过，我确实发现，这一模型的构建、训练和调试都相当困难。当然，大部分的困难是由于我缺乏经验，这也表明有效训练这些模型是需要相当丰富的经验的。我的工作集中在机器学习最为容易的分支上：监督式学习。但即便有着完美的标记数据，开发模型可能仍然十分困难。

一般情况就是预测的维度越大，构建模型所花的时间就越长（例如：花大把的时间进行编程、调试和训练）。基于我的经验，建议所有人在开始时都尽可能的简化和限制你的预测范围。举一个我们在着色实验中的例子：我们在开始时试图让模型预测整个RGB图像，而非只去预测颜色通道。

如果我用“工作”这一词的直观意义来描述软件的话，那么图像分类任务似乎“工作”的很稳健；生成式模型几乎很少能“工作”，人们也不太了解这种模型，GAN能输出高质量图像，但同时却极难构建起来。我的经验是，对GAN的架构作出任何小改动都有可能使它完全无法工作。我听说强化学习与其相比更加困难，但因经验不足，在此就不作评价了。

另一方面，随机梯度下降算法的性能十分强大，即使是严重的数学错误，可能也只是会使结果有一些失真，而不至于产生严重的偏差。

并行化（Parallelization）能带来的好处很有限。增加计算机数量使大规模的超参数搜索会变得更加容易，但理想情况下，我们会设计不用特别仔细调试也能很好运转的模型。

不好的是，对于很多模型而言，异步随机梯度下降算法并没有什么用处——更加精确的梯度通常用处不大。这就是为什么 DCASGD 的研究方向很重要的原因。

论文中的信噪比很低。但是还有很大的改进空间。人们通常不会坦率承认他们模型的失败之处，因为学术会议更看重的是准确度而不是透明度。我希望学术会议能接受提交博客文章，并要求开源实现，Distill在这方面的努力值得称赞。