1.1 训练——开发——测试集

经验法则： Make sure dev and test come from same distribution

为什么只正则化参数w，为什么不再加上参数b呢？

因为w通常是一个高维参数矢量，已经可以表达高偏差问题。W可能含有很多参数，我们不可能拟合所有的参数，而b只是单个数字。其实加上b也没什么太大影响，因为b只是众多参数中的一个，所以通常忽略不计。