神经网络的参数和超参数

整理并翻译自吴恩达深度学习视频： https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001702026

$W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}, W^{[3]}, b^{[3]}...$

中文	英文
学习速率	learning rate $α$
迭代次数	#iterations
隐藏层层数	#hidden layers L
隐藏单元数	#hidden units $n^{[1]},n^{[2]},...$
激活函数的选择	choice of activation function

除此之外，还有mometum、minibatch size、various forms of regularization parameters。

#在学术上表示numbers of，即…的数量。

超参数只是一种命名，之所以称之为超参数，是因为这些参数(hyperparameter)在某种程度上决定了最终得到的W和b参数(parameter)。超字并没有什么特别深刻的含义。

那么在训练网络时如何选择这些超参数呢？

你可能不得不尝试一系列可能适用于你的应用的超参数配置，不断尝试去取得最佳结果。

系统性的去尝试超参数的方法，稍后补充。

这是深度学习还需要进步的地方。

大家会开玩笑说什么佛系调参，差不多就是这个意思。