整理并翻译自吴恩达深度学习视频: https://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=2001702026
神经网络的参数和超参数
参数(parameter)
W [ 1 ] , b [ 1 ] , W [ 2 ] , b [ 2 ] , W [ 3 ] , b [ 3 ] . . . W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}, W^{[3]}, b^{[3]}... W[1],b[1],W[2],b[2],W[3],b[3]...
超参数 hyperparameter
中文 | 英文 |
---|---|
学习速率 | learning rate α alpha α |
迭代次数 | #iterations |
隐藏层层数 | #hidden layers L |
隐藏单元数 | #hidden units n [ 1 ] , n [ 2 ] , . . . n^{[1]},n^{[2]},... n[1],n[2],... |
激活函数的选择 | choice of activation function |
除此之外,还有mometum、minibatch size、various forms of regularization parameters。
#在学术上表示numbers of,即…的数量。
说明
超参数只是一种命名,之所以称之为超参数,是因为这些参数(hyperparameter)在某种程度上决定了最终得到的W和b参数(parameter)。超字并没有什么特别深刻的含义。
那么在训练网络时如何选择这些超参数呢 ?
你可能不得不尝试一系列可能适用于你的应用的超参数配置,不断尝试去取得最佳结果。
系统性的去尝试超参数的方法,稍后补充。
这是深度学习还需要进步的地方。
大家会开玩笑说什么佛系调参,差不多就是这个意思。