李宏毅Computational Grahp & Back Propagation

 下图中的每个node可以是任意维度的,而不仅仅是图中的示例。

而,如下图示,如果要同时算e对a和e对b的偏微分的话,需要一个reverse mode

所以,上图用的computational graph算所有edge上的偏微分,如果edge两遍都是vector的话,我们得到的就是同一个matrix,如上图底部;

如下图,如果算C对y的偏微分,因为C是一个scalar,所以结果一般是一个长条状的,例如,如果算在MNist的数字识别时,C对y的偏微分结果就是高为1,

宽为10的长条,也即一行十列的向量。

如果时分类问题的话,一般你的label用one hot encode来表示,只有其中一维时1,其他的都是0;假设1的那一维时第r维,

 

原文地址:https://www.cnblogs.com/Li-JT/p/15042575.html