随时间的反向传播算法 BPTT

随时间的反向传播算法 BPTT

本文转自：https://www.cntofu.com/book/85/dl/rnn/bptt.md

随时间反向传播（BPTT）算法

先简单回顾一下RNN的基本公式：

s t = tanh (U x t + W s t - 1)

y^t = s o f t m a x (V s t)

RNN的损失函数定义为交叉熵损失：

E t (y t, y^t) = - y t log y^t

E (y, y^) = \sum t E t (y t, y^t) = - \sum t y t log y^t

y t

是时刻t的样本实际值，

y^t

是预测值，我们通常把整个序列作为一个训练样本，所以总的误差就是每一步的误差的加和。我们的目标是计算损失函数的梯度，然后通过梯度下降方法学习出所有的参数U, V, W。比如：

\partial E \partial W = \sum t \partial E t \partial W

为了更好理解BPTT我们来推导一下公式：

前向前向传播1：

a 0 = x 0 * u

b 0 = s - 1 * w

z 0 = a 0 + b 0 + k

s 0 = f u n c (z 0)

(

f u n c

是 sig或者tanh)

前向前向传播2：

a 1 = x 1 * u

b 1 = s 0 * w

z 1 = a 1 + b 1 + k

s 1 = f u n c (z 1)

(

f u n c

是 sig 或者tanh)

q = s 1 * v 1

$$z_t = ux_t + ws_{t-1} + k$$

s t = f u n c (z t)

输出层：

o = f u n c (q)

(

f u n c

是 softmax)

E = f u n c (o)

(

f u n c

是 x-entropy)

下面是U的推导

\partial E / \partial u = \partial E / \partial u 1 + \partial E / \partial u 0

\partial E / \partial u 1 = \partial E / \partial o * \partial o / \partial q * \partial q / \partial s 1 * \partial s 1 / \partial z 1 * \partial z 1 / \partial a 1 * \partial a 1 / \partial u 1

\partial E / \partial u 0 = \partial E / \partial o * \partial o / \partial q * \partial q / \partial s 1 * \partial s 1 / \partial z 1 * \partial z 1 / \partial b 1 * \partial b 1 / \partial s 0 * \partial s 0 / d z 0 * \partial z 0 / \partial a 0 * \partial a 0 / \partial u 0

\partial E / \partial u = \partial E / \partial o * \partial o / \partial q * v 1 * \partial s 1 / \partial z 1 * ((1 * x 1) + (1 * w 1 * \partial s 0 / \partial z 0 * 1 * x 0))

\partial E / \partial u = \partial E / \partial o * \partial o / \partial q * v 1 * \partial s 1 / \partial z 1 * (x 1 + w 1 * \partial s 0 / \partial z 0 * x 0)

W参数的推导如下

\partial E / \partial w = \partial E / \partial o * \partial o / \partial q * v 1 * \partial s 1 / \partial z 1 * (s 0 + w 1 * \partial s 0 / \partial z 0 * s - 1)

总结

\partial L \partial u = \sum t \partial L \partial u t = \partial L \partial o \partial o \partial s 1 \partial s 1 \partial u 1 + \partial L \partial o \partial o \partial s 1 \partial s 1 \partial s 0 \partial s 0 \partial u 0

\partial L \partial w = \sum t \partial L \partial w t = \partial L \partial o \partial o \partial s 1 \partial s 1 \partial w 1 + \partial L \partial o \partial o \partial s 1 \partial s 1 \partial s 0 \partial s 0 \partial w 0

x t

是时间t的输入

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/carlber/p/11084932.html