rnn-手写数字识别-网络结构-shape

手写数字识别经典案例，目标是：

1. 掌握tf编写RNN的方法

2. 剖析RNN网络结构

tensorflow编程

#coding:utf-8
import  tensorflow as tf
from  tensorflow.examples.tutorials.mnist import  input_data

### 注意
# init_state = tf.zeros(shape=[batch_size,rnn_cell.state_size])
# init_state = lstm_cell.zero_state(batch_size, dtype=tf.float32)

mnist=input_data.read_data_sets("./data",one_hot=True)

# 常规参数
train_rate=0.001
train_step=10000
batch_size=1280
display_step=100

# rnn参数
frame_size=28           # 输入特征数
sequence_length=28      # 输入个数, 时序
hidden_num=100          # 隐层神经元个数
n_classes=10

# 定义输入,输出
# 此处输入格式是样本数*特征数，特征是把图片拉成一维的，当然一维还是二维自己定，改成相应的代码就行了
x=tf.placeholder(dtype=tf.float32,shape=[None,sequence_length*frame_size],name="inputx")
y=tf.placeholder(dtype=tf.float32,shape=[None,n_classes],name="expected_y")

# 定义权值
# 注意权值设定只设定v， u和w无需设定
weights=tf.Variable(tf.truncated_normal(shape=[hidden_num,n_classes]))      # 全连接层权重
bias=tf.Variable(tf.zeros(shape=[n_classes]))

def RNN(x,weights,bias):
    x=tf.reshape(x,shape=[-1,sequence_length,frame_size])   # 3维
    rnn_cell=tf.nn.rnn_cell.BasicRNNCell(hidden_num)

    ### 注意
    # init_state=tf.zeros(shape=[batch_size,rnn_cell.state_size])         # rnn_cell.state_size 100
    init_state=rnn_cell.zero_state(batch_size, dtype=tf.float32)

    output,states=tf.nn.dynamic_rnn(rnn_cell,x,initial_state=init_state,dtype=tf.float32)
    return tf.nn.softmax(tf.matmul(output[:,-1,:],weights)+bias,1)  # y=softmax(vh+c)

predy=RNN(x,weights,bias)

# 以下所有神经网络大同小异
cost=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=predy,labels=y))
train=tf.train.AdamOptimizer(train_rate).minimize(cost)

correct_pred=tf.equal(tf.argmax(predy,1),tf.argmax(y,1))
accuracy=tf.reduce_mean(tf.to_float(correct_pred))

sess=tf.Session()
sess.run(tf.global_variables_initializer())
step=1
testx,testy=mnist.test.next_batch(batch_size)
while step<train_step:
    batch_x,batch_y=mnist.train.next_batch(batch_size)
    _loss,__=sess.run([cost,train],feed_dict={x:batch_x,y:batch_y})
    if step % display_step ==0:
        print()
        acc,loss=sess.run([accuracy,cost],feed_dict={x:testx,y:testy})
        print(step,acc,loss)

    step+=1

如果你非常熟悉rnn，代码整体上还是比较好理解的，但是里面涉及许多次的shape设置，比较让人头大，特别是后期写各种rnn时，很容易迷糊，所以每个模型都要理解透彻。

以上代码涉及到shape的变量有

x y w b x变形 init_state

其中比较难理解的是 x x变形 init_state

网络结构

首先回顾一下RNN网络，以便对上个问题进行深入分析。

公式简写如下：

h1 = f(x1w1 + h0w2)

o1 = h1w3　　输出层就是简单的全连接，这里不做讨论

shape分析

我们把每个时刻的输入看做向量或者矩阵，因为如果只是一个数，没有shape可言，而且也很简单，没有讨论的必要。

首先有如下思考：

1. h是隐层的输出，也就是x传进去得到的输出，因此传一个x就有一个h（但这并不足以说明什么）

其次从公式层面考虑

从公式可以看出，x和h的行必须相同，列不必相同

图形表示

这是单节点隐层，那么多节点呢？

首先一个神经元节点对应一组weight，多个神经元就是多组weight

其次从公式层面考虑

从公式看出，h和x行相同，h列和神经元个数相同。

图形表示

综上所述，h0的shape是行为 x的行，即batch，列为神经元个数

也就是说一个神经元对应一个h0

对应到上述代码

init_state=tf.zeros(shape=[batch_size,rnn_cell.state_size])         # rnn_cell.state_size 100，100为节点数
init_state=rnn_cell.zero_state(batch_size, dtype=tf.float32)

对于输入x的shape，把代码转化成图

根据图来理解：

每次输入n张图片，也就是一次性输入所有时序的x，所有x的shape 为 [None,sequence_length*frame_size]

在rnn模型中因为要与权重相乘，所以需要转化为 [-1,sequence_length,frame_size] [ 样本数，时序数，特征数 ]，把特征划分出来，

然后特征乘以权重，然后按时序向上传递，得到输出

结合其他代码分析，对应图片而言，rnn包括LSTM的输入必须是一次性输入所有时序的x，即 [ 样本数，时序数，特征数 ]

其实这个网络应该是这样

我的理解：像图像这种所有时序的特征结合起来才能确定y的模型用多对一RNN，且每次输入所有时序的特征，而词语预测不然。