TensorFLow手写字识别深度学习网络分析详解

Tensorflow和MNIST简介

TensorFlow™ 是一个采用数据流图，用于数值计算的开源软件库。它是一个不严格的“神经网络”库，可以利用它提供的模块搭建大多数类型的神经网络。它可以基于ＣＰＵ或ＧＰＵ运行，可以自动使用ＧＰＵ，无需编写分配程序。主要支持Python编写，但是官方说也有C++使用界面。

MNIST是一个巨大的手写数字数据集，被广泛应用于机器学习识别领域。MNIST有60000张训练集数据和10000张测试集数据，每一个训练元素都是28*28像素的手写数字图片。作为一个常见的数据集，MNIST经常被用来测试神经网络，也是比较基本的应用。

CNN算法

识别算法主要使用的是卷积神经网络算法（CNN）。
图1.CNN算法结构
主要结构为：输入-卷积层-池化层-卷积层-池化层-全连接层-输出

卷积
卷积其实可以看做是提取特征的过程。如果不使用卷积的话，整个网络的输入量就是整张图片，处理就很困难。

假设图中绿色5*5矩阵为原图片，黄色的3*3矩阵就是我们的过滤器，即卷积核。就是将原来的图片进行特征值的过滤。将黄色矩阵和绿色矩阵被覆盖的部分进行卷积计算，即每个元素相乘求和，便可得到这一部分的特征值，即图中的卷积特征。
然后，向右滑动黄色的矩阵，便可继续求下一部分的卷积特征值。而滑动的距离就是步长。

池化
池化是用来把卷积结果进行压缩，进一步减少全连接时的连接数。细化卷积结果特征。

池化有两种：
一种是最大池化，在选中区域中找最大的值作为抽样后的值；
一种是平均值池化，把选中的区域中的平均值作为抽样后的值。

到此，Tensorflow的入门级的基本知识介绍完了。下面，将结合一个MNIST的手写识别的例子，从代码上简单分析一下，下面是源代码：

  1 #!/usr/bin/env python
  2 # -*- coding: utf-8 -*-
  3 
  4 import tensorflow as tf
  5 
  6 #加载测试数据的读写工具包，加载测试手写数据，目录MNIST_data是用来存放下载网络上的训练和测试数据的。
  7 #这里，参考我前面的博文，由于网络原因，测试数据，我单独下载后，放在当前目录的MNIST_data目录了。
  8 import tensorflow.examples.tutorials.mnist.input_data as input_data
  9 mnist = input_data.read_data_sets("MNIST_data", one_hot=True)
 10 
 11 #创建一个交互式的Session。
 12 sess = tf.InteractiveSession()
 13 
 14 #创建两个占位符，数据类型是float。x占位符的形状是[None，784]，即用来存放图像数据的变量，图像有多少张
 15 #是不关注的。但是图像的数据维度有784围。怎么来的，因为MNIST处理的图片都是28*28的大小，将一个二维图像
 16 #展平后，放入一个长度为784的数组中。
 17 #y_占位符的形状类似x，只是维度只有10，因为输出结果是0-9的数字，所以只有10种结构。
 18 x = tf.placeholder("float", shape=[None, 784])
 19 y_ = tf.placeholder("float", shape=[None, 10])
 20 
 21 #通过函数的形式定义权重变量。变量的初始值，来自于截取正态分布中的数据。
 22 def weight_variable(shape):
 23   initial = tf.truncated_normal(shape, stddev=0.1)
 24   return tf.Variable(initial)
 25 
 26 #通过函数的形式定义偏置量变量，偏置的初始值都是0.1，形状由shape定义。
 27 def bias_variable(shape):
 28   initial = tf.constant(0.1, shape=shape)
 29   return tf.Variable(initial)
 30 
 31 #定义卷积函数，其中x是输入，W是权重，也可以理解成卷积核，strides表示步长，或者说是滑动速率，包含长宽方向
 32 #的步长。padding表示补齐数据。 目前有两种补齐方式，一种是SAME，表示补齐操作后（在原始图像周围补充0），实
 33 #际卷积中，参与计算的原始图像数据都会参与。一种是VALID，补齐操作后，进行卷积过程中，原始图片中右边或者底部
 34 #的像素数据可能出现丢弃的情况。
 35 def conv2d(x, W):
 36   return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
 37 
 38 #这步定义函数进行池化操作，在卷积运算中，是一种数据下采样的操作，降低数据量，聚类数据的有效手段。常见的
 39 #池化操作包含最大值池化和均值池化。这里的2*2池化，就是每4个值中取一个，池化操作的数据区域边缘不重叠。
 40 #函数原型：def max_pool(value, ksize, strides, padding, data_format="NHWC", name=None)。对ksize和strides
 41 #定义的理解要基于data_format进行。默认NHWC，表示4维数据，[batch,height,width,channels]. 下面函数中的ksize，
 42 #strides中，每次处理都是一张图片，对应的处理数据是一个通道（例如，只是黑白图片）。长宽都是2，表明是2*2的
 43 #池化区域，也反应出下采样的速度。
 44 def max_pool_2x2(x):
 45   return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')
 46 
 47 #定义第一层卷积核。shape在这里，对应卷积核filter。
 48 #其中filter的结构为：[filter_height, filter_width, in_channels, out_channels]。这里，卷积核的高和宽都是5，
 49 #输入通道1，输出通道数为32，也就是说，有32个卷积核参与卷积。
 50 W_conv1 = weight_variable([5, 5, 1, 32])
 51 #偏置量定义，偏置的维度是32.
 52 b_conv1 = bias_variable([32])
 53 
 54 #将输入tensor进行形状调整，调整成为一个28*28的图片，因为输入的时候x是一个[None,784]，有与reshape的输入项shape
 55 #是[-1,28,28,1]，后续三个维度数据28,28,1相乘后得到784，所以，-1值在reshape函数中的特殊含义就可以映射程None。即
 56 #输入图片的数量batch。
 57 x_image = tf.reshape(x, [-1,28,28,1])
 58 
 59 #将2维卷积的值加上一个偏置后的tensor，进行relu操作，一种激活函数，关于激活函数，有很多内容需要研究，在此不表。
 60 h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
 61 #对激活函数返回结果进行下采样池化操作。
 62 h_pool1 = max_pool_2x2(h_conv1)
 63 
 64 #第二层卷积，卷积核大小5*5，输入通道有32个，输出通道有64个，从输出通道数看，第二层的卷积单元有64个。
 65 W_conv2 = weight_variable([5, 5, 32, 64])
 66 b_conv2 = bias_variable([64])
 67 
 68 #类似第一层卷积操作的激活和池化
 69 h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
 70 h_pool2 = max_pool_2x2(h_conv2)
 71 
 72 #图片尺寸减小到7x7，加入一个有1024个神经元的全连接层，用于处理整个图片。把池化层输出的张量reshape成一些
 73 #向量，乘上权重矩阵，加上偏置，然后对其使用ReLU激活操作。
 74 W_fc1 = weight_variable([7 * 7 * 64, 1024])
 75 b_fc1 = bias_variable([1024])
 76 
 77 #将第二层池化后的数据进行变形
 78 h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
 79 #进行矩阵乘，加偏置后进行relu激活
 80 h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
 81 
 82 keep_prob = tf.placeholder("float")
 83 #对第二层卷积经过relu后的结果，基于tensor值keep_prob进行保留或者丢弃相关维度上的数据。这个是为了防止过拟合，快速收敛。
 84 h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
 85 
 86 W_fc2 = weight_variable([1024, 10])
 87 b_fc2 = bias_variable([10])
 88 
 89 #最后，添加一个softmax层，就像前面的单层softmax regression一样。softmax是一个多选择分类函数，其作用和sigmoid这个2值
 90 #分类作用地位一样，在我们这个例子里面，softmax输出是10个。
 91 y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
 92 
 93 #实际值y_与预测值y_conv的自然对数求乘积，在对应的维度上上求和，该值作为梯度下降法的输入
 94 cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
 95 
 96 #下面基于步长1e-4来求梯度，梯度下降方法为AdamOptimizer。
 97 train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
 98 
 99 #首先分别在训练值y_conv以及实际标签值y_的第一个轴向取最大值，比较是否相等
100 correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
101 
102 #对correct_prediction值进行浮点化转换，然后求均值，得到精度。
103 accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
104 
105 #先通过tf执行全局变量的初始化，然后启用session运行图。
106 sess.run(tf.global_variables_initializer())
107 for i in range(20000):
108   #从mnist的train数据集中取出50批数据，返回的batch其实是一个列表，元素0表示图像数据，元素1表示标签值
109   batch = mnist.train.next_batch(50)
110   if i%100 == 0:
111     #计算精度，通过所取的batch中的图像数据以及标签值还有dropout参数，带入到accuracy定义时所涉及到的相关变量中，进行
112     #session的运算，得到一个输出，也就是通过已知的训练图片数据和标签值进行似然估计，然后基于梯度下降，进行权值训练。
113     train_accuracy = accuracy.eval(feed_dict={x:batch[0], y_: batch[1], keep_prob: 1.0})
114     print "step %d, training accuracy %g"%(i, train_accuracy)
115   #此步主要是用来训练W和bias用的。基于似然估计函数进行梯度下降，收敛后，就等于W和bias都训练好了。
116   train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})
117 
118 #对测试图片和测试标签值以及给定的keep_prob进行feed操作，进行计算求出识别率。就相当于前面训练好的W和bias作为已知参数。  
119 print "test accuracy %g"%accuracy.eval(feed_dict={x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0})

对于CNN领域的卷积，不是连续信号的时域积分思路。而是输入图像X与卷积核W进行内积。卷积的过程，其实是一种特征提取的过程！

下面引用一下牛人的分析

简单解释如下：

1.input layer：输入层是一个31*39的灰度图片，通道数是1，也可以理解输入图片的depth是1，很多论文或者技术文档中，输入通道数（in_channels）或者图片厚度（depth）都有用到。

2.convolutional layer 1：第一层卷积层，卷积核大小为4*4，输出结果厚度depth为20，表示有20个4*4的卷积核与输入图片进行特征提取。卷基层神经元的大小为36*28，这个神经元大小是这么算出来的：（39 - 4 + 1）*（31 - 4 +1）.

3.Max-pooling layer 1:第一层池化层，池化单元大小为2*2，池化不会改变输入数据的厚度，所以输出还是20，池化将神经元的大小降为一半，18*14.

4.convolutional layer 2：第二层卷积层，卷积核大小为3*3，输出结果厚度depth为40，表示有40个3*3的卷积核与前一级的输出进行了特征提取。卷积层神经元的大小为16*12，这个神经元大小是这么算出来的：（18 - 3 + 1）*（14 - 3 +1）。

5.Max-pooling layer 2:第二层池化层，池化单元大小为2*2，池化不会改变输入数据的厚度，所以输出还是40，池化将神经元的大小降为一半，8*6.

6.convolutional layer 3：第三层卷积层，卷积核大小为3*3，输出结果厚度depth为60，表示有60个3*3的卷积核与前一级的输出进行了特征提取。卷积层神经元的大小为6*4，这个神经元大小是这么算出来的：（8 - 3 + 1）*（6 - 3 +1）。

7.Max-pooling layer 3:第三层池化层，池化单元大小为2*2，池化不会改变输入数据的厚度，所以输出还是60，池化将神经元的大小降为一半，3*2.

8.convolutional layer 4：第四层卷积层，卷积核大小为2*2，输出结果厚度depth为80，表示有80个2*2的卷积核与前一级的输出进行了特征提取。卷积层神经元的大小为2*1，这个神经元大小是这么算出来的：（3 - 2 + 1）*（2 - 2 +1）。

9.接下来，对第四层输出结果，经过一次展平操作，80*（2*1）即得到160个输出特征。

10.经过softmax分类，即可得到最终输出预测结果。

突破昨天的自己