BP神经网络的数学原理及其算法实现

标签：分类器 神经网络

出处http://blog.csdn.net/zhongkejingwang/article/details/44514073

上一篇文章介绍了KNN分类器，当时说了其分类效果不是很出色但是比较稳定，本文后面将利用BP网络同样对Iris数据进行分类。

什么是BP网络

BP神经网络，BP即Back Propagation的缩写，也就是反向传播的意思，顾名思义，将什么反向传播？文中将会解答。不仅如此，关于隐层的含义文中也会给出个人的理解。最后会用Java实现的BP分类器作为其应用以加深印象。
　　很多初学者刚接触神经网络的时候都会到网上找相关的介绍，看了很多数学原理之后还是云里雾里，然后会琢磨到底这个有什么用？怎么用？于是又到网上找别人写的代码，下下来之后看一眼发现代码写的很糟糕，根本就理不清，怎么看也看不懂，于是就放弃了。作为过来人，本人之前在网上也看过很多关于BP网络的介绍，也下载了别人实现的代码下来研究，原理都一样，但是至今为止没有看到过能令人满意的代码实现。于是就有了这篇文章，不仅有原理也有代码，对节点的高度抽象会让代码更有可读性。

CSDN博客编辑器终于可以编写数学公式了！第一次使用Markdown编辑器，感觉爽歪歪，latex数学公式虽然写起来麻烦，不过很灵活，排版也漂亮~在这里贴一个Markdown输入数学公式的教程http://ttang.name/2014/05/04/markdown-and-mathjax/很全的说！

BP网络的数学原理

　　下面将介绍BP网络的数学原理，相比起SVD的算法推导，这个简直就是小菜一碟，不就是梯度吗求个导就完事了。首先来看看BP网络长什么样，这就是它的样子：
　　这里写图片描述
为了简单起见，这里只介绍只有一个隐层的BP网络，多个隐层的也是一样的原理。这个网络的工作原理应该很清楚了，首先，一组输入

L (e) = 1 2 S S E = 1 2 \sum j = 0 k e 2 j = 1 2 \sum j = 0 k (

　　用什么方法最小化

\partial L \partial w 1 i j = \partial L \partial s 1 j \cdot \partial s 1 j \partial w 1 i j

s 1 j = \sum i = 1 m x i \cdot w 1 i j

\partial s 1 j \partial w 1 i j = x i

\partial L \partial w 1 i j = x i \cdot \partial L \partial s 1 j

\partial L \partial s 1 j = \sum i = 1 k \partial L \partial s 2 i \cdot \partial s 2 i \partial s 1 j

s 2 i = \sum j = 0 n θ (s 1 j) \cdot w 2 j i

\partial s 2 i \partial s 1 j = \partial s 2 i \partial θ ( s 1 j ) \cdot \partial θ ( s 1 j ) \partial

\partial L \partial s 1 j = \sum i = 1 k \partial L \partial s 2 i \cdot w 2 j i \cdot θ ' ( s 1

δ l i = \partial L \partial s l i

δ 1 j = θ' (s 1 j) \cdot \sum i = 1 k δ 2 i \cdot w 2 j i

δ 2 i = \partial L \partial s 2 i = \partial \sum k j = 0 1 2 (

δ 1 j = θ' (s 1 j) \cdot \sum i = 1 k δ 2 i \cdot w 2 j i

\partial L \partial w 1 i j = x i \cdot δ 1 j

\partial L \partial w 2 i j = \partial L \partial s 2 j \cdot \partial s 2 j \partial w 2 i j = δ

θ' (s) = θ (s) \cdot (1 - θ (s)) = S O u t \cdot (1 - S O u t)

θ' (s) = 1 - θ (s) 2 = 1 - S 2 O u t

BP网络算法实现

首先，单个神经元封装代码如下：

//NetworkNode.java
package com.jingchen.ann;

public class NetworkNode
{
    public static final int TYPE_INPUT = 0;
    public static final int TYPE_HIDDEN = 1;
    public static final int TYPE_OUTPUT = 2;

    private int type;

    public void setType(int type)
    {
        this.type = type;
    }

    // 节点前向输入输出值
    private float mForwardInputValue;
    private float mForwardOutputValue;

    // 节点反向输入输出值
    private float mBackwardInputValue;
    private float mBackwardOutputValue;

    public NetworkNode()
    {
    }

    public NetworkNode(int type)
    {
        this.type = type;
    }

    /**
     * sigmoid函数，这里用tan-sigmoid，经测试其效果比log-sigmoid好！
     * 
     * @param in
     * @return
     */
    private float forwardSigmoid(float in)
    {
        switch (type)
        {
        case TYPE_INPUT:
            return in;
        case TYPE_HIDDEN:
        case TYPE_OUTPUT:
            return tanhS(in);
        }
        return 0;
    }

    /**
     * log-sigmoid函数
     * 
     * @param in
     * @return
     */
    private float logS(float in)
    {
        return (float) (1 / (1 + Math.exp(-in)));
    }

    /**
     * log-sigmoid函数的导数
     * 
     * @param in
     * @return
     */
    private float logSDerivative(float in)
    {
        return mForwardOutputValue * (1 - mForwardOutputValue) * in;
    }

    /**
     * tan-sigmoid函数
     * 
     * @param in
     * @return
     */
    private float tanhS(float in)
    {
        return (float) ((Math.exp(in) - Math.exp(-in)) / (Math.exp(in) + Math
                .exp(-in)));
    }

    /**
     * tan-sigmoid函数的导数
     * 
     * @param in
     * @return
     */
    private float tanhSDerivative(float in)
    {
        return (float) ((1 - Math.pow(mForwardOutputValue, 2)) * in);
    }

    /**
     * 误差反向传播时，激活函数的导数
     * 
     * @param in
     * @return
     */
    private float backwardPropagate(float in)
    {
        switch (type)
        {
        case TYPE_INPUT:
            return in;
        case TYPE_HIDDEN:
        case TYPE_OUTPUT:
            return tanhSDerivative(in);
        }
        return 0;
    }

    public float getForwardInputValue()
    {
        return mForwardInputValue;
    }

    public void setForwardInputValue(float mInputValue)
    {
        this.mForwardInputValue = mInputValue;
        setForwardOutputValue(mInputValue);
    }

    public float getForwardOutputValue()
    {
        return mForwardOutputValue;
    }

    private void setForwardOutputValue(float mInputValue)
    {
        this.mForwardOutputValue = forwardSigmoid(mInputValue);
    }

    public float getBackwardInputValue()
    {
        return mBackwardInputValue;
    }

    public void setBackwardInputValue(float mBackwardInputValue)
    {
        this.mBackwardInputValue = mBackwardInputValue;
        setBackwardOutputValue(mBackwardInputValue);
    }

    public float getBackwardOutputValue()
    {
        return mBackwardOutputValue;
    }

    private void setBackwardOutputValue(float input)
    {
        this.mBackwardOutputValue = backwardPropagate(input);
    }

}

然后就是整个神经网络类：

//AnnClassifier.java
package com.jingchen.ann;

import java.util.ArrayList;
import java.util.List;

/**
 * 人工神经网络分类器
 * 
 * @author chenjing
 * 
 */
public class AnnClassifier
{
    private int mInputCount;
    private int mHiddenCount;
    private int mOutputCount;

    private List<NetworkNode> mInputNodes;
    private List<NetworkNode> mHiddenNodes;
    private List<NetworkNode> mOutputNodes;

    private float[][] mInputHiddenWeight;
    private float[][] mHiddenOutputWeight;

    private List<DataNode> trainNodes;

    public void setTrainNodes(List<DataNode> trainNodes)
    {
        this.trainNodes = trainNodes;
    }

    public AnnClassifier(int inputCount, int hiddenCount, int outputCount)
    {
        trainNodes = new ArrayList<DataNode>();
        mInputCount = inputCount;
        mHiddenCount = hiddenCount;
        mOutputCount = outputCount;
        mInputNodes = new ArrayList<NetworkNode>();
        mHiddenNodes = new ArrayList<NetworkNode>();
        mOutputNodes = new ArrayList<NetworkNode>();
        mInputHiddenWeight = new float[inputCount][hiddenCount];
        mHiddenOutputWeight = new float[mHiddenCount][mOutputCount];
    }

    /**
     * 更新权重，每个权重的梯度都等于与其相连的前一层节点的输出乘以与其相连的后一层的反向传播的输出
     */
    private void updateWeights(float eta)
    {
        //更新输入层到隐层的权重矩阵
        for (int i = 0; i < mInputCount; i++)
            for (int j = 0; j < mHiddenCount; j++)
                mInputHiddenWeight[i][j] -= eta
                        * mInputNodes.get(i).getForwardOutputValue()
                        * mHiddenNodes.get(j).getBackwardOutputValue();
        //更新隐层到输出层的权重矩阵
        for (int i = 0; i < mHiddenCount; i++)
            for (int j = 0; j < mOutputCount; j++)
                mHiddenOutputWeight[i][j] -= eta
                        * mHiddenNodes.get(i).getForwardOutputValue()
                        * mOutputNodes.get(j).getBackwardOutputValue();
    }

    /**
     * 前向传播
     */
    private void forward(List<Float> list)
    {
        // 输入层
        for (int k = 0; k < list.size(); k++)
            mInputNodes.get(k).setForwardInputValue(list.get(k));
        // 隐层
        for (int j = 0; j < mHiddenCount; j++)
        {
            float temp = 0;
            for (int k = 0; k < mInputCount; k++)
                temp += mInputHiddenWeight[k][j]
                        * mInputNodes.get(k).getForwardOutputValue();
            mHiddenNodes.get(j).setForwardInputValue(temp);
        }
        // 输出层
        for (int j = 0; j < mOutputCount; j++)
        {
            float temp = 0;
            for (int k = 0; k < mHiddenCount; k++)
                temp += mHiddenOutputWeight[k][j]
                        * mHiddenNodes.get(k).getForwardOutputValue();
            mOutputNodes.get(j).setForwardInputValue(temp);
        }
    }

    /**
     * 反向传播
     */
    private void backward(int type)
    {
        // 输出层
        for (int j = 0; j < mOutputCount; j++)
        {
            //输出层计算误差把误差反向传播，这里-1代表不属于，1代表属于
            float result = -1;
            if (j == type)
                result = 1;
            mOutputNodes.get(j).setBackwardInputValue(
                    mOutputNodes.get(j).getForwardOutputValue() - result);
        }
        // 隐层
        for (int j = 0; j < mHiddenCount; j++)
        {
            float temp = 0;
            for (int k = 0; k < mOutputCount; k++)
                temp += mHiddenOutputWeight[j][k]
                        * mOutputNodes.get(k).getBackwardOutputValue();
        }
    }

    public void train(float eta, int n)
    {
        reset();
        for (int i = 0; i < n; i++)
        {
            for (int j = 0; j < trainNodes.size(); j++)
            {
                forward(trainNodes.get(j).getAttribList());
                backward(trainNodes.get(j).getType());
                updateWeights(eta);
            }

        }
    }

    /**
     * 初始化
     */
    private void reset()
    {
        mInputNodes.clear();
        mHiddenNodes.clear();
        mOutputNodes.clear();
        for (int i = 0; i < mInputCount; i++)
            mInputNodes.add(new NetworkNode(NetworkNode.TYPE_INPUT));
        for (int i = 0; i < mHiddenCount; i++)
            mHiddenNodes.add(new NetworkNode(NetworkNode.TYPE_HIDDEN));
        for (int i = 0; i < mOutputCount; i++)
            mOutputNodes.add(new NetworkNode(NetworkNode.TYPE_OUTPUT));
        for (int i = 0; i < mInputCount; i++)
            for (int j = 0; j < mHiddenCount; j++)
                mInputHiddenWeight[i][j] = (float) (Math.random() * 0.1);
        for (int i = 0; i < mHiddenCount; i++)
            for (int j = 0; j < mOutputCount; j++)
                mHiddenOutputWeight[i][j] = (float) (Math.random() * 0.1);
    }

    public int test(DataNode dn)
    {
        forward(dn.getAttribList());
        float result = 2;
        int type = 0;
        //取最接近1的
        for (int i = 0; i < mOutputCount; i++)
            if ((1 - mOutputNodes.get(i).getForwardOutputValue()) < result)
            {
                result = 1 - mOutputNodes.get(i).getForwardOutputValue();
                type = i;
            }
        return type;
    }
}

Iris数据有三种类别，所以输出层会有三个节点，每个节点代表一种类别，节点输出1（具体根据所用激活函数的上界）则表示属于该类，输出-1（具体根据所用激活函数的下界）则表示不属于该类。
　　完整的代码已共享到github，地址：https://github.com/jingchenUSTC/ANN。用BP网络对Iris数据进行分类的准确率接近100%！

BP神经网络的数学原理及其算法实现

标签： 分类器神经网络

什么是BP网络

BP网络的数学原理

BP网络算法实现

标签：分类器神经网络