softmax

关于多分类

我们常见的逻辑回归、SVM等常用于解决二分类问题，对于多分类问题，比如识别手写数字，它就需要10个分类，同样也可以用逻辑回归或SVM，只是需要多个二分类来组成多分类，但这里讨论另外一种方式来解决多分类——softmax。

关于softmax

softmax的函数为

$P (i) = \frac{e x p (θ_{i}^{T} x)}{\sum_{k = 1}^{K} e x p (θ_{k}^{T} x)}$

可以看到它有多个值，所有值加起来刚好等于1，每个输出都映射到了0到1区间，可以看成是概率问题。

$θ_{i}^{T} x$

如何多分类

从下图看，神经网络中包含了输入层，然后通过两个特征层处理，最后通过softmax分析器就能得到不同条件下的概率，这里需要分成三个类别，最终会得到y=0、y=1、y=2的概率值。

这里写图片描述

继续看下面的图，三个输入通过softmax后得到一个数组[0.05 , 0.10 , 0.85]，这就是soft的功能。

这里写图片描述

计算过程直接看下图，其中 $z_{i}^{L}$

这里写图片描述

代价函数

对于训练集 ${(x^{(1)}, y^{(1)}), . . ., (x^{(m)}, y^{(m)})}$

$h_{θ} (x^{(i)}) = [\begin{matrix} p (y^{(i)} = 1 | x^{(i)}; θ) \\ p (y^{(i)} = 2 | x^{(i)}; θ) \\ ⋮ \\ p (y^{(i)} = k | x^{(i)}; θ) \end{matrix}] = \frac{1}{\sum_{j = 1}^{k} e^{θ_{j}^{T} \cdot x^{(i)}}} [\begin{matrix} e^{θ_{1}^{T} \cdot x^{(i)}} \\ e^{θ_{2}^{T} \cdot x^{(i)}} \\ ⋮ \\ e^{θ_{k}^{T} \cdot x^{(i)}} \end{matrix}]$

softmax的代价函数定为如下，其中包含了示性函数 $1 {j = y^{(i)}}$

$J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y^{(i)} = j} \cdot l o g (p (y^{(i)} = j | x^{(i)}; θ))]$

其中， $p (y^{(i)} = j | x^{(i)}; θ) = \frac{e x p (θ_{i}^{T} x)}{\sum_{k = 1}^{K} e x p (θ_{k}^{T} x)}$

$J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} \sum_{j = 1}^{k} 1 {y^{(i)} = j} \cdot (θ_{j}^{T} x^{(i)} - l o g (\sum_{l = 1}^{k} e^{θ_{l}^{T} \cdot x^{(i)}}))]$

一般使用梯度下降优化算法来最小化代价函数，而其中会涉及到偏导数，即 $θ_{j} := θ_{j} - α δ_{θ_{j}} J (θ)$

$\frac{\nabla J (θ)}{\nabla θ_{j}} = - \frac{1}{m} \sum_{i = 1}^{m} [\frac{\nabla \sum_{j = 1}^{k} 1 {y^{(i)} = j} θ_{j}^{T} x^{(i)}}{\nabla θ_{j}} - \frac{\nabla \sum_{j = 1}^{k} 1 {y^{(i)} = j} l o g (\sum_{l = 1}^{k} e^{θ_{l}^{T} \cdot x^{(i)}}))}{\nabla θ_{j}}]$

$= - \frac{1}{m} \sum_{i = 1}^{m} [1 {y^{(i)} = j} x^{(i)} - \frac{\nabla \sum_{j = 1}^{k} 1 {y^{(i)} = j} \sum_{l = 1}^{k} e^{θ_{l}^{T} \cdot x^{(i)}}}{\sum_{l = 1}^{k} e^{θ_{l}^{T} \cdot x^{(i)}} \nabla θ_{j}}]$

$= - \frac{1}{m} \sum_{i = 1}^{m} [1 {y^{(i)} = j} x^{(i)} - \frac{x^{(i)} e^{θ_{j}^{T} \cdot x^{(i)}}}{\sum_{l = 1}^{k} e^{θ_{l}^{T} \cdot x^{(i)}}}]$

$= - \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} [1 {y^{(i)} = j} - p (y^{(i)} = j | x^{(i)}; θ)]$

得到代价函数对参数权重的梯度就可以优化了。

使用场景

在多分类场景中可以用softmax也可以用多个二分类器组合成多分类，比如多个逻辑分类器或SVM分类器等等。该使用softmax还是组合分类器，主要看分类的类别是否互斥，如果互斥则用softmax，如果不是互斥的则使用组合分类器。