Softmax回归

Softmax回归属于多分类 $c_{1}, c_{2}, \dots, c_{k}$ 模型，它通过估计某个样本属于 $k$ 个类别的各自的概率达到多分类的目的。它是逻辑回归的一般形式，即当 $k = 2$ 的时候退化为逻辑回归。

一、Softmax回归详解

1.1 让步比

由于softmax回归更多的是逻辑回归的多分类形式，此处只给出softmax的定义及公式。
让步比可以理解成有利于某一特定事件的概率，可以定义为

\frac{p}{1 - p}

在已知二分类问题的情况下每个分类的概率分别为 $\hat{y_{i}}$ 和 $1 - \hat{y_{i}}$ ，可以定义logit函数，即让步比的对数形式（log-odds）为

\begin{aligned} (1) & \log i t (\hat{y_{i}}) & = \log \frac{p (y = 1 | x, ω)}{p (y = 0 | x, ω)} \\ (2) & = \log \frac{\hat{y_{i}}}{1 - \hat{y_{i}}} \\ (3) & = \log \frac{\frac{1}{1 + e^{- ω^{T} x}}}{\frac{- ω^{T} x}{1 + e^{- ω^{T} x}}} \\ (4) & = ω^{T} x \end{aligned}

其中 $\log i t (p)$ 函数等于事件发生的概率除以不发生的概率取对数，即表示特征值和对数概率之间的线性关系。

1.2 不同类之间的概率分布

现在假设有一个 $k$ 元分类模型，即样本的输出值为 $c_{1}, c_{2}, \dots, c_{k}$ ，对于某一个实例预测为 $c_{i}$ 样本的概率总和为 $1$ ，即

\sum_{i = 1}^{k} p (y = i | x, ω) = 1

该 $k$ 元分类模型依据让步比的对数形式可以得到

\begin{aligned} (5) & \ln \frac{p (y = 1 | x, ω)}{p (y = k | x, ω)} = ω_{1}^{T} x \\ (6) & \ln \frac{p (y = 2 | x, ω)}{p (y = k | x, ω)} = ω_{2}^{T} x \\ (7) & \dots \\ (8) & \ln \frac{p (y = k - 1 | x, ω)}{p (y = k | x, ω)} = ω_{k - 1}^{T} x \\ (9) & \ln \frac{p (y = k | x, ω)}{p (y = k | x, ω)} = ω_{k}^{T} x = 0 \end{aligned}

通过对上述公式化简可得

\begin{aligned} (10) & \frac{p (y = 1 | x, ω)}{p (y = k | x, ω)} = e^{ω_{1}^{T} x} \\ (11) & \frac{p (y = 2 | x, ω)}{p (y = k | x, ω)} = e^{ω_{2}^{T} x} \\ (12) & \dots \\ (13) & \frac{p (y = k - 1 | x, ω)}{p (y = k | x, ω)} = e^{ω_{k - 1}^{T} x} \end{aligned}

\begin{aligned} (14) & e^{ω_{1}^{T} x} + e^{ω_{1}^{T} x} + \dots + e^{ω_{k - 1}^{T} x} & = \sum_{i = 1}^{k - 1} e^{ω_{i}^{T} x} \\ (15) & = \frac{p (y = 1 | x, ω)}{p (y = k | x, ω)} + \frac{p (y = 2 | x, ω)}{p (y = k | x, ω)} + \dots + \frac{p (y = k - 1 | x, ω)}{p (y = k | x, ω)} \\ (16) & = \frac{p (y = 1 | x, ω) + p (y = 2 | x, ω) + \dots + p (y = k - 1 | x, ω)}{p (y = k | x, ω)} \\ (17) & = \frac{1 - p (y = k | x, ω)}{p (y = k | x, ω)} \end{aligned}

既得 $p (y = k | x, ω) = \frac{1}{1 + \sum_{i = 1}^{k - 1} e^{ω_{i}^{T} x}}$

通过 $p (y = k | x, ω)$ 即可推出 $p (y = j | x, ω) = \frac{e^{ω_{j}^{T} x}}{1 + \sum_{t = 1}^{k - 1} e^{ω_{t}^{T} x}} j = 1, 2, \dots, k - 1$ ，因此可以得到 $k$ 元分类模型的 $k$ 个类的概率分布为

p (c = k | x, ω) = {\begin{cases} \frac{e^{ω_{j}^{T} x}}{1 + \sum_{t = 1}^{k - 1} e^{ω_{t}^{T} x}} j = 1, 2, \dots, k - 1 i f 类 别 为 1, 2, \dots, k - 1 \\ \frac{1}{1 + \sum_{i = 1}^{k - 1} e^{ω_{i}^{T} x}} i f 类 别 为 k \end{cases}

1.3 目标函数

上一节基于 $ω_{k}^{T} x = 0$ 计算出每个分类的概率，然而现实中往往 $ω_{k}^{T} x \neq 0$ ，可以使用上一节的推导过程假设 $ω_{k}^{T} x \neq 0$ 则可以推导出 $k$ 元分类模型的 $k$ 个类的概率分布为

p (c = k | x, ω) = \frac{e^{ω_{j}^{T} x}}{\sum_{t = 1}^{k} e^{ω_{t}^{T} x}} j = 1, 2, \dots, k

通过上述 $k$ 个类别的概率分布可得似然函数

\begin{aligned} (18) & L (ω) & = \prod_{i = 1}^{m} \prod_{k = 1}^{k} p (c = k | x_{i}, ω)^{{y_{i}}_{k}} \\ (19) & = \prod_{i = 1}^{m} \prod_{k = 1}^{k} (\frac{e^{(ω_{k}^{T} x_{i})}}{\sum_{t = 1}^{k} e^{ω_{t}^{T} x_{i}}})^{y_{i} k} \end{aligned}

通过似然函数即可得对数似然函数即目标函数（注：该目标函数与交叉熵损失函数的形式一致，二元逻辑回归可以理解为交叉熵损失函数两个类变量的特殊形式，Softmax回归可以理解成交叉熵损失函数的多个类变量的特殊形式，交叉熵为

\begin{aligned} (20) & J_{m} (ω) & = \log L (ω) \\ (21) & = \sum_{i = 1}^{m} \sum_{k = 1}^{k} {y_{i}}_{k} (ω_{k}^{T} x_{i} - \log \sum_{t = 1}^{k} e^{(ω_{t}^{T} x_{i})}) \end{aligned}

1.4 目标函数最大化

由于Softmax回归和逻辑回归都可以使用梯度上升法使得目标函数最大化，并且方式一样，因此此处只给出目标函数对参数的偏导。

\frac{\partial J (ω)}{\partial ω_{k}} = \sum_{i = 1}^{m} ({y_{i}}_{k} - p ({y_{i}}_{k} | x_{i}, ω_{k})) x_{i}

二、Softmax回归优缺点

2.1 优点

基于模型本身可以处理多分类问题

2.2 缺点

计算极其复杂

$2^{2}$