【联系】二项分布的对数似然函数与交叉熵（cross entropy）损失函数

1. 二项分布

二项分布也叫 0-1 分布，如随机变量 x 服从二项分布，关于参数 μ（0≤μ≤1），其值取 1 和取 0 的概率如下：

{p (x = 1 | μ) = μ p (x = 0 | μ) = 1 - μ

则在 x 上的概率分布为：

Bern (x | μ) = μ x (1 - μ) 1 - x

给定样本集 D={x1,x2,…,xB} 是对随机变量 x 的观测值，假定样本集从二项分布 p(x|μ) 中独立（p(x1,x2,…,xN)=∏ip(xi)）采样得来，则当前样本集关于 μ 的似然函数为：

p (D | μ) = \prod n = 1 N p (x n | μ) = \prod n = 1 N μ x n (1 - μ) 1 - x n

从频率学派的观点来说，通过最大似然函数的取值，可以估计参数 μ，最大化似然函数，等价于最大化其对数形式：

则有：

ln p (D | μ) = = = ln μ \sum n = 1 N x n + ln (1 - μ) \sum n = 1 N 1 - x n ln μ \sum n = 1 N x n + ln (1 - μ) (N - \sum n = 1 N x n) \sum n = 1 N x n ln μ + (1 - x n) ln (1 - μ)

求其关于 μ 的导数，解得 μ 的最大似然解为：

μ M L = 1 N \sum n = 1 N x n

这里我们仅关注：

ln P (D | μ) = \sum n = 1 N x n ln μ + (1 - x n) ln (1 - μ)

L H (x, z) = - \sum n = 1 N x n log z n + (1 - x n) log (1 - z n)

x 表示原始信号，z 表示重构信号。（损失函数的目标是最小化，似然函数则是最大化，二者仅相差一个符号）。