交叉熵

TensorFlow 实战（一）—— 交叉熵（cross entropy）的定义

原创 2017年03月11日 09:52:11

对多分类问题（multi-class），通常使用 cross-entropy 作为 loss function。cross entropy 最早是信息论（information theory）中的概念，由信息熵（information entropy，与压缩比率有关）变化而来，然后被用到很多地方，包括通信，纠错码，博弈论和机器学习等。交叉熵与信息熵的关系请见：机器学习基础（六）—— 交叉熵代价函数（cross-entropy error）。

在运作对 loss function 的定义时， $y$

H (y, y') = H y' (y) = - \sum i y' i log y i

$i$

H (y, a) = H y (a) = - (y log a + (1 - y) log (1 - a))

# y_ 真实输出值，y 预测值
y_ = tf.placeholder(tf.float32, [None, 10])
cross_ent = -tf.reduce_mean(tf.reduce_sum(y_*tf.log(y), reduce_indices=[1]))

预测值y是经过一系列的机器学习（深度学习）的算法得到（y_以预先 placeholder，占位），此时便可定义优化算法：

lr = 1e-4
train_step = tf.train.AdamOptimizer(lr).minimize(cross_ent)