熵的简单解释（科班同学勿入）

个人理解，专业人士笑一下就好了。

熵越小，信息量越大，越不稳定。举个例子，公司年会抽奖，假设有四个球ABCD，只有一个球是10万元现金奖。负责抽奖系统的是吃喝玩乐的狗肉朋友。

（1）朋友偷偷的告诉你：A的中奖概率25%，B的中奖概率25%，C的中奖概率25%，D的中奖概率25%。这朋友是不是太不厚道哦？为啥？

朋友提供的信息，惊喜度很小，也就是分布非常稳定，信息量很少（和没说一样），这个时候给出的信息很混乱，完全没有确定度，也就是熵值很大。

（2）朋友说：A的中奖概率1%，B的中奖概率1%，C的中奖概率97%，D的中奖概率1%

狗肉没有白吃呀：信息量巨大，熵值接近0。

熵的减小代表着进化，同时需要外界能量介入。熵最初是在热力学出现的，现在也用于很多领域。

据说华为任正非很喜欢熵理论，有本书：《熵减：华为活力之源华为内训书系》推荐大家看看。

再从数学上解释熵：

公式：

假设有5个数据：true,false,true,false,true

上面有3个true（比例0.6），2个false（比例0.4），则数据集的熵值：

- 0.6 * log(0.6)/log(2) - 0.4 * log(0.4)/log(2) = 0.9709505944546686

这个熵值有些大了，除以log是底数为e的缘故，转为log2

再看看：（下面的l函数就是log函数），以下求单类数据的信息值：

-0.01 * l(0.01)/l(2) = .06643856189774724695

-0.1 * l(0.1)/l(2) = .33219280948873623478

-0.2 * l(0.2)/l(2) = .46438561897747246957

-0.4 * l(0.4)/l(2) = .52877123795494493914

-0.6 * l(0.6)/l(2) = .44217935649972369984

-0.99 * l(0.99)/l(2) = .01435457399816392585

函数图像：