最大熵模型（MEM）

1. 最大熵原理

最大熵Max Entropy原理：学习概率模型时，在所有可能的概率模型（即概率分布）中，熵最大的模型是最好的模型。
- 通常还有其他已知条件来确定概率模型的集合，因此最大熵原理为：在满足已知条件的情况下，选取熵最大的模型。
- 在满足已知条件前提下，如果没有更多的信息，则那些不确定部分都是“等可能的”。而等可能性 通过熵最大化来刻画。
最大熵原理选取熵最大的模型，而决策树的划分目标选取熵最小的划分。原因在于：
- 最大熵原理认为在满足已知条件之后，选择不确定性最大（即：不确定的部分是等可能的）的模型。也就是不应该再施加任何额外的约束。
  
  因此这是一个求最大不确定性的过程，所以选择熵最大的模型。
- 决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性，最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程，所以选取熵最小的划分。

2. 最大熵模型

我们都是小怪兽，总有一天，会被正义的奥特曼杀死。