softmax和sigmoid实际上都是属于logistic regression,sigmoid是二分类的lr,拟合Bernoulli distribution(二项分布);0softmax是多分类的lr,拟合Multinomial distribution(多项分布)。
sigmoid函数可以很好地处理二分类问题:当概率值大于 0.5 时,我们认为该样本属于类 ‘1’,而当概率值小于 0.5 时,我们认为该样本属于类 ‘0’。
softmax和sigmoid都可以做激活函数。
二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然;
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。
最大熵原理其实就是相对熵或者说交叉熵的原理