P7 第三章概率论和信息论

离散型随机变量对应着机器学习里面的分类问题。

连续型随机变量对应着机器学习里面的回归问题。

3.中的第一行解释：Y=b的所有情况都加起来。

互斥事件：掷骰子，出现3点和出现6点是互斥事件。

相互独立事件：明天会不会下雨和小明此时有没有在玩电脑游戏。这两个事件是相互独立的，这两件事情之间没有关系。它们同时发生的概率是这两件事情单独发生的概率的乘积。

通过这个公式实现了条件概率的交换。左边是B事件发生的条件下A事件发生的概率。右边含有A事件发生的条件下B事件发生的概率。

Pc是先验概率，就是通过大范围的调查和采样可以获取的概率。P(c|x)是后验概率，贝叶斯公式就是根据先验概率、似然概率和证据因子来求后验证概率。

伯努利分布：

sigmoid函数：四个贸易的sigmoid()函数的作用是把任何的一个输入变成一个0-1之间的概率值。

公式3.48：对一个概率先求对数，然后再加上一个负号。概率值越接近于零，它的值就越大。