人工智能数学参考---8、常用激活函数

人工智能数学参考---8、常用激活函数

一、总结

一句话总结：

Sigmoid函数：f(z)=1/(1+e^(-z))

tanh函数：tanh(x)=e^x-e^(-x)/(e^x+e^(-x))

Relu函数：Relu = max(0,x)

MaxOut函数：

1、什么是信息熵？

1、熵表示物体内部的混乱程度。（一件事发生的不确定性）

2、H(X)=- ∑ P(x)logP(x)

3、所有的概率值都是0-1之间，那么最终的H（X）必然也是一个正数啦！

2、信息熵的一个实例？

比如一个杂货市场，有100件不同的商品，每件物品选到的概率很低，那么H(X)=- ∑ P(x)logP(x) 对应的值就大，也就是不确定性高

3、熵是如何应用在分类任务中呢？

a、分类越好，熵值越小; 分类任务越不好，熵值越大，这个可以算的

b、比如分类[1,1,1,a,a,a,-,-,-]，如果3堆都是[1,a,-]，那么熵值就是3（3堆）3（每堆三种元素）1/3*log 1/3

4、激活函数的用途（为什么需要激活函数）？

没激励函数为线性：如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层节点的输入都是上层输出的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合

逼近任何函数：正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大（不再是输入的线性组合，而是几乎可以逼近任意函数）。

5、Sigmoid激活函数？

1、Sigmoid 是常用的非线性的激活函数

2、能够把连续值压缩到0-1区间上

3、缺点：杀死梯度，非原点中心对称

6、Sigmoid激活函数中杀死梯度和非原点中心对称导致的问题是什么？

a、输出值全为整数会导致梯度全为正或者全为负

b、优化更新会产生阶梯式情况，收敛效果慢

7、Tanh激活函数？

A、原点中心对称

B、输出在-1到1之间

C、梯度消失现象依然存在

8、Relu激活函数？

1、Relu激活函数解决了梯度消失现象，计算速度更快

2、因为Relu函数是max(0,x)，所以会杀死一部分神经元

3、解决Relu函数杀死神经元问题：max(0.01x,x)

二、内容在总结中

博客对应课程的视频位置：

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处

一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

人工智能群：939687837

作者相关推荐

感悟总结

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Renyi-Fan/p/13205926.html