增强学习

1. pip install gym

可以看到，增强学习和监督学习的区别主要有以下两点：

1. 增强学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。

2. 延迟回报，增强学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。

上篇我们提到增强学习学到的是一个从环境状态到动作的映射（即行为策略），记为策略π: S→A。而增强学习往往又具有延迟回报的特点: 如果在第n步输掉了棋，那么只有状态s_n和动作a_n获得了立即回报r(s_n,a_n)=-1，前面的所有状态立即回报均为0。所以对于之前的任意状态s和动作a，立即回报函数r(s,a)无法说明策略的好坏。因而需要定义值函数(value function，又叫效用函数)来表明当前状态下策略π的长期影响。

价值函数:第二行有错误多写了一个γ.

当一个策略取定,就是说Si,ai 这个数组取定.那么拟合下面这个等比函数.

其中r_i表示未来第i步回报，

PageRank算法简介

http://blog.jobbole.com/71431/

1.基本方法是矩阵不停的乘法,一直到收敛

2.利用加个概率来更改迭代公式即可解决终止点问题和陷阱问题.

重新学机器学习:

https://blog.csdn.net/supercally/article/details/54754787

https://blog.csdn.net/Young_Gy/article/details/73485518

这里面的max是对a'来取得.因为s'已经取定了.

●对于bellman公式的理解.

这个Q表是2维的,行表示s取值,列表示a取值.

为什么是这个公式:r表示原来的Q(s,a),max(Q(s',a'))表示s'状态的最大价值.用这个价值来表示s'状态的价值.(这么做是合理的,

因为我们的决策是每一步按照百分之90的概率选最大的action.所以这个最大价值来替换价值是几乎必然事件).

所以他也就是Q(s,a)这一步走完会获得的reward.

●这个γ如果取1.那么根据决策一步一步迭代下去,更新完Q(s,a)之后就百分之90概率更新Q(s',a')百分之10概率更新一个randomQ(s',a)

把多步写一起就得到Q(s,a)=r+max(Q(s1,a1))+...+max(Q(s10,a10)).这种做法显然有问题.

因为Q(s9,a9)=r!+max(Q(s10,a10)),比如s10就是终点,给100分.那么第一次跑Q(s9,a9)就是100.因为初始值是0.

从而Q(s,a)基本是1000.但是如果问题非常大,跑了1万步才到,那么Q(s,a)就会非常大.溢出不溢出先不说,这种怎么大的数对于Q矩阵的含义

就会发生扭曲,跟我们原本的Q矩阵建立本质是冲突的.

ps:γ取0.显然不合理啊.那还学个屁.一直Q表都不动.

所以一般我们取γ是0.9

●双盘心得:其实腿越接近胸,越简单,可以用这个方法练习.双盘对神经练习非常爽.

头发:早睡,11点必须睡,想玩早上早起玩.不然总是枕头上有头发茬.

　发现没事别上高速,挂率很高,不如做高铁