强化学习

模型从一无所知，到成为该领域的专业人士，又凭借其强大的计算能力，远远地甩开人类该领域的顶尖大师，模型能够学习规则和行为在于其背后有一个“好老师”，这位老师的使命不是上课，告知机器该怎么做，而是对机器的行为（policy network）进行打分和评判（value network），这样机器会记录如下：

（高分区：高分，取得高分对应的行为）：努力取得高分；
（低分区：低分，哪些行为容易取得低分）：竭力避免低分；

这样才能使机器的每一步选择都比较理想（分数导向性，类似于监督学习的标签数据），强化学习不同于监督学习的根本之处在于，强化学习不需要事先提供标记好的数据，它是通过一次次在环境中的尝试来获取数据和标签。

1. 强化学习方法

对所处环境有无理解将全部的强化学习方法分为：
- 不理解环境：Model-free RL
  - Q learning
  - Sarsa
  - Policy Gradients
- 理解环境：Model-based RL，较之 Model-free 只是多了一道工序，为现实世界建模；
基于概率还是基于价值：
- Probability-based RL：未必固定，连续；
  - Policy Gradients
- Value-based RL：比较固定，不连续；
  - Q Learning
  - Sarsa
- Actor-Critic：二者的结合，先获取概率，再对概率对应的决策进行打分；
根据更新方式：
- 回合更新（Monte-carlo Update）：游戏开始，游戏结束，也即需要等待游戏的结束，才进行更新；
- 单步更新（Temporal-difference Update）：不必等待游戏的结束，边玩游戏，边学习；
是否在线：
- on-policy
- off-policy：
  - Q-learning
  - Deep Q Network