强化学习学习笔记（第一章）

强化学习与常见机器学习方法的区别：

　　1、有监督学习：

　　　　有监督学习是从外部监督者提供的带标注的训练集当中进行学习，这种学习方式是为了让系统具有推断或泛华的能力。

　　2、无监督学习：

　　　　无监督学习是一个典型的寻找未标注的数据中的隐含结构的问题。

　　3、强化学习：

　　　　强化学习是一种对目标导向的学习与决策进行理解和自动化处理的方法，强化学习带来了一个独有的挑战： “试探与开发”之间的折中权衡。相比其它两个方法，强化学习关注智能体与不确定环境交互这整个问题，之前的机器学习算法没有明确说关系是怎么发挥作用的。

　　强化学习的训练信号是用来评估给定动作的好坏，机器学习是通过给出正确动作的范例来进行直接的指导。

强化学习的要素：

　　策略、收益信号、价值函数、对环境建立的模型（可选）

强化学习与进化算法的区别（爬山法，遗传算法）

　　以下井字棋为例，评估策略的进化方法需要固定一个策略并且和对手博弈多次，或者与对手的仿真模型进行大量模拟博弈，获胜的频率是对该策略获胜概率的无偏估计，可以指导下一次的策略选择。但每一次策略的改变都基于很多次博弈，只有每局比赛最后的结果会被考虑，博弈中间发生的事情将被忽略。进化方法以完整策略的反复评估为引导对策略空间进行直接搜索。

　　基于价值函数的方法允许我们对单个状态进行评估。

　　进化方法和价值函数方法都是对策略空间进行搜索，但是学习价值函数的过程利用了博弈过程中的可用信息。

强化学习的核心：

　　相比于调整动作和研究任务特性来说，更重要的还是与环境的交互。

　　用一句话来加深理解：《实践论》的精髓是（智能体）要实际参与革命实践（与环境交互），才能掌握真理。反过来说，《实践论》其实有强化学习理论作为科学逻辑。