DRL Lecture1:Policy Gradient

课程笔记来源：李宏毅老师强化学习

强化学习定义：

　　　　　　在实现上，强化学习是一个通过多个轮次逐渐优化算法的参数，从而增强学习的效果，每个轮次包含两个部分：前向反馈和反向椽笔，处于初始状态的主体根据根据算法的当前参数生成动作作用于环境，环境返回给主体根据算法的当前参数生成动作作用于环境，环境返回给主体新的状态和对动作的奖励，在轮次结束后算法通过汇总所有在本轮收集到的反馈调整算法的参数开始下一轮的学习，直到学习的效果不再增强。

Policy of Actor

Policy pi is a network with parameter theta

Input:the observation of machine represented as a vecor or a matrix

Output:each action corresponds to a neuron in input layer

Take the action based on the propability