增强学习--介绍

Reinforcement Learning

一些说明:

学习增强学习整理的资料,所以纯粹为了学习和回顾!

感觉特别有用的是金溆林整理的系列,博客理论部分直接放链接了,打公式真的太麻烦了,或许以后有空在整理。

代码也只放了核心部分,和上面的理论一起看慢慢理解。

全部可运行的代码在github

MDP(马尔科夫过程)

策略迭代

值迭代

蒙特卡洛方法

sarsa算法

q-learning算法

Deep Q Network(DQN)

DQN的变形

Policy Gradient(Reinforce算法)

Actor Critic

DDPG

A3C

TRPO

PPO/DPPO

 

原文地址:https://www.cnblogs.com/buyizhiyou/p/9714472.html