强化学习简介

  • 不理解环境(Model-Free RL)
    • Q Learning
    • Sarsa
    • Policy Gradients
  • 理解环境

基于概率

基于价值

原文地址:https://www.cnblogs.com/rise0111/p/11425941.html