强化学习(1)----简

1、介绍:强化学习是什么?

假定一个智能体(agent),在一个未知的环境(environment)中处于当前状态(state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

解决实际问题:明天去打球还是学习?(分类问题)

如果打球(惩罚 -1),如果学习(奖励 +1)。

2、强化学习方法汇总:

 

3、强化学习包含:

  • 智能体(agent)
  • 状态(state)
  • 行为(action)
  • 奖励(reward)
  • 策略(policy)

 4、马尔科夫链(MDP):

 

5、强化学习:

当前价值Q = r【当前奖励】+γ【折扣因子】*max(下一步价值)

原文地址:https://www.cnblogs.com/Lee-yl/p/9649247.html