学习日志-2021.10.13

记录一下项目

参考之前运行的项目，将算法运用到这个游戏中。

项目描述
- 红色代表小鸟
- 黑色方块组成柱子
- 状态表示：以柱子缺口底部右侧的黑色方块为坐标原点，与当前小鸟坐标的差值 ((Δx,Δy)) 表示一个状态。
- 行为
  - 飞一下：小鸟向上移动一格
  - 什么也不做：往下掉一格
- 奖励设置
  - 小鸟存活一帧奖励为1，通过一根柱子奖励为10
  - 小鸟撞到柱子上奖励为-100
- Q表更新算法：Q-learning、Sarsa
效果（Sarsa）
- 迭代1000轮
- 迭代2000轮
- 迭代5000轮
结论
- 随着迭代次数的提升，小鸟在一轮游戏中的存活时间会越来越久；
- 在这种简单的游戏中Q-learning的效果会比Sarsa好一些，Sarsa算法可能比较适用于作为复杂环境下的强化学习迭代方式。