学习日志-2021.10.09

学习日志-2021.10.09

今日主要内容：

成功运行两个sarsa算法相关的项目(用于路径规划)：

项目地址

每轮迭代：Agent走到障碍物上或到达目标。
- RL_Sarsa_E1(小地图)：
  
  迭代1000轮后，自己寻找路径的结果
- RL_Sarsa_E2(大地图)：
  
  跑了快一个小时。。。。（迭代6000轮）
  
  与项目地址Q-Learning算法示例结果不同，应该是算法差异造成的。
解析项目基本结构：
- 学习模块
  - 初始化参数（动作空间、学习率、折扣率、ε等）
  - 选择动作（策略函数）
  - 学习函数（此处应用Sarsa算法，用于更新Q表；此处应该还另外添加了一个Q表状态的查询，若目前状态不存在于Q表，则将该状态加入Q表）
- 环境模块
  - 初始化环境（迷宫大小、障碍设置）
  - 接受Agent的动作（返回新的状态和奖励）
- 运行模块
  - 将前面两个模块连贯起来（负责显示画面，判断是否达到结束状态，输出最终结果）
后续实现可能会参考以上的算法，具体的应用想去实现小鸟飞行的例子（简单）。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/SilentSamsara/p/15387986.html