强化学习:matlab官方文件理解(无代码)

                                  1.强化学习与传统控制流程对比

传统控制流程:
强化学习流程:
reference:控制量(一般是根据某个性能指标进行控制:比如滑移率)。
Part of reward function and observations:部分R、部分S,输入Agent( Agent = RL algorithm+policy)
controller:采用某种控制算法对reference的量进行控制,使之收敛(经典控制理论PID/现代控制理论(State Space Model)/MPC/智能控制算法)。
Policy:策略,是强化学习算法中每一步迭代更新的输出量。
Actuator commands:(控制器发出的)控制量(比如制动力矩)。
Actions:Agent的输出,作用于Environment。注意Action是具体的动作,决策a=Π(s)或Π(a|s)是指在某个状态下做什么样的动作,这两个是有区别的。
plant:实体/执行器。
Environment:属于环境的一部分。
State feedback:反馈信号,构成闭环控制。
Observation:可观测的状态变量S。

                             2.强化学习5个步骤

Step1:创建环境,这个环境能够给出奖励R和状态变量S
Step2:设计奖励函数Reward(根据所研究的问题设计奖励项与惩罚项)
Step3:设计策略(?)
Step4:选择一种优化算法,对模型进行训练,迭代得到最优值
Step5:具体应用于某个问题

                    3.强化学习的"环境"概念理解

         4. 强化学习“代理”和“环境”的输入输出关系

问题:
1.强化学习=> 马尔可夫决策:满足马尔科夫假设,给时序数据给定了一定假设,随机变量的时序性,那么价值函数中包含时间信息,回溯图可以体现时间,那马尔科夫决策过程示意图可以体现时间么,还是说时间在价值函数和回报中体现了?
2.Reward如何设定? 越接近你想要的目标,奖励越高;越远离目标,惩罚越高。
3.强化学习就是“寻找最优决策”的过程。通过寻找 最优状态/状态动作价值函数,得到Π*,本质是一个最优化问题。
Π*=argmaxQΠ(s,a)。
迭代求解Π,直到Π收敛,得到最好的价值函数,也是最好的决策Π。
4.matlab,simulink, reinforcement learning toolbox
5.实际用强化学习/HMM/GMM/贝叶斯网络/深度神经网络解决一个问题。

参考资料:
1.Matlab 官方指导reinforcement learning toolbox: https://ww2.mathworks.cn/products/reinforcement-learning.html
2.
https://www.cnblogs.com/dingdangsunny/p/12559616.html#_label1_1

原文地址:https://www.cnblogs.com/feynmania/p/13392384.html