马尔可夫决策过程随笔

工作中发现当前确定性的规划决策方法已经无法应对城市交通环境下的高度不确定性事件,需要寻找不确定性环境下的决策规划算法,首先想到的是强化学习,而马尔可夫决策过程是强化学习的基础,在网上搜索到了bolei zou的教学视频,地址如下:youtube.com/watch?v=6yE9XiIB3hQ&list=PLySQw_vQ73PyDY68KF0HdCzcILBoHVTvD&index=3,预计两周时间学习完成。

原文地址:https://www.cnblogs.com/rulin/p/13917338.html