Algorithms for Inverse Reinforcement Learning

v [source] ICML

[year] 2000

设计人员只有粗线的概念而不能形成一个良好的回馈函数时

希望能通过一些最优情况找回代价函数

1. MDPs 在之前一篇博文中讲过了

Q函数

2.IRL in Finite State Spaces

归为优化

这个优化的形式,使最小中的最大,不由让人想到SVM(事实的确有这样一篇文章)

3. Linear Function Approximation in Large State Spaces

R(s) =\Sum_{i=1}^{d} \alpha_i \phi_i(s)

4. IRL from Sampled Trajectories

此时已经有若干最优轨迹

结论:有搞头!

原文地址:https://www.cnblogs.com/justin_s/p/2072405.html