Algorithms for Inverse Reinforcement Learning

v [source] ICML

[year] 2000

设计人员只有粗线的概念而不能形成一个良好的回馈函数时

希望能通过一些最优情况找回代价函数

1. MDPs 在之前一篇博文中讲过了

Q函数

2.IRL in Finite State Spaces

归为优化

这个优化的形式，使最小中的最大，不由让人想到SVM（事实的确有这样一篇文章）

3. Linear Function Approximation in Large State Spaces

R(s) =\Sum_{i=1}^{d} \alpha_i \phi_i(s)

4. IRL from Sampled Trajectories

此时已经有若干最优轨迹

结论：有搞头！