CS294-112 深度强化学习秋季学期（伯克利）NO.9 Learning policies by imitating optimal controllers

CS294-112 深度强化学习秋季学期（伯克利）NO.9 Learning policies by imitating optimal controllers

make compromise between learnt policy and minimal cost！

π hat is using states

π theta is using observations

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/ecoflex/p/9097988.html