LQR和iLQR、DDP

LQR直接通过backward和forward 过程给出最控制率和轨迹，而iLQR初始化一条轨迹，然后用LQR动态优化这条轨迹，直到找到最优解；

LQR是在环境线性化模型、cost function二次型情况下进行的，可能不能表示真是环境的情况；

于是，近似于数值优化中的思路，iLQR是将环境一阶线性化，cost function 二阶泰勒近似，然后利用LQR求极值，在新极值的条件下，
再次将环境一阶线性化，cost function 二阶泰勒近似，求极值，指导损失函数收敛；

DDP和iLQR的不同是将环境也进行二阶泰勒近似；

存在问题：
1、二阶近似在有些点可能不准确，求得新极值点cost function值不降反增，需要使用linear search 来进行约束；
2、hessian矩阵可能不正定，需要正则化。

坚持