马尔科夫模型（Markov）（MDP）

马尔科夫模型主要元素有3个部分状态，动作，奖励。

对奖励的设置一定慎重，并且深谋远虑。如下图右侧：

绿色方块是生红色方块是死，游戏目的是使agent尽快到达绿色方块。

1：动作奖励正数过高，会使agent一直在方格世界里兜圈子，不想出去。因为这样每多走一步，都会获得正的奖励。

2：动作奖励负数过高，会使agent尽快想逃离这个世界，甚至直接走向红色方块，选择自杀。因为每一步损失都是巨大的，只能以最快的方式结束游戏。

奖励：代表着即时奖励和即时反馈

效用：代表长期奖励和长期反馈。

比如现在拿100块钱做投资，在一段时间过后得到了1000块。

这里的奖励是：负100块，效用是 1000块。

效用会影响当前的行动，效用非常高时，即使当前的奖励是负数的，依然继续下去。

　　　　　　　　　　　效用非常低时，即使当前看起来奖励很高，依然会停止行动。

真实效用：最优策略的效用，称为真实效用。

状态效用：在该状态获得的奖励+这个点上获得的所有奖励的折扣值