学习笔记(9)- 对话生成:深度强化学习

对话生成:深度强化学习
Deep Reinforcement Learning for Dialogue Generation

强化学习的目的是:构建状态到行为的函数

当前状态、动作、奖励(惩罚)函数

原文地址:https://www.cnblogs.com/xuehuiping/p/12205396.html