学习笔记(9)- 对话生成:深度强化学习 对话生成:深度强化学习 Deep Reinforcement Learning for Dialogue Generation 强化学习的目的是:构建状态到行为的函数。 当前状态、动作、奖励(惩罚)函数