【KDD2019论文】基于深度价值网络的多司机智能派单模型 阅读笔记

强化学习与有监督学习的区别:

迭代的方式,训练的模型会决定训练的target

故强化学习要求训练稳定性——正则化方式

新增target neural network

优化问题:二分图匹配,最大化权值总和(value function、TD error)+满足constrain

权值大小与订单终点价值正相关——倾向于调往热区

​ 与司机当前价值成反比——倾向于离开冷区

定义冷区与热区:长期的价值——一天期望的收益值

动作具有时间上的延展性,故需要价值函数也具有时间上的延展性

离线学习

线上规划

  • 新的value function是通过旧的来得到的,有delay——on-policy
    • 无法用到 importance sampling
    • 执行策略时不能仅仅根据概率分布进行抽样,而必须采用组合优化方式解决
  • 六边形格子系统进行多精度分割
    • 自适应的分割表达
      • 市中心:高精度
      • 郊区:相对低精度
  • Lipschitz 正则化——控制value function的常数,使得value function更加光滑
    • 光滑:输入上的小扰动不会导致函数输出的巨大变动
    • 实验中测试:加入噪声
    • 更好的学习的动态效应及收敛性
  • 随机
    • 机器人学习中DR思想
    • 在训练环境中加入足够多的随机效果,确保智能体在所有情境下都能很好地工作(包括现实中的情况)
  • 迁移学习的网络结构:多城市
    • 渐进式网络结构
      • 学习中决定迁移哪些知识、怎样迁移
      • do-a-path-way架构,平行的渐进式架构
        • 对独特的输入可以专门学习
        • 迁移学习Focus on对通用的实时特征学习
  • 实验:(接驾距离——用户体验)
    • 与DQN对比
      • 收敛性
      • 动态效应
      • 衰减系数:越接近1,bias和variance的trade-off,更难训练
    • 基于现实数据的离线实验
      • 与动态规划
      • 与DQN(单个司机视角)
      • 最近提出的迁移学习方法
    • A/B实验
      • answer rate
      • finish rate
      • 司机总收入
    • 训练数据:
      • 司机轨迹
      • 实时特征:空车数、司机数等

image-20200203184835144

image-20200203184853591

image-20200203184919466

image-20200203185004897

image-20200203185021593

image-20200203185143555

![image-20200203185152877](/Users/zhaowanru/Library/Application Support/typora-user-images/image-20200203185152877.png)

image-20200203185222605

image-20200203185241848

image-20200203185254621

image-20200203185312413

image-20200203185335861

image-20200203185407012

image-20200203185421234

image-20200203185442347

image-20200203185459812

其他解读:

[1] KDD2019展示视频

[2] 滴滴KDD 2019 论文详解:基于深度价值网络的多司机智能派单模型

[3] 滴滴KDD2019重点论文分享直播

原文地址:https://www.cnblogs.com/Ryan0v0/p/12255339.html