【KDD2019论文】基于深度价值网络的多司机智能派单模型阅读笔记

【KDD2019论文】基于深度价值网络的多司机智能派单模型阅读笔记

强化学习与有监督学习的区别：

迭代的方式，训练的模型会决定训练的target

故强化学习要求训练稳定性——正则化方式

新增target neural network

优化问题：二分图匹配，最大化权值总和（value function、TD error）+满足constrain

权值大小与订单终点价值正相关——倾向于调往热区

与司机当前价值成反比——倾向于离开冷区

定义冷区与热区：长期的价值——一天期望的收益值

动作具有时间上的延展性，故需要价值函数也具有时间上的延展性

离线学习

线上规划

新的value function是通过旧的来得到的，有delay——on-policy
- 无法用到 importance sampling
- 执行策略时不能仅仅根据概率分布进行抽样，而必须采用组合优化方式解决
六边形格子系统进行多精度分割
- 自适应的分割表达
  - 市中心：高精度
  - 郊区：相对低精度
Lipschitz 正则化——控制value function的常数，使得value function更加光滑
- 光滑：输入上的小扰动不会导致函数输出的巨大变动
- 实验中测试：加入噪声
- 更好的学习的动态效应及收敛性
随机
- 机器人学习中DR思想
- 在训练环境中加入足够多的随机效果，确保智能体在所有情境下都能很好地工作（包括现实中的情况）
迁移学习的网络结构：多城市
- 渐进式网络结构
  - 学习中决定迁移哪些知识、怎样迁移
  - do-a-path-way架构，平行的渐进式架构
    - 对独特的输入可以专门学习
    - 迁移学习Focus on对通用的实时特征学习
实验：（接驾距离——用户体验）
- 与DQN对比
  - 收敛性
  - 动态效应
  - 衰减系数：越接近1，bias和variance的trade-off，更难训练
- 基于现实数据的离线实验
  - 与动态规划
  - 与DQN（单个司机视角）
  - 最近提出的迁移学习方法
- A/B实验
  - answer rate
  - finish rate
  - 司机总收入
- 训练数据：
  - 司机轨迹
  - 实时特征：空车数、司机数等

![image-20200203185152877](/Users/zhaowanru/Library/Application Support/typora-user-images/image-20200203185152877.png)

其他解读：

[1] KDD2019展示视频

[2] 滴滴KDD 2019 论文详解：基于深度价值网络的多司机智能派单模型

[3] 滴滴KDD2019重点论文分享直播

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/Ryan0v0/p/12255339.html