youtube DNN 模型要点速记

1、为什么Ranking Model采用了weighted logistic regression作为输出层?在模型serving过程中又为何没有采用sigmoid函数预测正样本的probability,而是使用 [公式] 这一指数形式预测用户观看时长?

再简要总结一下YouTube Ranking Model的Serving过程要点。

  1. [公式] 这一指数形式计算的是Weighted LR的Odds;
  2. Weighted LR使用用户观看时长作为权重,使得对应的Odds表示的就是用户观看时长的期望;
  3. 因此,Model Serving过程中[公式] 计算的正是观看时长的期望。

2、如果是排序使用的话,odds和sigmoid单调性一致;如果使用时长后续有其他处理,和直接回归或多分类有多大差别,为什么感觉有些迂回?

 a:回归有一个问题在于值域是负无穷到正无穷,在视频推荐这样一个大量观看时间为0的数据场景,为了优化MSE,很可能会把观看时间预测为负值,而在其他数据场景下又可能预测为超大正值。逻辑回归在这方面的优势在于值域在0到1,对于数据兼容性比较好,尤其对于推荐这种rare event的场景,相比回归会更加适合。而且odds的值域也是非负的,符合watch time的物理意义。

q:那如果把观看时间quantization成k个bucket然后做多分类 是不是也可以 感觉比weightedLR更简单train起来 当然会损失点效果可能

a:多分类输出粒度不够细,不适合用来做排序。此外多分类的参数数量也比二分类多很多,同样的样本量下训练效果可能不如二分类效果好。

q:serving的时候,sigmoid和和指数函数都是单调递增的。如果取固定的top K个item做曝光,那这两种方式结果完全是一样的,没理解为什么还要用指数函数。

参考:https://zhuanlan.zhihu.com/p/61827629

原文地址:https://www.cnblogs.com/zle1992/p/14999946.html