多目标优化概论及基础算法ESMM与MMOE对比

一、总起

       多目标优化现在成为了排序算法的主流方式。之所以有这个算法方向其实还是业务的需求驱动的,拿广告算法来说,主体逻辑是平台业务的目标是提升点击挣广告费,但广告主希望花出去的广告费能带来成交量。次逻辑是新广告主希望他买了广告就有成单的机会,不要冷启动买了广告也没有啥流量;对平台而言,(抛开反作弊刷单)希望提升平台吸引力,能让新广告主看到希望,也能让老买家持续爆单。         一张图概括全文: 

图片

 


  二、多目标优化的若干问题 

    好久没写文章玩了。写写对自己也是一次整理,这些问题很多是同事提出来的,就放出来跟大家一起看看。


    问题一:多目标优化是否可以用多个模型,每个模型训练一个目标来做?

    既然有多个目标,那是否可以每个目标训练一个模型,这样多个模型叠加一起精度更高?答案是否定的。抛开多个模型需要多套特征、多个模型运行时间长这个效率层面的不说,从效果上来说也是有缺陷的。拿广告排序来说,CTR的训练集范式key-label中 key为:userID+主商品itemcode+广告商品,label是点击,如果是CVR,则key-label中的key为userId+主itemcode+已点击的广告商品itemcode,label是转化,这里面有一个gap,就是说如果一个产品很好卖,但点击率比较低,他有可能进不了CVR的训练集;但如果你的模型是多目标一起优化的,训练集的key-label范式是userID+主商品itemcode+广告商品,label是点击 or 转化,就不会有这个问题了。这个点就是论文ESMM的motivation。       问题二:label是多个目标,比如说上文讲的点击和转化,那是怎么训练的?多个loss怎么融合的?在线预测又是怎样做的?

图片



       目前tensorflow训练多目标有两种方式,一种是交替训练,一种是把loss相加一起训练。   

反思:

 

问题三:如果说两个目标彼此重要性不对等,且不是线性关系不对等,加权重参数没有表达力,应该如何优雅的解决?

方法一:帕累托优化,【5】是阿里2019年在Recsys发表的论文,当年获得了最佳论文提名奖。算法理解有一定难度和深度,从学术角度来看确实是有一定研究价值的,但我小试了下代码,发现收敛很难,loss跳跃比较厉害。

       简单讲清楚这个算法,整个逻辑如下图:

图片

       图中黑点连线就是帕累托的KKT条件的边界线,举例:GMV不能低于200万,这个是黑点A对应的横坐标,OK,所有可行解都在该横坐标右边寻找。训练过程的最优化过程就是这样的,优化后先试算一下最终结果是否能满足KKT条件,满足才能算一次迭代。然后接着继续寻找。有点像带着脚镣跳舞。光滑、凸优化、甚至非凸优化都跟这个沾不上边。

方法二:这个是我19年做的一个工作。谈不上算法创新。主要是一个解决实际问题的AK47的法子。这个算法讲出来业务上是比较认可的。

     详细的文章请移步这里:基于deepFM的实时在线广告预测

     我简单讲一下主体逻辑。一次广告商品展示,成本就是流量的钱,可以按千次曝光的平均收益计算,如果这次曝光的收益低于平均收益,则他的回归数是负的;收益有两个部分,一个部分是点击收广告费,一个是成交了收平台服务费,用回归去学这个收益。

这样有几个好处:第一,曝光高成交高,但曝转率低的后面得到曝光的机会会少,因为他的收益低于平均千次曝光收益;第二,那些没曝光的新广告商品,他们的label是0,其实高于那些曝光量高低收益label为负的产品,因此他们得到曝光的机会会多。

不够优雅的地方是:并不是每个产品每个类目的平台服务费是一样的,也并不是每个类目的商品平均爆转收益是均衡的,这样计算label的时候是比较复杂的。

       目前用的较多的算法ESMM和MMOE类的算法,都是基于目标的重要性是对等或线性相关来优化的,也一定程度上仿真建模解决了业务的需求。后面会细讲一下最基础的两个算法ESMM和MMOE,这里概括一下:

       ESMM:定义p(CTR)为曝光到点击的概率,那么点击然后购买的概率为p(CTCVR),他是定义在点击后的样本集上的,如果定义在曝光集上的曝转率,则为p(CVR),从概率论角度看,很自然就知道p(CVR)=p(CTR) * p(CTCVR)。文章就是这样算p(CVR)的。他的多目标就是CTR和CVR,两个目标是高相关的。

       MMOE:从输入到输出从前往后:输入特征,然后经过特征组合器增强表达,接下来接入多个专家网络,然后接一个门控网络,去点选各专家网络,点选后输出logit去分目标计算Loss训练网络。这个算法的核心思想就是集成学习。整个思想范畴在随机森林里, 不过表达方式用了深层net。这样每个专家网络可以专注一个方向去学习表达力,门控网络来计算每个专家网络跟目标匹配的权重。

       这个研究方向目前还很活跃,19年和20年都有新的工作。19年工作是在MMOE基础上加一个跳跃连接层,用来消除bias(见【3】)。这里bias的定义是:如果一个视频排序在前,即使用户不感兴趣,也会去点开看一下;这样模型去学的数据就是有偏估计,解决这个问题的方法是拉平所有item,将他们放到同一个位置同一起跑线上看点击率,这个论文就是在MMOE基础上解决这个的。我觉得这个工作非常有实际业务价值。

       另一个方向是今年的KDD2020的MMSE【4】。他的专家网络特征提取网络都用LSTM组成,可以学习用户的序列行为。效果非常不错。



参考文献:

[1] Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate

[2] Modeling Task Relationships in Multi-task Learning with

Multi-gate Mixture-of-Experts. MMOE

[3] Recommending What Video to Watch Next: A Multitask Ranking System

[4] Multitask Mixture of Sequential Experts for User Activity

Streams. MMSE

[5] A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation, at RecSys 2019

下载链接:http://ofey.me/papers/Pareto.pdf

原文地址:https://www.cnblogs.com/whu-zeng/p/14111888.html