中国大数据算法大赛总决赛参赛队伍作品分享

https://jdtech.jd.com/#/detail?id=926ea7a201f241a7a521113e3b5e9096

image.png

中国大数据算法大赛京东赛区——京东JDATA算法大赛已于日前圆满结束,本届赛题为《如期而至-用户购买时间预测》。大赛中涌现出了非常多优秀的算法模型和解题思路,获得了大赛评委的高度点评。

冠军团队 Trident 凭借对赛题的深刻理解,提交了一份可圈可点的亮点作品。在解题之初该团队即抓住业务难点,还推算出了下次购买间隔并作为特征纳入模型中;在模型层面利用分位数回归解决目标值非正太分布的问题等处理方式也让评委眼前一亮。

image.png

image.png

image.png

image.png

评委李凯东老师评价:“整个团队(Trident)对于赛题的理解是所有队伍中最好的。深刻理解了数据的业务特性,同时找到了一些关键属性,这对于问题的解决有很大的帮助,也提高了可能达到的上限。对于复购数据的特性,数量对于周期的影响是明显的,只有这个队伍在数据角度进行了处理,做的很好。在模型角度,对特殊日期的数据进行了处理,并且做了很好的线下验证集,特征组群也是一个很好的亮点。同时对于loss的优化也是很好的,并且把目标预测变成残差预测,也更好地提高了模型的稳定性,很棒。

这是一个通过比赛组到一起的队伍,很好的发挥了各自的优势,最后强强联合。这也是一种很好的比赛策略,希望也给未来的比赛小伙伴们一个指引,前期努力让自己变得更好,在比赛后期考虑通过组队的方式让自己更快的成长。”

………………………………………………………………………………………………………………………………

亚军团队 朵拉公波鲁 则凭借优异的表现,最终斩获大赛亚军。比如在建模过程中对数据进行了比较深刻的分析,修改了采样数据的策略,同时针对于题目的特点修改了损失函数,这些亮点处理使成绩有了质的飞跃。

image.png

image.png

image.png

评委宋磊老师评价:“参赛选手在对原始数据进行大量分析后,对业务逻辑和场景有了较深入的了解,并创造性地提出了有趣的解决思路,如将相似的SKU进行聚类形成subcate的概念;对数据进行滑窗和细化预测的目标对训练数据进行增强处理;提取session级别的特征,细化订单级别的特征等等。

在模型方面,选手们采用了大赛中常用的lightgbm,但不同是,直接将评估目标做为loss function进行学习,取得了很好的效果,也是top 10团队中唯一一个采用此方法的团队。”

………………………………………………………………………………………………………………………………

对于其他作品,评委老师们也给出了高度认可,并针对每一份作品指出可提高的空间。比如评委王帅强老师对大赛第五名皱眉可达鸭的作品评价道:“该团队采用了Hawkes过程构建特征,准确地描述了问题中的时间窗口累积效应相关的属性,使得其模型构建的新颖性、创新性和有效性都得以体现;最终采用pairwise ranking的损失函数进行优化,从而获得较为精确的排序结果,也符合题目设计的初衷。”

评委郑志彤老师则指出了该团队存在的一些问题:“皱眉可达鸭在模型上有新的探索,比如Hawkes过程、神经网络、DCM(deep choice Model),可惜没出效果,没有注意到S2的特殊性。在特征处理上,注意到了时间窗的调整,但关键特征挖掘不足。业务上基本上理解了业务含义:重复购买的预测,但分析不够细致,直接关系到关键特征的挖掘效果。”

image.png

image.png

………………………………………………………………………………………………………………………………

答辩现场视频链接如下:

中国大数据算法大赛京东JDATA赛区答辩-上半场

中国大数据算法大赛京东JDATA赛区答辩-下半场

如期而至-用户购买时间预测》答辩PPT都在下面啦!

冠军团队:Trident 解题思路

亚军团队:朵拉公波鲁 解题思路

季军团队:DANT 解题思路

第四名团队:WTF 解题思路

第五名团队:皱眉可达鸭 解题思路

第六名团队:D国反击战 解题思路

第七名团队:何以解忧 解题思路

第八名团队:WhyK_ 解题思路

第九名团队:珞珈山第一菜鸡 解题思路

第十名团队:最后一波咯 解题思路

原文地址:https://www.cnblogs.com/DjangoBlog/p/9541924.html