广告算法

背景：

本次算法大赛的题目源于腾讯社交广告业务中的一个真实的广告产品——相似人
群拓展（Lookalike）。该产品的目的是基于广告主提供的目标人群，从海量的人
群中找出和目标人群相似的其他人群。在实际广告业务应用场景中，Lookalike 能
基于广告主已有的消费者，找出和已有消费者相似的潜在消费者，以此有效帮助
广告主挖掘新客、拓展业务。目前，腾讯社交广告Lookalike 相似人群拓展产品
以广告主提供的第一方数据及广告投放效果数据（即后文提到的种子包人群）为
基础，结合腾讯丰富的数据标签能力，透过深度神经网络挖掘，实现了可在线实
时为多个广告主同时拓展具有相似特征的高质潜客的能力。

题意：

相似人群拓展（Lookalike）基于广告主提供的一个种子人群（又称为种子包），
自动计算出与之相似的人群（称为扩展人群）。本题目将为参赛选手提供几百个
种子人群、海量候选人群对应的用户特征，以及种子人群对应的广告特征。所有
数据均进行了脱敏处理，以保障敏感隐私数据的安全可靠。整个数据集分为训练
集和测试集。训练集中标定了人群中属于种子包的用户与不属于种子包的用户（即
正负样本）。测试集将检测参赛选手的算法能否准确标定测试集中的用户是否属
于相应的种子包。训练集和测试集所对应的种子包完全一致。

数据分为：
训练集数据文件、测试集数据文件、用户特征文件以及种子包对应的广告特征文
件四部分。

训练集数据文件train.csv 每行代表一个训练样本，各字段之间由逗号分隔，格式
为：“aid,uid,label”。其中，aid 唯一标识一个广告，uid 唯一标识一个用户。
样本label 的取值为+1 或-1，其中+1 表示种子用户，-1 表示非种子用户。为简
化问题，一个种子包仅对应一个广告aid，两者为一一对应的关系。
测试集数据文件test.csv 每行代表一个训练样本，各字段之间由逗号分隔，格式为：
“aid,uid”。字段含义同训练集。

用户特征文件userFeature.data 每行代表一个用户的特征数据，格式为：
“uid|features”，uid 和features 用竖线“|”分隔。

广告特征文件adFeature.csv 格式为：“aid,advertiserId,campaignId,creativeI
d,creativeSize,adCategoryId,productId,productType”。其中，aid 唯一标识一
个广告，其余字段为广告特征，各字段之间由逗号分隔。

评估方式：

对于扩展后的相似用户，如果在广告投放上有相关的效果行为（点击或者转化），
则认为是正例；如果不产生效果行为，则认为是负例。
每个待评估的种子包会提供如下信息：种子包对应的广告aid 及其特征，以及对
应的候选用户集合（uid 及其特征）。选手需要为每个种子包计算测试集中用户的
得分，比赛会据此计算每个种子包的AUC 指标，AUCi 表示第i 个包的AUC 值，
并以所有待评估的m 个种子包的平均AUC 作为最终的评估指标。