hourly train；

观察到 show 没有观察到 click，则按照负样本计算；

观察到 show & click，则按照正样本计算；

正样本回溯4个小时的负样本进行 join；

已经按照负样本进行训练的正样本，按照2个正样本进行补充。

优点：实时性高。但不准确。

缺点：不准确，低估了ctr，且改变了正负样本的分布。

大概有4种方法：对feedback delay 直接建模；fake negative weighted; false negative calibration; pu learning

feedback delay 建模

用指数分布去拟合：X（特征），Y (该样本是否已经发生点击)， C（该样本最终是否会发生点击）

模型会去估算，针对该样本，最终转化的概率，用来加权样本。如果该样本转化概率很低，会被当成是负样本。

faked negative weighted

对正例进行了 (1+p) 加权，对负样本进行了 (1-p^p) 的加权。结论可由 importance sampling 进行推导。

其中 p = 点击率真值。

直接学习 biased distriubtion: 假如收到一个 show 即按照负例训练；收到 click 之后再按照负例计算；

即 m / (m + n) 其中 m 为正例个数；但是真实的分布是：m / n 。所以可以得到 biased, true 之间的关系式。

主要思想就是：既然之前作为负样本已经计算了一个梯度。如果这是一个假负样本，那就再下次遇见正例的时候，加上一个梯度反方向。

reference： https://mp.weixin.qq.com/s/_ZJBxkvETBpT_X0prMsT_A

1. 都没有提升。

2. 怀疑对负例矫正影响到的比例比较少。对全局影响不大？

push : feed = 1:10 ; push 以一天为时间窗口进行join: 20% > 4 hours，在现有的情况下是被丢弃了。70% 是负例补充的。 10%是可以当下 join 上的。所以受影响的样本量 = 0.1*0.7 = 7%。

3. 原始的 baseline 是给假负例，补充2个正例。而这些方法都是补充1个正例。在 ctr已经被低估的情况下，又被再低估。

4. 【思考】有没有一劳永逸的办法？

之所以用不上 4hour 之外的样本，是因为 join 实时特征是有问题的。工程上，除非把特征也一起打包存客户端？然后消费的时候，连同 label 和特征一并消费了。那结合方法一，就可以不用无线等下去了。

我们没有用上的正例：非个性化的 push（主要是没有用户侧的实时特征）。

1. 没走 ranker的，其实是一种多样性的补充。

2. 用户画像其实相对稳定，不会根据你几个小时发生猛烈的变化。所以 user 端的特征可以近似用。

提高假负例的 sample 采样。

实验效果：初期效果好，后期涨势不明显。恐怕随着模型见到的参数越来越多，动态采样的高参可能不合适了。

可能引入 teacher 网络更好？