延迟反馈建模 - 基于样本回补的方案
背景
为了追求模型的时效性,在线学习已经成为主流。在线学习使用最近时间窗口内的样本进行实时模型训练,由于窗口设定往往比较短,所以有些样本的真实label并未到达,造成延迟反馈问题。比如某次商品点击之后,用户可能会反复对比其他商品,在几十分钟之后才进行下单,有时候会放入购物车,等价格降低或促销时才下单,要想拿到真实的转化label可能需要等待多天。对比转化延迟,点击延迟往往比较短,但点击label在窗口外到达的情况仍然存在。延迟反馈建模有多种方法,其中基于样本回补的方式大概这样:等待窗口内如果能拿到正反馈就作为正例训练,否则当做负例,在等待窗口之外,如果正反馈到来,则进行样本回补训练。对于怎么回补样本,有多种方式,在不同的回补方式上,纠偏方案也各不相同,本文对它们进行详细介绍。
符号定义
回补方式一
论文1,设定等待窗口
Importance Sampling
其中,
由于正例都先作为负例,所以
将公式
预估值纠偏
PU Loss
将样本当做Positive和Unlabeled进行学习,既Positive-Unlabeled
Learning。
将负例当做Unlabeled数据,既上面的第二项。延迟正例过来后,在之前作为FN样本的梯度方向上反转,对梯度做下反向补偿即可。
回补方式二
论文2,设定等待窗口
Importance Sampling
因为
损失函数为:
PU Loss
类似方案一。
回补方式三
前两种回补方式只回补正样本,既FN对应的样本被训练了两次,其他样本训练了一次,所以
- 真实分布
- 正例:
- 负例:
- 正例:
- 回补方式一和二
- 正例:
- 负例:
- 正例:
- 回补方式三
- 正例:
- 负例:
- 正例:
Importance Sampling
损失函数为:
总结
方案二和三有个等待窗口用于获取真实label,所以比方案一要准确一点,但方案一的时效性更强。另外,方案二和三因为
方法 | Importance Sampling | 预估值纠偏 | PU Loss |
---|---|---|---|
回补方法一 | |||
回补方法二 | 无 | 类似方案一 | |
回补方法三 | 无 | 无 |
参考资料
- [1][Addressing Delayed Feedback for Continuous Training with Neural
Networks in CTR prediction](http://arxiv.org/abs/1907.06558)
- [2][Capturing Delayed Feedback in Conversion Rate Prediction via
Elapsed-Time Sampling](http://arxiv.org/abs/2012.03245)
- [3][Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling](http://arxiv.org/abs/2104.14121)