点击率模型负采样后校准方法
背景
点击率模型训练时,由于性能或其他原因,对负样本经常会降采样,导致预测值与真实值偏差,而线上排序时很多情况下需要真实值,所以需要进行校准。比较简单的校准方法有三种,分别介绍一下:
- 负样本加权
- 在logit上校准
- 在预测值上校准
符号定义
一、负样本加权
训练时,在负样本上加权。
二、在logit上校准
在
三、在预测值上校准
对比
- 方法一作用到训练上,方法二和三作用到预估时。
- 方法二和三在理论推导上是一样的,校准后的预估值应该一样。
- 三个方法校准后评估集PCOC应该都可以接近1.0,但方法一只作用于负样本,通过打压负样本的预估值将PCOC校准到1.0,而方法二和三作用于所有样本,对正样本和负样本的预估值进行了不同程度的打压,使得PCOC接近1.0。
- 三个方法在评估集GAUC上应该差别不大,具体哪个最好可以在具体业务上尝试一下。