背景

点击率模型训练时,由于性能或其他原因,对负样本经常会降采样,导致预测值与真实值偏差,而线上排序时很多情况下需要真实值,所以需要进行校准。比较简单的校准方法有三种,分别介绍一下:

  • 负样本加权
  • 在logit上校准
  • 在预测值上校准

符号定义

一、负样本加权

训练时,在负样本上加权。

二、在logit上校准

上加上可得到校准后的,后面用做计算预估值即可。

三、在预测值上校准

做下变换即可得到校准后的

对比

  • 方法一作用到训练上,方法二和三作用到预估时。
  • 方法二和三在理论推导上是一样的,校准后的预估值应该一样。
  • 三个方法校准后评估集PCOC应该都可以接近1.0,但方法一只作用于负样本,通过打压负样本的预估值将PCOC校准到1.0,而方法二和三作用于所有样本,对正样本和负样本的预估值进行了不同程度的打压,使得PCOC接近1.0。
  • 三个方法在评估集GAUC上应该差别不大,具体哪个最好可以在具体业务上尝试一下。