背景
我们有一个样本集合,它的概率分布为,我们希望学习一个分布来逼近。 其中,。
通过最大似然得到的log-likelihood损失函数:
接下来需要对公式进行求导,这里导数计算依赖。但是,在很多情况下并不容易求得。比如,在推荐系统领域,预测用户下一次点击某个item的概率,需要在全部item上计算,而item数量可能为千万甚至亿级。那么,怎么解决这个问题呢?
NCE的优化目标
NCE的核心思想是将上述问题改造为多个二分类问题。 除了样本集合,我们再根据一个人为设定的概率采样若干样本集合,的样本量是的倍。即对每个正样本,采样个负样本。其中,负样本集合称为噪声样本。
这样,对于每个正样本和它对应的个负样本,可以生成个二分类任务。个样本中的每个样本,如果它属于则为正类,,如果属于则为负类,。 得到以下概率: 那么,条件概率分布为:
我们希望学习一个分布来逼近,既: 下文简写为和。
是二分类问题,我们将它继续推导为如下形式:
其中, 这里我们把变成可学习参数,所以总的参数变为。
最后,我们的优化目标为交叉熵损失:
损失函数进一步可以写成以下形式: 其中,是正样本集合的样本数量。
NCE优化目标下的概率模型
上文我们只定义了,那么是什么样呢? 可得: 与公式相比,难以计算的没有了,代替以可学习偏差项。在实际实现中是个固定值,的选取往往也比较简单,也可以变成常数项。另外,为了保证,需要通过模型来学习达到这一目的,通过梯度下降迭代求解无法完全保证这一点。在实际使用中,一般得到logit的值或更前面的向量表示即可,是否能归一化并不影响使用,所以问题不大。
NCE效果的理论分析
NCE通过优化目标和概率模型的调整,达到了计算可行性。但是,能够保证学习出的概率模型没有跑偏吗,既能近似吗?
概率模型收敛性分析
首先分析在下收敛到哪里? 因为、与参数无关,所以以上优化目标中增加两项后不影响最终,可以写成:
已知KL散度非负,所以当时,达到最小值。此时, 既: 这样可以理论上保证收敛到,优化目标能够保证最优解情况下的没有跑偏。
梯度值分析
概率模型收敛性分析只能保证在全局函数空间,可以找到最优。但是,工程实现时,将函数空间做了限制,能保证效果吗?
因为需要通过梯度下降进行迭代求解,所以这里通过两者的梯度进行对比。
首先对进行求导:
然后对进行求导: