Softmax近似方法(三) - NCE、NEG、Sampled Softmax对比
背景
在Noise Contrastive
Estimation理论详解和Sampled
Softmax理论详解中,针对大规模多分类概率模型
在文章TensorFlow
Candidate Sampling中,很多地方直接使用了
NCE
NCE的学习目标是:
最终学到的概率模型是:
NCE将原始Softmax多分类问题转化为多个二分类问题,既
二分类问题的损失函数为交叉熵损失,既:
NEG
NEG将NCE学习目标进行简化,忽略了
最终学到的概率模型与NCE稍有不同,既:
NEG的学习目标
损失函数同NCE一致,既:
Sampled Softmax
Sampled Softmax的学习目标同NCE一致,既:
最终学到的概率模型为:
多分类问题的损失函数为:
总结
方法 | 损失函数 | ||
---|---|---|---|
NCE | |||
NEG | 同NCE | ||
SSM | 同NCE |