Blog - IT博客

formath ·2023-06-30

· 搜索引擎 · 推荐系统 · 计算广告

搜广推召回建模中，正样本中热门item的占比往往非常大，为了降低整体训练loss，最终得到的用户向量和热门item的向量往往分数更高，这样就导致线上召回时top K也被热门item占领，和业务目标偏离。本文讨论热门item打压的几种办法。

formath ·2023-06-05

· Machine-Learning · Deep-Learning

ChatGPT出现后，惊人的效果完全颠覆了业界人员包括笔者的认知，抛开其模型细节层面的因素，已公开的训练方法，需要巨量的数据和计算资源，门槛非常高。本文基于公开资料，希望以量化方式分多篇介绍ChatGPT的分析结论，本文为计算量分析篇。ChatGPT模型结构为Transformer，下面对计算细节拆解分析。

formath ·2023-06-01

Transformer量化分析（二） - 存储占用分析

· Machine-Learning · Deep-Learning

ChatGPT出现后，惊人的效果完全颠覆了业界人员包括笔者的认知，抛开其模型细节层面的因素，已公开的训练方法，需要巨量的数据和计算资源，门槛非常高。本文基于公开资料，希望以量化方式分多篇介绍ChatGPT的分析结论，本文为存储占用分析篇。ChatGPT模型结构为Transformer，Transformer模型运行时存储可以分成两部分，其一是模型参数，这部分规模是固定的，其二是中间激活，这部分和batch size、sequence length有线性关系，下面对两者分别分析。

formath ·2023-05-31

Transformer量化分析（一） - 模型参数分析

· Machine-Learning · Deep-Learning

ChatGPT出现后，惊人的效果完全颠覆了业界人员包括笔者的认知，抛开其模型细节层面的因素，已公开的训练方法，需要巨量的数据和计算资源，门槛非常高。本文基于公开资料，希望以量化方式分多篇介绍ChatGPT的分析结论，本文为模型参数分析篇。

formath ·2023-05-08

Softmax近似方法（三） - NCE、NEG、Sampled Softmax对比

· Numerical-Optimization · Machine-Learning

在文章[TensorFlow Candidate Sampling](https://www.tensorflow.org/extras/candidate_sampling.pdf)中，很多地方直接使用了$u(x;\,\theta)=\log \frac{p(x^c)}{q(x^c)}$，缺乏理论支持，笔者认为不太正确，所以在本文记录下个人理解。

formath ·2023-04-07

Softmax近似方法（二） - Sampled Softmax理论详解

· Numerical-Optimization · Machine-Learning · Deep-Learning

超大规模多分类问题Softmax分母的Partition Function难以计算。比如，在推荐系统领域，预测用户下一次点击某个item的概率，需要累加全部item上的exp值，而item数量可能为千万甚至亿级。Sampled Softmax通过概率模型和优化目标的改变，巧妙的解决了这个问题，本文详细介绍Sampled Softmax的核心思想。

formath ·2023-03-15

Softmax近似方法（一） - Noise Contrastive Estimation理论详解

· Numerical-Optimization · Machine-Learning · Deep-Learning

超大规模多分类问题Softmax分母的Partition Function难以计算。比如，在推荐系统领域，预测用户下一次点击某个item的概率，需要累加全部item上的exp值，而item数量可能为千万甚至亿级。NCE通过概率模型和优化目标的改变，巧妙的解决了这个问题，本文详细介绍NCE的核心思想。

formath ·2022-09-25

TensorFlow多Worker Barrier同步实现

· TensorFlow

同步机制在TensorFlow等分布式机器学习框架中非常重要，比如TensorFlow有以下场景需要做同步：1) 当chief worker训练完一轮后，保存模型前需要等所有worker都完成再保存模型。 2) BSP方式的SGD训练，需要每个batch做同步。如果不做同步可能会出现如下问题： 1) TensorFlow大部分使用方案都是异步SGD，而且使用global_step做停止条件，不能保证所有worker负责的数据训练相同的轮数，速度快的worker所负责的数据将会获得更多step。 2) chief worker结束时会保存模型参数，但还存在其他worker没结束，所以模型没有完全训练完整。

formath ·2022-02-25

TensorFlow分布式任务DataSet卡住问题

· TensorFlow

2018年，公司的分布式模型训练普遍向`TensorFlow on Yarn`迁移。在公司的Hadoop集群上，使用TensorFlow通过DataSet读数据方式进行分布式训练时，在每个Epoch的最后一个Batch会卡住，导致任务一直停在那里无法结束。集群节点都是`CentOS, linux kernel 3.10.0`。如果用老的Queue读取数据不会出现这个问题，并且这个问题不是必现，只有在分布式且节点比较多的时候发生的概率比较高。

formath ·2021-10-22

使用TensorFlow C++ API构建线上预测服务 - 篇3

· TensorFlow

在离线训练时，为了效率考虑，我们经常把数据转成TFRecord格式，然后直接调用TensorFlow提供的Reader来读入TFRecord数据。这样在生成的`graph.pb`中，Reader会对应多个节点，如果在c++中直接导入这个`graph.pb`我们就不能使用`std::vector<std::pair<std::string, tensorflow::Tensor>>`作为`session.Run(...)`的输入了，本文讲解一下怎样处理这种情况。