Blog - IT博客

formath ·2023-03-15

Softmax近似方法（一） - Noise Contrastive Estimation理论详解

· Numerical-Optimization · Machine-Learning · Deep-Learning

超大规模多分类问题Softmax分母的Partition Function难以计算。比如，在推荐系统领域，预测用户下一次点击某个item的概率，需要累加全部item上的exp值，而item数量可能为千万甚至亿级。NCE通过概率模型和优化目标的改变，巧妙的解决了这个问题，本文详细介绍NCE的核心思想。

formath ·2022-09-25

TensorFlow多Worker Barrier同步实现

· TensorFlow

同步机制在TensorFlow等分布式机器学习框架中非常重要，比如TensorFlow有以下场景需要做同步：1) 当chief worker训练完一轮后，保存模型前需要等所有worker都完成再保存模型。 2) BSP方式的SGD训练，需要每个batch做同步。如果不做同步可能会出现如下问题： 1) TensorFlow大部分使用方案都是异步SGD，而且使用global_step做停止条件，不能保证所有worker负责的数据训练相同的轮数，速度快的worker所负责的数据将会获得更多step。 2) chief worker结束时会保存模型参数，但还存在其他worker没结束，所以模型没有完全训练完整。

formath ·2022-02-25

TensorFlow分布式任务DataSet卡住问题

· TensorFlow

2018年，公司的分布式模型训练普遍向`TensorFlow on Yarn`迁移。在公司的Hadoop集群上，使用TensorFlow通过DataSet读数据方式进行分布式训练时，在每个Epoch的最后一个Batch会卡住，导致任务一直停在那里无法结束。集群节点都是`CentOS, linux kernel 3.10.0`。如果用老的Queue读取数据不会出现这个问题，并且这个问题不是必现，只有在分布式且节点比较多的时候发生的概率比较高。

formath ·2021-10-22

使用TensorFlow C++ API构建线上预测服务 - 篇3

· TensorFlow

在离线训练时，为了效率考虑，我们经常把数据转成TFRecord格式，然后直接调用TensorFlow提供的Reader来读入TFRecord数据。这样在生成的`graph.pb`中，Reader会对应多个节点，如果在c++中直接导入这个`graph.pb`我们就不能使用`std::vector<std::pair<std::string, tensorflow::Tensor>>`作为`session.Run(...)`的输入了，本文讲解一下怎样处理这种情况。

formath ·2021-10-11

使用TensorFlow C++ API构建线上预测服务 - 篇2

· TensorFlow

之前的一篇文章中[使用TensorFlow C++ API构建线上预测服务 - 第一篇](https://mathmach.com/6d246b32/)，详细讲解了怎样用TensorFlow C++ API导入模型做预测，但模型`c = a * b`比较简单，只有模型结构，并没有参数，所以文章中并没讲到怎样导入参数，本文使用一个复杂的模型继续讲解。

formath ·2021-10-09

使用TensorFlow C++ API构建线上预测服务 - 篇1

· TensorFlow

目前，TensorFlow官方推荐使用Bazel编译源码和安装，但许多公司常用的构建工具是CMake。TensorFlow官方并没有提供CMake的编译示例，但提供了MakeFile文件，所以可以直接使用make进行编译安装。另一方面，模型训练成功后，官方提供了TensorFlow Servering进行预测的托管，但这个方案过于复杂。对于许多机器学习团队来说，一般都有自己的一套模型托管和预测服务，如果使用TensorFlow Servering对现存业务的侵入性太大，使用TensorFlow C++ API来导入模型并提供预测服务能方便的嵌入大部分已有业务方案，对这些团队来说比较合适。

formath ·2020-03-15

分布式机器学习中的同步模式：ASP、BSP、SSP实验研究

· Machine-Learning · 点击率预估 · CTR

之前在公司开发了一个Parameter Server架构的分布式机器学习系统，可以支持多种同步模式，支持异步的ASP、同步的BSP、半同步的SSP，但是在点击率预估等业务场景中，实际工作中最常用的还是ASP模式，其他两种模式并没有进行实验，这次想通过实验看下效果如何。

formath ·2020-01-19

CMake管理第三方依赖

· CMake

最近在一个C++项目中尝试`Bazel`编译，编译依赖方式确实写着比较舒服和直观，但最后链接出来的二进制文件在执行时报`Segment error`，但用`CMake`编译出来的二进制文件就可以成功执行，Bazel编译的问题无从下手。另外，Bazel无法从系统目录查找头文件，这就不能忍了，有人建议从`cc_toolchain_config.bzl`查找问题，但toolchain实在是有点麻烦，就暂时放弃Bazel，继续使用CMake了。Bazel里提供的`git_repositry`等从外部源自动下载编译依赖的方式很好用，所以就思考在CMake里是不是也有类似的东西呢。之前使用CMake时，第三方依赖都是手动先在本地安装好，后来查找到了CMake里提供了类似Bazel的命令，那就是`ExternalProject`，不过这个命令只管下载编译等操作，但`git_repositry`更好使一些，它可以根据依赖自动判断是不是下载，而`ExternalProject`就没这么丝滑了，所以本文记录下在CMake怎样基于`ExternalProject`打造`git_repositry`那种丝滑的体验。

formath ·2019-08-15

SGD优化算法的各种变体

· Numerical-Optimization · Machine-Learning · Deep-Learning

2017年前，公司内部的算法团队还都是使用`XGBoost`来训练模型，手动构造的特征已经几百个，特征迭代效果微弱，但在搜索推荐场景下，有大规模的离散特征，这类特征记忆效果非常好，如果加入模型训练会获得不错的效果提升，但树模型并不适合大规模离散特征，所以我开发了一个基于`Parameter Server`架构的分布式机器学习框架，主要支持大规模离散的浅层模型，比如`Logistic Regression`、`Factorization Machine`、`Field-aware Factorization Machine`分类模型以及对应的回归模型和`SVD分解`。这个机器学习框架使用`Yarn`调度在公司的大数据集群上，在线上取得了非常不错的收益，框架后续又开始朝着深度模型和在线学习演化，目前公司算法团队已经基本往大规模离散DNN迁移完毕。这里主要记录一下训练框架支持的一些优化算法，公式脑子只能记个大概，还是写下来方便以后查阅。

formath ·2019-08-13

Hadoop平台上生成TensorFlow TFRecord的错误问题

· TensorFlow

使用MapReduce on Yarn或者Spark on Yarn来生成TFRecord的过程中，会发生Hadoop和TensorFlow依赖的Protobuf版本不一致导致冲突的问题，本文通过两种方案来解决这种问题。