分类 - llm

formath ·2025-05-27

· ChatGPT · DeepSpeed · DeepSpeed-Chat · RLHF · PPO · Actor-Critic · 强化学习

在LLM的强化学习方法中，KL用于限制Actor模型相对于SFT模型的变化幅度。本文围绕KL做一些讨论。

formath ·2025-04-26

· ChatGPT · DeepSpeed · DeepSpeed-Chat · RLHF · PPO · Actor-Critic · 强化学习

两年前ChatGPT出现后，出现了许多开源项目尝试复现其效果，我当时研究了一下开源的强化学习实现，包括DeepSpeed-Chat、ColossalChat、TRLX等，整理了一篇DeepSpeed-Chat的强化逻辑。后来，强化学习又出来了很多，一些认知在业界也逐渐收敛，本文对当前业界常用的LLM强化学习策略做一下简单整理。

formath ·2025-04-16

从累计奖励到GAE，浅谈强化学习奖励的各种表达形式

· RLHF · PPO · Actor-Critic · 强化学习

从最简单的累计奖励一直到GAE，通过详细的数学推导讲一下强化学习中奖励的各种表达形式。

formath ·2025-02-24

细说DeepSeek MLA矩阵消融

· DeepSeek · LLM · MLA · Attention · Multi-Head Attention

DeepSeek-V2论文中提出了新的Attention模块Multi-head Latent Attention（MLA），通过Lora和矩阵消融的方式将KV Cache大幅缩小，但矩阵消融只是一笔带过，本文细说一下过程。

formath ·2023-07-10

DeepSpeed-Chat强化学习策略

· ChatGPT · DeepSpeed · DeepSpeed-Chat · RLHF · PPO · Actor-Critic · 强化学习

ChatGPT出现后，已经有许多开源项目尝试复现其效果，包括LLaMa、DeepSpeed-Chat、ColossalChat、ChatGLM等。其中DeepSpeed-Chat是微软Deep Speed团队的开源项目，其完整的提供了Supervised Fine-tuning、Reward Model Training、RLHF PPO Traing三阶段的代码，逻辑简单，模块划分清晰，另外也由于Deep Speed在大模型训练中的使用非常普遍，所以笔者近期正在研究DeepSpeed-Chat的代码。本文以DeepSpeed-Chat的实现为例，详细介绍下RLHF——基于人类反馈的强化学习策略，并与经典Off-Policy Actor-Critic策略做对比。

formath ·2023-07-07

DeepSpeed-Chat全流程训练实战

· ChatGPT · DeepSpeed · DeepSpeed-Chat

ChatGPT出现后，已经有许多开源项目尝试复现其效果，包括LLaMa、DeepSpeed-Chat、ColossalChat、ChatGLM等。其中DeepSpeed-Chat是微软Deep Speed团队的开源项目，其完整的提供了Supervised Fine-tuning、Reward Model Training、RLHF PPO Traing三阶段的代码，逻辑简单，模块划分清晰，另外也由于Deep Speed在大模型训练中的使用非常普遍，所以笔者近期正在研究DeepSpeed-Chat的代码。本文介绍下在13b模型上运行SFT、RW、RLHF全部三阶段的实战情况。

formath ·2023-06-05

Transformer量化分析（三） - 计算量分析

· Machine-Learning · Deep-Learning

ChatGPT出现后，惊人的效果完全颠覆了业界人员包括笔者的认知，抛开其模型细节层面的因素，已公开的训练方法，需要巨量的数据和计算资源，门槛非常高。本文基于公开资料，希望以量化方式分多篇介绍ChatGPT的分析结论，本文为计算量分析篇。ChatGPT模型结构为Transformer，下面对计算细节拆解分析。

formath ·2023-06-01

Transformer量化分析（二） - 存储占用分析

· Machine-Learning · Deep-Learning

ChatGPT出现后，惊人的效果完全颠覆了业界人员包括笔者的认知，抛开其模型细节层面的因素，已公开的训练方法，需要巨量的数据和计算资源，门槛非常高。本文基于公开资料，希望以量化方式分多篇介绍ChatGPT的分析结论，本文为存储占用分析篇。ChatGPT模型结构为Transformer，Transformer模型运行时存储可以分成两部分，其一是模型参数，这部分规模是固定的，其二是中间激活，这部分和batch size、sequence length有线性关系，下面对两者分别分析。

formath ·2023-05-31

Transformer量化分析（一） - 模型参数分析

· Machine-Learning · Deep-Learning

ChatGPT出现后，惊人的效果完全颠覆了业界人员包括笔者的认知，抛开其模型细节层面的因素，已公开的训练方法，需要巨量的数据和计算资源，门槛非常高。本文基于公开资料，希望以量化方式分多篇介绍ChatGPT的分析结论，本文为模型参数分析篇。

Blog