Blog

算法从业者

  
对业界LLM的各种强化学习策略做个梳理
两年前ChatGPT出现后,出现了许多开源项目尝试复现其效果,我当时研究了一下开源的强化学习实现,包括DeepSpeed-Chat、ColossalChat、TRLX等,整理了一篇DeepSpeed-Chat的强化逻辑。 后来,强化学习又出来了很多,一些认知在业界也逐渐收敛,本文对当前业界常用的LLM强化学习策略做一下简单整理。
DeepSpeed-Chat强化学习策略
ChatGPT出现后,已经有许多开源项目尝试复现其效果,包括LLaMa、DeepSpeed-Chat、ColossalChat、ChatGLM等。其中DeepSpeed-Chat是微软Deep Speed团队的开源项目,其完整的提供了Supervised Fine-tuning、Reward Model Training、RLHF PPO Traing三阶段的代码,逻辑简单,模块划分清晰,另外也由于Deep Speed在大模型训练中的使用非常普遍,所以笔者近期正在研究DeepSpeed-Chat的代码。本文以DeepSpeed-Chat的实现为例,详细介绍下RLHF——基于人类反馈的强化学习策略,并与经典Off-Policy Actor-Critic策略做对比。