这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

2024/06/06 机器之心

AIGC动态欢迎阅读

原标题：这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单
关键字：模型,字节跳动,算法,内存,张量
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：Panda随着大型语言模型（LLM）规模不断增大，其性能也在不断提升。尽管如此，LLM 依然面临着一个关键难题：与人类的价值和意图对齐。在解决这一难题方面，一种强大的技术是根据人类反馈的强化学习（RLHF）。
但是，随着模型越来越大，RLHF 通常需要维持多个模型以及越来越复杂的学习流程，这又会导致内存和计算资源需求增长。举个例子，近端策略优化（PPO，这是 RLHF 常用的一种算法）需要在训练过程中维持四个模型。
由此，当语言模型的参数规模超过 700 亿时，为了训练和协调多个模型，所需的计算资源和调度复杂性会显著增长 —— 这是当前的架构设计难以满足的需求。
Transformer 强化学习（TRL）、ColossalChat（CAIChat）和 DeepSpeed-Chat（DSChat）等现有的开源 RLHF 框架是依靠零冗余优化器（Zero Redundancy Optimizer/ZeRO），来将 RLHF 训练涉及的四个模型配置到同一台 GPU 上。这个过程被称为 co-location，即空间并置。
但是，随着模型参数规模超过 700 亿，在内存有限

原文链接：这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

联系作者

文章来源：机器之心
作者微信：almosthuman2014
作者简介：专业的人工智能媒体和产业服务平台

OpenI

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

AIGC动态欢迎阅读

内容摘要：

联系作者