LOADING

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

2024/06/06 机器之心
20

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

AIGC动态欢迎阅读

原标题:这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单
关键字:模型,字节跳动,算法,内存,张量
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:Panda随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解决这一难题方面,一种强大的技术是根据人类反馈的强化学习(RLHF)。
但是,随着模型越来越大,RLHF 通常需要维持多个模型以及越来越复杂的学习流程,这又会导致内存和计算资源需求增长。举个例子,近端策略优化(PPO,这是 RLHF 常用的一种算法)需要在训练过程中维持四个模型。
由此,当语言模型的参数规模超过 700 亿时,为了训练和协调多个模型,所需的计算资源和调度复杂性会显著增长 —— 这是当前的架构设计难以满足的需求。
Transformer 强化学习(TRL)、ColossalChat(CAIChat)和 DeepSpeed-Chat(DSChat)等现有的开源 RLHF 框架是依靠零冗余优化器(Zero Redundancy Optimizer/ZeRO),来将 RLHF 训练涉及的四个模型配置到同一台 GPU 上。这个过程被称为 co-location,即空间并置。
但是,随着模型参数规模超过 700 亿,在内存有限


原文链接:这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台