LOADING

长文 | 大模型偏好对齐全家桶 – RL侧

2024/06/06 算法邦
17

长文 | 大模型偏好对齐全家桶 - RL侧

AIGC动态欢迎阅读

原标题:长文 | 大模型偏好对齐全家桶 – RL侧
关键字:模型,答案,概率,知乎,操作
文章来源:算法邦
内容字数:0字

内容摘要:


今天给大家带来一篇Reinforcement Learning from Human Feedback的全家桶,来自知乎@何枝(已授权)。
随着 Llama3 的开源,人们对 Alignment 的重视程度又上一个阶梯。作为 Alignment 家族中的核中核,RLHF 家族也开始变的繁荣昌盛,这对各位 RLer 来说可真是喜闻乐见。今天我们就一起来俯瞰一下当下 RLHF 都有些什么奇巧的魔改思路。
如今,LLM 中主流 RLHF 方向分为两大路线:
以 PPO 为代表的 On Policy 路线
以 DPO 为代表的 Off Policy 路线
PPO:https://arxiv.org/pdf/1707.06347DPO:https://arxiv.org/pdf/2305.18290
那究竟什么是 On Policy,什么是 Off Policy 呢?
我们可以简单理解为:凡是需要 LLM 在训练过程中做 generation 的方法就是 On Policy,反之为 Off Policy。
我们通常会说 On Policy 的方法会更耗卡、训练更耗时,这里的「耗时」主要就体现在模


原文链接:长文 | 大模型偏好对齐全家桶 – RL侧

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。