RLHF 的痛点
上一篇我们完整介绍了 RLHF 的三阶段 pipeline。虽然它成功推动了 ChatGPT 的诞生,但也暴露了几个核心痛点:
- 训练复杂度高:需要同时运行 4 个模型(policy, reference, RM, critic),PPO 训练不稳定
- Reward Model 是瓶颈:RM 质量直接限制对齐效果天花板,且容易被 exploit
- 超参数敏感:PPO 的 clip epsilon、learning rate、KL penalty β 等参数需要精心调优
能不能跳过 RM 和 PPO,直接从偏好数据优化策略?这就是 DPO 的核心动机。
DPO 核心推导
DPO 的关键洞察是:在 RLHF 框架中,最优策略和 reward function 之间存在 closed-form 关系。
从 RLHF 的 KL 约束优化目标出发:
maxπE[r(x,y)]−β⋅KL(π∥πref)
可以推导出最优策略为:
π∗(y∣x)=Z(x)1πref(y∣x)exp(β1r(x,y))
反过来,reward 可以用策略表示:
r(x,y)=βlogπref(y∣x)π∗(y∣x)+βlogZ(x)
将这个关系代入 Bradley-Terry 模型后,Z(x) 项消除,得到 DPO Loss:
LDPO(θ)=−E[logσ(β(logπref(yw∣x)πθ(yw∣x)−logπref(yl∣x)πθ(yl∣x)))]
DPO 的优势与问题
优势:
- 去掉了 Reward Model 和 PPO,只需要 2 个模型(policy + reference)
- 训练过程和 SFT 一样简单(前向传播 + 反向传播)
- 不需要在线采样,直接在离线偏好数据上训练
问题:
- Offline 数据分布偏移:训练数据来自旧策略,随着模型更新,数据和当前策略不匹配
- 对数据质量敏感:偏好对中的噪音会直接影响优化方向
- 容易过拟合:在小数据集上特别明显
IPO 与 KTO
为了解决 DPO 的问题,研究者提出了多种变体:
IPO (Identity Preference Optimization):加入正则项防止过拟合,让模型不需要将偏好对的 margin 推到无穷大。
KTO (Kahneman-Tversky Optimization):最大的创新是不需要配对偏好数据——只需要知道每个回答是”好”还是”坏”,大大降低了数据标注成本。
GRPO:DeepSeek 的方案
GRPO (Group Relative Policy Optimization) 来自 DeepSeek,核心创新是去掉 Critic 网络:
- 对同一个 prompt,采样一组(G 个)回答
- 用 reward function(可以是规则或 RM)给每个回答打分
- 用组内相对排序计算 Advantage:Ai=std(r)ri−mean(r)
- 用 PPO-style 的 clipped objective 更新策略
GRPO 的优势是不需要 Critic 网络(省一个大模型的 GPU 内存),而且在线采样避免了分布偏移。DeepSeek-R1 用 GRPO + 规则 reward 训练出了涌现 thinking 能力的模型。
DPO (Offline)
方法选型
没有完美的对齐方法。选择取决于你的约束条件:
| 维度 | RLHF | DPO | GRPO |
|---|
| 训练复杂度 | 高(4 模型) | 低(2 模型) | 中(2 模型 + 在线生成) |
| 数据需求 | 偏好对 + prompts | 偏好对 | Prompts + reward rule |
| 训练稳定性 | PPO 不稳定 | 稳定如 SFT | 较稳定 |
| 性能天花板 | 高(在线优化) | 中(offline 限制) | 高(在线 + 涌现) |
| 适用场景 | 追求最佳对齐 | 快速迭代、资源有限 | 数学/推理任务 |
总结
- DPO 用 closed-form 关系消除了 RM 和 PPO,让对齐训练简单如 SFT
- IPO 加正则防过拟合,KTO 去除配对数据依赖
- GRPO 去掉 Critic 用组采样计算 Advantage,兼顾效率和在线优化
- 选择方法需权衡:训练资源 / 数据质量 / 性能需求
- DeepSeek-R1 展示了 GRPO 在 reasoning 任务上的巨大潜力
下一篇我们将深入 Reward 设计:ORM vs PRM、reward hacking 的深层原因、以及 reward model 如何进化为 verifier。