为什么需要对齐
预训练语言模型有一个根本问题:它的训练目标是”预测下一个 token”,而不是”成为一个有帮助、诚实、无害的助手”。这意味着:
- 模型可能生成有害内容(训练数据中包含有害文本)
- 模型不遵循指令(它学的是补全文本,不是回答问题)
- 模型会编造事实(它不理解”真实”,只理解”看起来合理”)
- 模型的格式和风格不符合用户期望
对齐(Alignment)的目标是让模型的行为符合人类的期望和价值观。挑战在于:“有帮助且安全”无法直接编码为一个 loss function。我们需要某种方式将人类偏好转化为优化信号——这就是 RLHF 的核心动机。
RLHF 三阶段流程
InstructGPT (2022) 确立了 RLHF 的标准三阶段 pipeline:
阶段 1:SFT (Supervised Fine-Tuning)
用人工编写的高质量 (prompt, response) 数据对预训练模型做监督微调。这让模型学会”遵循指令”的基本格式和能力。
阶段 2:Reward Model 训练
收集人类偏好数据——对同一个 prompt 的两个回答,标注哪个更好——训练一个 Reward Model 将人类偏好量化为标量分数。
阶段 3:PPO 策略优化
用 Reward Model 作为 reward 信号,PPO 优化 LLM 策略,使其生成的回答获得更高的 RM score。同时加入 KL 惩罚防止偏离。
Reward Model 训练
Reward Model 的训练是 RLHF 最关键的一环。它需要将模糊的”人类偏好”转化为精确的数学信号。
训练数据是偏好对 (yw,yl):对同一个 prompt x,人类标注者选择 yw(赢家)优于 yl(输家)。
Bradley-Terry 模型将偏好建模为概率:
P(yw≻yl∣x)=σ(rϕ(x,yw)−rϕ(x,yl))
训练损失函数:
L(ϕ)=−E(x,yw,yl)[logσ(rϕ(x,yw)−rϕ(x,yl))]
偏好对收集
PPO 对齐优化
有了 Reward Model,我们可以用 PPO 优化 LLM。优化目标是:
maxθEx∼D,y∼πθ(⋅∣x)[rϕ(x,y)−β⋅KL(πθ∥πref)]
其中 πref 是 SFT 模型(作为参考策略),β 是 KL 惩罚系数。
这个目标函数的含义:最大化 RM score,但不要偏离预训练模型太远。
KL 约束的重要性
KL 散度 KL(πθ∥πref) 衡量新策略和参考策略之间的”距离”。β 控制着这个约束的强度。
没有 KL 惩罚会怎样?模型会发现 RM 的弱点并疯狂利用——这就是 Reward Hacking。
RLHF 的局限
虽然 RLHF 取得了巨大成功(InstructGPT、ChatGPT),但它也有明显的局限:
-
Reward Model 是瓶颈
- RM 的质量直接限制了对齐效果的天花板
- 人类偏好不一致(不同标注者可能给出相反判断)
- RM 容易被 exploit(reward hacking)
-
训练复杂度高
- 需要同时运行 4 个模型:policy、reference policy、reward model、critic
- PPO 训练不稳定,超参数敏感
- 计算资源需求大
-
标注成本高
这些局限催生了 DPO 和 GRPO 等替代方案——在下一篇文章中详述。
总结
本文完整介绍了 RLHF 的三阶段流程:
- SFT 让模型学会遵循指令的基本能力
- Reward Model 将人类偏好量化为标量分数(Bradley-Terry 模型)
- PPO 优化策略使 LLM 对齐,KL 惩罚防止 reward hacking
- Reward Hacking 是没有 KL 约束时的主要风险
- RLHF 虽成功但复杂 → 催生了 DPO、GRPO 等更简洁的方案
下一篇我们将深入 DPO 和 GRPO,看如何跳过 Reward Model 直接从偏好数据优化策略。