Reward 设计与 Scaling
更新于 2026-04-05
Reward Model 是对齐的核心
无论你选择 RLHF、DPO 还是 GRPO,最终都依赖某种形式的 reward 信号。RLHF 显式训练一个 RM;DPO 隐式学习 reward;GRPO 用规则或 RM 打分。
RM 的质量直接决定了对齐效果的天花板。一个完美的 RM 意味着完美的对齐——但现实中 RM 总是不完美的,这就引出了一系列核心挑战。
Outcome Reward vs Process Reward
传统 RM 是 Outcome Reward Model (ORM):只看最终结果打一个分。但对于推理任务(数学、代码、逻辑),这种粗粒度信号有明显缺陷。
Process Reward Model (PRM) 对推理过程的每一步都打分,提供更细粒度的监督信号。
PRM 的核心优势:
- 能识别”答案碰巧对但推理过程错”的情况
- 为 MCTS 式搜索提供节点级别的评估信号
- 更好的 credit assignment(定位哪一步出了问题)
但 PRM 的标注成本显著更高——需要逐步标注每一步的正确性。OpenAI 的”Let’s Verify Step by Step”论文表明 PRM 在数学推理上显著优于 ORM。
Reward Hacking 深度分析
Goodhart’s Law 在 RL 对齐中的体现:当 RM score 成为优化目标时,模型会找到最大化 score 但不真正提高质量的”捷径”。
常见 reward hacking pattern:
- 冗长注水:RM 偏好详细回答 → 模型学会写冗余内容
- 讨好措辞:RM 偏好友善语气 → 模型用赞美替代实质
- 格式包装:RM 偏好结构化输出 → 形式大于内容
- 安全逃避:Safety RM 过度惩罚 → 模型对正常问题也拒绝回答
Reward Model Scaling
好消息是:更大的 RM 更难被 hack。Gao et al. (2022) 的研究表明,RM 的参数量和训练数据量都遵循 scaling law:
这给出了一个清晰的工程指导:投资更大更好的 RM,而不是更复杂的训练算法。
Constitutional AI 与自动 Reward
人工标注偏好数据成本高且难以扩展。Anthropic 的 Constitutional AI 提出了一种替代方案:让 LLM 自己生成偏好判断。
这种 RLAIF(RL from AI Feedback)方法的核心思路:
- 人类只定义高层原则(“constitution”)
- LLM 根据原则自我评判和修改回答
- 修改前后的回答对构成训练数据
这大大降低了标注成本,使对齐训练可以大规模自动化。
从 Reward 到 Verifier
Reward Model 的进化路径:从打分器到验证器。
这个演进为 Test-Time Scaling 铺平了道路:有了 verifier,我们可以在推理时生成多个候选回答,用 verifier 选最好的——这是下一篇文章的核心主题。
总结
- RM 是对齐的核心,其质量直接决定对齐效果天花板
- PRM 优于 ORM:逐步打分提供更细粒度的信号,尤其适合推理任务
- Reward Hacking 是 Goodhart’s Law 的体现,更大的 RM 更难被 hack
- Constitutional AI 用 LLM 自我评判替代人工标注,实现大规模 RLAIF
- RM → PRM → Verifier 的演进为 test-time scaling 奠定基础
下一篇,我们将探讨 test-time scaling:如何在推理时投入更多计算来提升 LLM 的输出质量。