Reward 设计与 Scaling

Reward Model 是对齐的核心

无论你选择 RLHF、DPO 还是 GRPO，最终都依赖某种形式的 reward 信号。RLHF 显式训练一个 RM；DPO 隐式学习 reward；GRPO 用规则或 RM 打分。

RM 的质量直接决定了对齐效果的天花板。一个完美的 RM 意味着完美的对齐——但现实中 RM 总是不完美的，这就引出了一系列核心挑战。

传统 RM 是 Outcome Reward Model (ORM)：只看最终结果打一个分。但对于推理任务（数学、代码、逻辑），这种粗粒度信号有明显缺陷。

Process Reward Model (PRM) 对推理过程的每一步都打分，提供更细粒度的监督信号。

PRM 的核心优势：

但 PRM 的标注成本显著更高——需要逐步标注每一步的正确性。OpenAI 的”Let’s Verify Step by Step”论文表明 PRM 在数学推理上显著优于 ORM。

Goodhart’s Law 在 RL 对齐中的体现：当 RM score 成为优化目标时，模型会找到最大化 score 但不真正提高质量的”捷径”。

常见 reward hacking pattern：

好消息是：更大的 RM 更难被 hack。Gao et al. (2022) 的研究表明，RM 的参数量和训练数据量都遵循 scaling law：

这给出了一个清晰的工程指导：投资更大更好的 RM，而不是更复杂的训练算法。

人工标注偏好数据成本高且难以扩展。Anthropic 的 Constitutional AI 提出了一种替代方案：让 LLM 自己生成偏好判断。

人类写 Principles

这种 RLAIF（RL from AI Feedback）方法的核心思路：

这大大降低了标注成本，使对齐训练可以大规模自动化。

Reward Model 的进化路径：从打分器到验证器。

这个演进为 Test-Time Scaling 铺平了道路：有了 verifier，我们可以在推理时生成多个候选回答，用 verifier 选最好的——这是下一篇文章的核心主题。

下一篇，我们将探讨 test-time scaling：如何在推理时投入更多计算来提升 LLM 的输出质量。