Test-Time Scaling 与思维强化

Train-Time vs Test-Time Scaling

传统的 scaling law 关注 train-time scaling：增大模型参数量、增加训练数据和计算量，性能稳步提升。但这条曲线正在趋缓——从 100B 到 1T 参数的收益越来越小。

Test-Time Scaling 提出了一个不同的思路：固定模型大小，在推理时投入更多计算来提升输出质量。

Snell et al. (2024) 的关键发现：在某些任务上，增加推理时计算比增大模型更 cost-effective。一个 14B 模型配合足够的 test-time compute，可以超过 70B 模型的直接输出。

Chain-of-Thought (CoT) 不仅仅是一个 prompting 技巧。从 RL 的角度看：

这意味着我们可以用 RL 来优化模型如何思考——不只是优化最终答案，而是优化整个推理过程。这就是 DeepSeek-R1 的核心思路。

最简单的 test-time scaling 方法：生成 N 个回答，用 verifier 选最好的。

Best-of-N 的优势是简单直接，但计算成本与 N 线性增长。对于简单问题，N=1 就够了；对于困难问题，可能需要 N=64 甚至更多。关键是需要一个好的 verifier 来选择最佳答案。

更高级的 test-time scaling 方法是将推理过程建模为树搜索。借鉴 AlphaGo/AlphaZero 的思路：

MCTS 的四步循环：

这种方法比 Best-of-N 更高效，因为它不是独立采样 N 条路径，而是智能地探索和剪枝。

DeepSeek-R1 展示了一种更深刻的 test-time scaling：用 RL 训练模型学会”思考”。

冷启动数据

关键发现：当给模型一个简单的 reward 信号（答案正确性）并用 GRPO 训练时，模型自发涌现了一系列复杂的推理行为：

这些涌现行为包括：

没有人显式地教模型这些行为——它们完全是从”答案对不对”这个简单信号中涌现出来的。

并非所有问题都需要大量推理计算。“2+2=?” 不需要 MCTS 搜索，但 IMO 竞赛题 值得投入大量搜索。

Compute-Optimal 的核心思想是根据问题难度动态分配推理预算：

自动判断问题难度并选择合适策略，是 test-time scaling 走向实用的关键。

本文介绍了 test-time scaling 的核心思想和方法：

从 MDP 基础到 test-time scaling，我们走完了 RL 在 LLM 领域的完整链条。RL 不仅让 LLM 学会”做正确的事”（对齐），更让它学会”如何思考”（reasoning）——这或许是通向更强 AI 的关键路径。