本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

级联与自验证:先试便宜的,不行再升级

级联与自验证:先试便宜的,不行再升级

更新于 2026-04-06

分类器路由(classifier routing)需要构造偏好数据、训练单独的路由模型 — 而级联路由(cascade routing)提供了一种几乎零训练成本的替代方案:从最便宜的模型开始尝试,如果输出质量不足再逐级升级到更强模型。核心洞察是:大约 80% 的实际 query 都足够简单,可以被小模型完成,仅需为剩余的困难 query 调用昂贵模型。

FrugalGPT(Chen et al., 2023)首次系统化地展示了级联策略的有效性,在特定基准上实现高达 98% 的成本削减(其他任务为 50-73%)。AutoMix(Madaan et al., 2023; NeurIPS 2024)进一步消除了外部评分函数的需求,通过 few-shot 自验证(self-verification)让模型评估自己的输出,并将路由决策建模为 POMDP 框架。

§1 FrugalGPT 级联链

FrugalGPT 的核心机制是一条模型链(model cascade),按成本从低到高排序:

chain: M1M2Mn\text{chain: } M_1 \to M_2 \to \cdots \to M_n

对于给定 query qq,系统首先调用 M1M_1(最便宜的模型)生成回答 a1a_1,然后通过评分函数(scoring function)s(q,a1)s(q, a_1) 判断质量:

  • 如果 s(q,a1)>τs(q, a_1) > \tau(置信度阈值),直接返回 a1a_1
  • 否则升级到 M2M_2 生成 a2a_2,重复判断
  • 最坏情况下到达 MnM_n(最强模型),无条件返回其输出

关键问题是如何设计评分函数 ss。FrugalGPT 提出了几种轻量方法:

基于统计的评分

  • 输出 token 数(过短或过长的回答通常质量不佳)
  • Perplexity(困惑度)或平均 log-probability(模型对自己输出的”置信度”)
  • 多次采样的 self-consistency(同一 query 采样多次,回答越一致说明模型越确定)

基于小模型的评分

  • 训练一个轻量分类器(如 DistilBERT)来预测”这个回答是否足够好”
  • 训练数据可以通过强弱模型对比标注:MstrongM_{\text{strong}}MweakM_{\text{weak}} 回答相同 query,标注谁更好

FrugalGPT 在实验中展示了极高的成本削减比例:在 HEADLINES、OVERRULING、COQA 等数据集上,级联策略相比始终使用最强模型,成本降低 59-98%(因任务而异),同时保持相近的质量。原因很直观:简单 query 在第一级就被”拦住了”,避免了昂贵的 GPT-4 调用。

FrugalGPT 级联链先试便宜模型,质量不够再升级"1+1等于几""解释 transformer attention""证明 P≠NP 的可能路径"Llama-8B$0.0002/1K · 质量 60%在此停止Llama-70B$0.005/1K · 质量 82%GPT-4o$0.03/1K · 质量 95%Scoring Function 判断Score = 0.95 > 0.7 → 接受当前回答结果:"1+1等于几"停止模型: Llama-8B · 实际成本: $0.0002/1K简单数学,Llama-8B 置信度高vs 始终用 GPT-4: 成本节省 99.3%

§2 AutoMix 自验证

FrugalGPT 的评分函数引入了额外组件 — 要么是启发式统计,要么是需要训练的分类器。AutoMix(Madaan et al., 2023; NeurIPS 2024)提出了更优雅的方案:让模型评估自己的输出

核心机制是 few-shot 自验证(self-verification):模型生成回答后,用 few-shot prompt 让同一个模型判断”这个回答是否可靠”。

Question: {query}
Your answer: {answer}

Evaluate if your answer is correct and complete.
Respond with "Verified: Yes" or "Verified: No".

如果模型自评通过(Verified: Yes),则返回当前回答;否则升级到下一级模型重新回答。

AutoMix 将路由决策建模为 POMDP(Partially Observable Markov Decision Process,部分可观察马尔可夫决策过程)

  • State ss:query 的真实难度(不可直接观察)
  • Action aa:选择某个模型或升级到下一级
  • Observation oo:模型的输出和自验证结果
  • Reward rr:正确性减去成本,r=1[correct]λcostr = \mathbb{1}[\text{correct}] - \lambda \cdot \text{cost}

POMDP 框架的优势在于:显式建模不确定性。我们不知道 query 的真实难度(部分可观察),只能通过模型输出和自验证结果间接推断。基于 belief state(信念状态)更新,系统可以做出更 principled 的升级决策。

Step 1: 小模型生成回答

Llama-8B 生成初始回答

Query: "解释 RLHF 的三个阶段"

Llama-8B 回答: "RLHF 包括三个阶段:1) 监督微调 (SFT),在人类演示数据上训练;2) 奖励模型训练,学习人类偏好;3) PPO 优化,用奖励信号强化模型..."

成本: $0.0002/1K tokens · 用最便宜的模型先生成回答

AutoMix POMDP 决策过程生成 + 自评score > τscore < τ生成 + 自评score > τscore < τ初始状态调用 Model-S自评分 = 0.65接受回答信念: 需升级调用 Model-M自评分 = 0.92接受回答继续升级状态观察动作

实验表明 AutoMix 在多个数据集上优于 FrugalGPT:可以在保持与强模型相近质量的前提下,将计算成本降低超过 50%。关键优势是自验证不需要额外的路由模型或标注数据 — 只需设计合理的 few-shot prompt。

§3 置信度阈值的 Tradeoff

级联路由的核心超参数是置信度阈值 τ\tau,它直接控制成本-质量权衡:

低阈值(τ\tau 较小)

  • 更多 query 会被升级到更强模型
  • 质量提升,成本增加
  • 适合质量敏感场景(如医疗咨询、法律问答)

高阈值(τ\tau 较大)

  • 更多 query 在第一级就被返回
  • 成本降低,但风险是错误回答未被拦截
  • 适合成本敏感场景(如大规模 chatbot)

实际部署中,τ\tau 的选择取决于业务需求。OpenRouter 等商业路由平台允许用户通过 API 参数动态调整阈值:

response = openrouter.complete(
    prompt=query,
    models=["llama-3-8b", "gpt-4"],
    routing_strategy="cascade",
    confidence_threshold=0.7  # 可根据场景调整
)
置信度阈值 Tradeoff阈值 τ = 50% — 自评分 > τ 则接受,否则升级置信度阈值 (%)02550751000255075100质量成本阈值 τ = 50%质量保持: 83% of GPT-4 · 成本: 相当于 GPT-4 的 28%22% 的 query 被发送到强模型 · 78% 由弱模型直接回答✓ 平衡区间:合理的成本-质量 tradeoff
低阈值 (质量优先)高阈值 (成本优先)

FrugalGPT 实验显示,τ\tau 的最优值通常在 0.6-0.8 之间 — 过低导致升级过于频繁(失去成本优势),过高导致错误答案被放行(质量下降)。AutoMix 通过 POMDP 框架动态调整决策,避免了固定阈值的局限。

§4 验证方式对比

级联路由的有效性取决于验证机制的准确性。主流方法包括三种:

自验证(Self-Verification)

AutoMix 的核心方法:模型评估自己的输出。

优势

  • 零额外推理成本(只需在 prompt 中增加验证指令)
  • 不需要标注数据或训练单独模型
  • 直接利用模型本身的元认知能力(meta-cognitive ability)

局限

  • 模型可能高估或低估自己(校准问题,calibration)
  • 对于强模型(如 GPT-4)效果较好,弱模型的自我评估往往不可靠
  • 需要精心设计 few-shot prompt 来引导正确评估

LLM-as-Judge

用另一个 LLM 评估回答质量。典型做法是用 GPT-4 作为 judge,评估小模型的输出。

优势

  • Judge 模型可以独立校准,不受生成模型影响
  • 可以评估复杂维度(事实正确性、完整性、是否遵循指令)
  • 适合多模型比较(如 AlpacaEval、MT-Bench)

局限

  • 增加额外推理成本(调用 judge 模型)
  • 如果 judge 本身就是最强模型(如 GPT-4),级联优势减弱
  • Judge 模型也有偏见(如 self-preference bias — 倾向于评自己的输出更高)

Confidence-Driven LLM Router(2025)采用混合策略:用小模型自验证作为初筛,仅在边界情况下调用 judge 模型。实验表明这种混合策略可以在保持高准确率的同时,显著减少 judge 调用次数。

三种回答质量评估方式自验证LLM-as-Judge人工评估QueryModel 生成Answer自我评估Score成本: 极低 (~$0)延迟: ~50ms准确度: 中等自验证模型评估自己的回答。便宜快速,但可能"盲目自信"。AutoMix 用 few-shot 校准缓解此问题。

人类评估(Human Evaluation)

在线路由系统中,人类反馈(如点赞/点踩、后续编辑)是验证质量的金标准。

优势

  • 真实反映用户满意度
  • 可以捕捉模型无法察觉的细微质量问题
  • 为在线学习提供高质量 reward 信号

局限

  • 延迟高(需要等待用户反馈)
  • 成本高(标注人力或用户时间)
  • 覆盖率低(大多数 query 不会收到显式反馈)

实际系统通常采用混合方案:自验证用于实时路由决策,LLM-as-Judge 或人类评估用于离线评估和模型更新。

总结

级联路由是 model routing 中最简单、最实用的方法之一 — 不需要偏好数据、不需要训练分类器,只需要一条按成本排序的模型链和一个验证机制。FrugalGPT 系统化地展示了级联策略的有效性,AutoMix 通过自验证和 POMDP 框架进一步减少了工程开销。

核心 tradeoff 在于置信度阈值:低阈值优先质量、高阈值优先成本,实际部署需要根据业务场景调整。验证方式的选择也有权衡:自验证最轻量但可能不准确,LLM-as-Judge 更可靠但增加成本,人类评估最准确但延迟高。

级联路由特别适合流量分布不均的场景 — 如果 80% 的 query 都很简单,级联可以带来数量级的成本节省。但它有一个根本局限:假设了能力的严格偏序(小模型能做的,大模型一定也能做),而现实中模型能力往往是互补的(specialized models 在某些任务上比 general models 更好)。下一篇文章将探讨 Hybrid LLM routing — 如何在本地小模型和云端大模型之间路由,这里隐私、延迟和成本的权衡变得更加复杂。