Model Routing 全景：为什么一个模型不够

前置推荐: 如果你还不熟悉 LLM benchmark 的评估体系和各排行榜的解读方法，建议先阅读 LLM 评估与 Benchmark 深度解析路径，特别是最后一篇排行榜解读与模型选型。

GPT-4 级别的模型和 Llama-3-8B 级别的模型之间，能力差距巨大，而价格差距更大 — 可达 100 倍。但实际生产流量中，大约 80% 的 query 并不需要最强的模型：问”今天星期几”和”证明黎曼猜想的等价命题”显然不在同一个难度级别。

Model Routing（模型路由）的核心命题是：根据每个 query 的难度和性质，自动选择最合适的模型，在质量、成本、延迟和隐私之间取得最优平衡。这不是一个新想法 — 从 2023 年 FrugalGPT 提出级联策略，到 2024 年 RouteLLM 开源路由框架，再到 2025-2026 年各方向的集中爆发，model routing 已经从学术概念演变为生产级系统的核心组件。

§1 为什么需要路由

单一模型方案面临一个根本性的多维权衡困境：

成本：GPT-4 级别的 API 调用价格远高于小模型，大规模应用中成本线性增长
延迟：更大的模型意味着更长的首 token 时间（TTFT）和生成时间
质量：小模型在复杂推理、代码生成、多步逻辑等任务上明显不足
隐私：某些 query 包含敏感信息，不适合发送到第三方 API

关键洞察是：这四个维度不可能同时最优，但可以按 query 分别优化。RouteLLM（Ong et al., 2024）在实验中证明，通过训练路由器在 GPT-4 和较小模型之间智能切换，可以在几乎不损失质量的前提下，将 API 调用成本降低 2 倍以上。FrugalGPT（Chen et al., 2023）更是展示了通过级联策略，在特定基准任务上实现高达 98% 的成本削减（其他任务为 50-73%）。

0%100%

§2 路由方法分类框架

Model routing 的方法空间可以从三个正交维度来理解：

按路由粒度：

Query-level：整个请求选择一个模型处理，最简单也最常见
Subtask-level：将复杂请求拆分为子任务，各自路由到不同模型（如 HybridFlow 的 DAG 路由）
Token-level：在生成过程中逐 token 判断是否需要切换模型，粒度最细但开销最大

按决策时机：

静态路由：部署前确定规则或训练好分类器，运行时直接查表/推理
动态路由：运行时持续收集反馈并更新路由策略（bandit、RL）

按模型使用方式：

选一个（routing）：为每个 query 选择单一模型
先试后验（cascade）：从便宜模型开始，验证不通过则升级
全都用（ensemble / MoA）：多个模型同时回答，综合结果

在路由器实现层面，主流方法包括：Matrix Factorization（MF，偏好数据学评分函数）、BERT 分类器（微调做 strong/weak 二分类）、Causal LM（小语言模型做路由判断）、Semantic Routing（embedding 匹配，无需训练）、自验证（模型评估自己的输出置信度）、LLM-as-Judge（另一个 LLM 评估）、Bandit/RL（在线学习）、以及基础设施级路由（负载均衡、fallback）。

§3 各方法核心原理

分类器路由

分类器路由的核心思路是：训练一个轻量模型来预测”这个 query 需要强模型吗？”。

Matrix Factorization（MF）路由器利用 Chatbot Arena 的人类偏好数据 — 每条数据记录了一个 query 下两个模型的胜负关系。MF 将 query 和 model 映射到同一低维向量空间，通过向量内积预测偏好得分。直觉上，这等于学习了”query 难度”和”模型能力”两个隐向量的匹配关系。RouteLLM 的实验表明 MF router 在成本-质量权衡上表现最稳定。

BERT 分类器走更直接的路线：用强弱模型分别回答同一批 query，标注哪个回答更好，然后微调 BERT 做二分类。优势是训练简单、推理极快（~1ms）；劣势是需要构造高质量标注数据。

Causal LM 路由器（如 Small Models as Routers, 2026）用 1-4B 参数的小语言模型做路由判断，利用小模型本身的语义理解能力。这种方法的关键优势是 zero-marginal-cost — 如果小模型本身就是候选模型之一（被路由到时直接继续生成），路由判断不产生额外计算开销。

级联与自验证

级联（cascade）策略的哲学是”从便宜开始，按需升级”。

FrugalGPT（Chen et al., 2023）定义了经典的级联框架：query 首先发送给最便宜的模型，通过一个评分函数（scoring function）评估回答质量，如果置信度不足则逐级升级到更强（也更贵）的模型。实验显示这种策略可以在保持 GPT-4 同等质量的同时降低高达 98% 的成本 — 因为绝大多数简单 query 在第一级就能得到满意的回答。

AutoMix（Madaan et al., 2023; NeurIPS 2024）将路由建模为 POMDP（部分可观察马尔可夫决策过程），核心创新是用 few-shot 自验证 让模型评估自己的输出。模型生成回答后，用 few-shot prompt 让同一个模型判断”这个回答是否可靠”，如果自评不通过则升级到更强模型。这避免了训练单独的路由分类器。

Hybrid LLM：本地与云端

Hybrid LLM routing 自动判断 query 应该走本地小模型还是云端大模型，是最贴近实际部署的场景（如 Apple Intelligence 的 on-device + Private Cloud Compute 架构）。

这里有一个常见误解需要澄清：能力匹配是第一驱动因素，而非成本或延迟。只有当本地模型有能力处理某个 query 时，成本和隐私优势才有意义。此外，本地不等于低延迟 — 消费级硬件上的推理速度可能远慢于云端 A100/H100 集群，本地的优势在于零网络延迟和数据不出设备。

隐私维度增加了额外复杂性。PRISM（AAAI 2026）实现了实体级隐私敏感度检测 — 不是粗暴地将所有包含人名的 query 都留在本地，而是细粒度判断哪些实体真正敏感，从而在隐私保护和模型能力之间取得更精确的平衡。

在线学习

静态路由器的局限在于：模型能力和使用场景会随时间变化。在线学习方法通过 explore/exploit（探索/利用）权衡来持续优化路由策略。

经典的 contextual bandit 方法将每次路由决策视为一个 arm 选择：根据 query 的上下文特征选择模型，观察回答质量作为 reward，更新策略。ParetoBandit（2026）将其扩展到多目标优化 — 同时优化质量和成本，在 Pareto 前沿上寻找最优 tradeoff，而非简单地优化单一指标。

多模型协作

多模型协作代表了一种哲学转变：不是”选一个最好的”，而是”让多个模型一起给出更好的答案”。

Mixture-of-Agents（MoA） 让多个 LLM 分层协作 — 第一层各自独立回答，后续层综合前一层的输出进行迭代优化。需要注意 MoA 和 Mixture-of-Experts（MoE）是完全不同的概念：MoE 是模型内部的架构设计（token-level 的专家路由），而 MoA 是模型间的协作框架（query-level 的多模型综合）。

Council Mode（2026）是多模型协作在生产环境中的实践：并行调用多个 LLM，通过综合机制合并回答。实验表明这种方法可以将幻觉率（hallucination rate）降低 35.9%，核心原因是不同模型的幻觉模式通常不同，交叉验证能有效过滤错误信息。

§4 多维度对比

训练需求与部署门槛

不同路由方法对训练的要求差异很大，这直接影响部署难度：

无需训练：Semantic Router（通用 embedding 即可）、AutoMix 自验证（few-shot prompt）、多模型协作（直接并行调用）— 可即插即用，但路由精度通常较低
需要离线训练：MF Router（需要大量偏好对数据，如 Chatbot Arena）、BERT 分类器（需构造 strong/weak 标注集）、Causal LM Router（需 GPU 微调）— 路由精度更高，但候选模型更换时可能需要重新训练
在线学习：Bandit/RL 方法在运行时持续优化 — 冷启动期路由质量差，需要积累足够交互才能收敛

核心 tradeoff：训练投入越大，路由越精准；但免训练方法的部署门槛更低。实际系统中常见的做法是先用免训练方法（如 Semantic Router 或级联）快速上线，积累数据后再切换到训练过的分类器。

性能对比

不同路由方法在精度、成本、延迟和适用场景上的差异很大。以下三个可视化从不同角度呈现这些 tradeoff：

§5 论文与系统全景

Model routing 领域从 2023 年的探索期迅速进入 2025-2026 年的爆发期，论文和开源系统密集涌现：

在实际系统层面，几个代表性项目值得关注：

RouteLLM（lm-sys/RouteLLM）：开源路由框架，实现了 MF、BERT、Causal LM、SW 四种 router，可直接集成到 OpenAI 兼容的 API 调用中
OpenRouter：商业 API 网关，聚合数十个 LLM 提供商，支持基于模型能力和价格的自动路由
LiteLLM：基础设施级路由层，提供统一 API 接口 + fallback + 负载均衡，100+ 模型提供商支持
Martian：商业路由平台，基于模型能力指纹（capability fingerprinting）的智能路由

总结

Model routing 没有银弹。分类器路由训练简单但需要偏好数据；级联方法对简单 query 极其高效但多轮调用增加延迟；Hybrid LLM 最贴近实际部署但需要精确的能力评估；在线学习能自适应但冷启动成本高；多模型协作质量最高但成本和延迟也最高。

选择哪种方法取决于你的场景：高吞吐 API 服务倾向分类器路由，成本敏感场景适合级联，隐私优先选 Hybrid，需要持续优化选在线学习，质量至上选多模型协作。后续文章将逐一深入每种方法的算法细节和实现。