本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

在线学习与成本优化:路由也需要持续进化

在线学习与成本优化:路由也需要持续进化

更新于 2026-04-06

在静态路由策略中,我们预先训练好一个分类器,然后持续使用它。但现实世界是动态的:模型 API 的价格会变化,用户查询的分布会漂移,新模型不断发布。在线学习 (Online Learning) 让路由器在生产环境中持续适应这些变化,同时在探索 (Exploration) 和利用 (Exploitation) 之间取得平衡,最终实现质量与成本的帕累托最优。

Multi-armed Bandit:探索与利用的平衡

将模型选择视为 Multi-armed Bandit (MAB) 问题:每个模型是一个”臂” (arm),每次路由决策相当于”拉动”一个臂,奖励 (reward) 定义为:

R=qualityλcostR = \text{quality} - \lambda \cdot \text{cost}

其中 λ\lambda 控制成本敏感度。核心挑战是探索与利用的权衡

  • Exploitation (利用):选择当前已知最优的模型,最大化即时奖励
  • Exploration (探索):尝试其他模型,收集更多信息,可能发现更好的策略

经典算法包括:

  • ε-greedy:以概率 ϵ\epsilon 随机探索,以概率 1ϵ1-\epsilon 选择当前最优臂。简单但探索效率低。
  • Upper Confidence Bound (UCB):为每个臂计算置信上界,选择 UCB 最高的臂。平衡了期望奖励和不确定性。
  • Thompson Sampling:贝叶斯方法,根据后验分布采样,自然平衡探索与利用。

在路由场景中,每个查询到达时,算法根据历史奖励更新模型的价值估计,然后选择当前最优模型。下图展示了三种算法在相同设置下的探索行为:

Multi-armed Bandit 探索ε-greedy: 20% 探索 · 80% 利用 · 共 0 次选择GPT-4o选择 0 估值: ?手动选择Claude Sonnet选择 0 估值: ?手动选择Llama-70B选择 0 估值: ?手动选择GPT-4o-mini选择 0 估值: ?手动选择最近选择:累计 net reward: 0.00
ε:20%

随着时间推移,算法逐渐收敛到最优策略,但需要付出探索成本。Thompson Sampling 通常在 Bandit 问题中表现最佳,因为它能更智能地分配探索预算。

RL Routing:从反馈中学习路由策略

强化学习 (Reinforcement Learning) 将路由建模为序贯决策问题:

  • State (状态):查询特征 ss(嵌入、意图标签、上下文等)
  • Action (动作):选择模型 a{m1,m2,,mk}a \in \{m_1, m_2, \ldots, m_k\}
  • Reward (奖励)R=quality(s,a)λcost(a)R = \text{quality}(s, a) - \lambda \cdot \text{cost}(a)

路由器学习策略 π(as)\pi(a|s),最大化累积奖励:

maxπEsp(s),aπ(s)[R(s,a)]\max_\pi \mathbb{E}_{s \sim p(s), a \sim \pi(\cdot|s)}[R(s, a)]

RouteLLM (2024) 提出用偏好数据 (preference data) 训练路由器:给定查询 ss 和两个模型的响应,人类标注更优者。通过 preference learning,路由器学会为每个查询选择最可能产生高质量响应的模型,同时考虑成本约束。训练后的路由器可以在线调整,持续从新的偏好反馈中学习。

下图展示了 RL 路由的奖励信号如何随时间演化:

RL Routing: State → Action → Reward 循环简单翻译代码分析知识问答StateActionRewardUpdateStateQuery: "简单翻译" → 低复杂度RL 关键公式:R = Quality(a, q) - λ·Cost(a)λ 控制成本敏感度:λ大 → 偏好便宜模型λ小 → 偏好高质量模型
Step 1 / 4

奖励信号的方差在早期较大(探索阶段),随着策略收敛逐渐减小(利用阶段)。RL 方法比 Bandit 更强大,因为它能捕捉状态-动作的复杂依赖关系,但训练成本更高。

Pareto 前沿与成本约束

在多目标优化中,Pareto 前沿 (Pareto Frontier) 定义了质量-成本空间中无法被严格支配的模型集合:如果模型 AA 在质量和成本上都不差于模型 BB,且至少一个维度严格更优,则 AA 帕累托支配 BB。理想的路由策略应该只在 Pareto 前沿上的模型之间切换。

下图展示了一个典型的 Pareto 前沿:

Pareto 前沿:成本 vs 质量点击右侧列表添加/移除模型,观察 Pareto 前沿变化成本 →质量 →Phi-3-miniLlama-8BGPT-4o-miniMixtral-8x7BLlama-70BClaude SonnetGPT-4o模型列表:Phi-3-mini Llama-8B GPT-4o-mini Mixtral-8x7B Llama-70B Claude Sonnet GPT-4o ⭐ = Pareto 最优前沿上的模型在其成本下质量最高Pareto 前沿: 6 个模型Phi-3-mini → Llama-8B → GPT-4o-mini → Llama-70B → Claude Sonnet → GPT-4o添加新模型可能改变前沿 · ParetoBandit (2026) 在此基础上做 cost-aware 选择

点击图中的模型可以查看其质量-成本权衡。Pareto 前沿上的模型(蓝色)代表不同的最优选择,具体选哪个取决于用户的成本预算 BB 或质量要求 QminQ_{\min}

动态价格适应

现实中,API 定价并非固定。OpenAI、Anthropic 等服务商会根据需求调整价格,或提供批量折扣。动态价格适应 (Dynamic Price Adaptation) 要求路由器实时监控价格变化,重新计算 Pareto 前沿,调整路由决策。

动态价格适应API 价格波动时路由策略自动调整 · 当前: T=0GPT-4oClaude SonnetLlama-70BT=0 路由决策:GPT-4o价格: $30/M tokens动态路由策略GPT-4 价格 > $35 → 降级到 Claude · Claude 价格 > $17 → 降级到 Llama在线学习 (Bandit/RL) 可以自动发现这些规律,无需手动设定阈值Llama-70B 自部署,价格恒定 — 这是 self-hosted 模型的优势
时间步:T=0

上图模拟了价格波动场景:当某个模型降价时,它可能从 Pareto 前沿外移入前沿内,路由器应立即增加其使用比例。在线学习算法(如 Bandit)天然适应这种变化,因为它们持续更新奖励估计。

Batch vs Query-level 路由

传统的 per-query routing 为每个查询独立选择模型,简单高效,但忽略了全局约束:

  • GPU 并发限制:自托管模型有最大并发数,超载会导致延迟飙升
  • 总预算约束:生产系统通常有每日或每月的总成本预算
  • 批量折扣:某些 API 提供批量调用折扣,单独路由无法利用

Batch-level routing 将路由视为全局优化问题:给定一批查询 {q1,,qn}\{q_1, \ldots, q_n\} 和约束(预算 BB,并发限制 CC),找到分配 {(qi,mj)}\{(q_i, m_j)\} 最大化总质量:

maxi=1nquality(qi,mj)s.t.i=1ncost(mj)B,concurrency(mj)C\max \sum_{i=1}^n \text{quality}(q_i, m_j) \quad \text{s.t.} \quad \sum_{i=1}^n \text{cost}(m_j) \leq B, \, \text{concurrency}(m_j) \leq C

Robust Batch-Level LLM Routing (2026) 提出用整数线性规划 (ILP) 或启发式算法求解批量路由,同时考虑模型性能的不确定性(用置信区间建模)。实验表明,批量路由在严格预算约束下相比逐查询路由可显著提升质量。

Query-level vs Batch-level 路由Query-levelBatch-level逐条路由决策:Q1: 翻译 (easy)Llama-8BQ2: 代码 (hard)GPT-4Q3: 问答 (easy)Llama-8BQ4: 分析 (hard)GPT-4Q5: 翻译 (easy)Llama-8BQ6: 推理 (hard)GPT-4Query-level 结果GPT-4 使用次数: 3· 总成本: $93逐条决策: 每个 query 独立判断,不考虑全局约束简单但无法处理 GPU 并发限制、全局成本约束等场景成本: $93 · 质量: 最优(per-query)

上图对比了两种路由方式的成本-质量曲线。批量路由通过全局协调,能在相同预算下达到更高质量,或在相同质量下降低成本。但批量路由需要缓冲查询(增加延迟),且计算开销更大,适合离线或半在线场景。

总结

在线学习将路由从”一次性训练”变为”持续进化”的系统:

  • Bandit 算法 提供简单的探索-利用框架,适合快速适应环境变化
  • RL 方法 捕捉复杂的状态-动作依赖,但需要更多训练数据
  • Pareto 优化 明确了质量-成本的多目标权衡,动态价格适应确保策略始终最优
  • 批量路由 通过全局优化突破单查询路由的局限,在约束场景下显著提升效率

核心权衡是探索成本 vs 利用效率:探索能发现更好的策略,但需要承担试错的代价。在生产系统中,通常采用保守的探索策略(小 ϵ\epsilon 或高置信度阈值),在离线环境中验证后再部署。

下一篇文章将探讨模型混合与协作路由 (Mixture of Agents):不再是”选一个模型”,而是让多个模型协同工作,通过投票、串联或并行生成来提升整体性能。