本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

多模型协作:从选一个到用多个

多模型协作:从选一个到用多个

更新于 2026-04-06

重要概念区分:MoE (Mixture of Experts) 是单个模型内部的专家路由机制,而 MoA (Mixture of Agents) 是多个完整 LLM 模型之间的协作——粒度完全不同。

前面几篇文章讨论的都是”如何选择一个最合适的模型”,但还有另一种思路:为什么要选?能不能同时用多个模型,然后综合它们的答案?这就是 Mixture of Agents (MoA) 的核心思想。

选择 vs 综合

Model Routing 的传统范式是选择 (Selection):给定一个请求,路由器选出一个最合适的模型。这种方式高效,成本可控,但可能错过其他模型的优势。

综合 (Synthesis) 范式则完全不同:调用多个模型,收集所有答案,然后用某种策略合并它们。这种方式成本更高,但能利用模型之间的互补性 (complementarity),减少单模型的幻觉 (hallucination) 和偏见 (bias)。

两种哲学:选一个 vs 综合多个选一个 (Routing)综合多个 (MoA)QueryRouterGPT-4 Claude Llama 1 个回答Routing 假设:存在一个"最佳模型"✓ 成本最低(只调用一个模型)✓ 延迟最低(单次推理)✗ 质量受限于 router 的准确性和单个模型的能力上限

选择追求效率,综合追求质量。实际系统往往在两者之间寻找平衡点:对简单请求用选择,对关键请求用综合。

Council Mode:并行生成,集中综合

Council Mode (2026) 是多模型协作的一种代表性架构。它的工作流程分为两个阶段:

  1. 并行生成阶段:多个 LLM(称为 council members)独立生成答案,彼此不知道其他成员的输出。
  2. 综合阶段:一个 synthesizer 模型收集所有答案,分析它们的共识 (consensus) 和分歧 (divergence),生成最终答案。

实验表明,Council Mode 可以将幻觉率 (hallucination rate) 降低 35.9%。当 council 成员之间答案高度一致时,synthesizer 有更高的置信度 (confidence);当答案分歧严重时,synthesizer 会标记不确定性 (uncertainty)。

Council Mode: 多 LLM 并行综合综合合并多数投票Best-of-NQueryGPT-4o质量: 92%Claude 3.5质量: 90%Gemini 1.5质量: 88%综合合并综合层综合回答质量: 96%综合合并Council Mode: 综合所有回答的优点,生成新的统一回答。35.9% 幻觉降低。成本: 3 个模型并行 = 3× 单模型成本 + 综合层成本延迟: max(3 个模型延迟) + 综合时间 ≈ 最慢模型 × 1.2MoA ≠ MoE: MoA 是多个完整 LLM 协作,MoE 是单个模型内部的专家路由

三种常见的综合策略 (synthesis strategy):

  • Merge:提取每个答案的核心信息,构造一个包含所有视角的综合答案。
  • Majority Vote:选择出现频率最高的答案,适合分类或选择题。
  • Best-of-N:让 synthesizer 评分,选出质量最高的单个答案。

层级 MoA:从平行到金字塔

简单的 Council Mode 是平行结构 (flat structure),所有模型地位平等。更复杂的系统使用层级结构 (hierarchical structure),构建决策树 (decision tree) 或金字塔 (pyramid)。

层级化多智能体系统(Hierarchical Multi-Agent System)的思路是在每个决策节点上运行一个 mini-council,每层的输出成为下一层的输入。这种结构可以处理需要多步推理的复杂任务。

Pyramid MoA 是 Together AI 提出的架构,层次逐渐收窄:

  • Layer 1:5 个通用模型生成初步答案。
  • Layer 2:3 个模型综合 Layer 1 的输出。
  • Layer 3:1 个最强模型生成最终答案。

这种设计利用了决策理论路由 (decision-theoretic routing):早期层快速过滤明显错误的答案,后期层专注于细节打磨 (refinement)。系统可以根据中间层的一致性决定是否提前终止 (early stopping),节省计算成本。

层级 MoA 架构HieraMAS 扁平Pyramid MoA 1LLM-ALLM-BLLM-CLLM-D 2Agg-1Agg-2 3Final AggregatorHieraMAS: 节点内 LLM 混合 + 节点间通信层级 MoA vs 扁平 MoA扁平 MoA: 所有模型同一层并行 → 综合。简单但质量收益有限。层级 MoA: 多层逐级精炼。每层综合后传给下一层进一步提升。Pyramid MoA 特色: 层级递减(5→3→1),router 决定何时已经"够好了"可以提前终止。

层级结构的优势在于灵活性:可以在不同层使用不同规模的模型(底层用快速模型,顶层用高质量模型),在成本和质量之间找到最优配置。

Ensemble 与投票

Ensemble Learning 的核心是多样性 (diversity):如果所有模型都犯同样的错误,投票也无济于事。理想的 ensemble 应包含:

  • 不同架构的模型(如 GPT-4、Claude、Gemini)。
  • 不同规模的模型(大模型擅长推理,小模型擅长速度)。
  • 不同训练数据的模型(减少共同偏见)。

三种常见的投票机制 (voting mechanism):

  1. Majority Voting:每个模型一票,票数最多的答案获胜。简单但忽略模型质量差异。
  2. Weighted Voting:根据模型的历史准确率 (historical accuracy) 分配权重 wiw_i,答案得分为 iwi1[modeli=answer]\sum_{i} w_i \cdot \mathbb{1}[\text{model}_i = \text{answer}]
  3. Best-of-N Selection:用一个评判模型 (judge model) 对所有答案打分,选择得分最高者。
Ensemble 投票方式多数投票加权投票Best-of-NGPT-4oAClaudeAGeminiB结果: A多数投票: 2票 A vs 1票 B → A 获胜

Ensemble 最有效的场景是模型优势发散 (divergent strengths):模型 A 擅长数学,模型 B 擅长创意写作,模型 C 擅长事实查询。通过 ensemble,系统可以在不同任务上自动利用各自的强项。

成本与收益递减

多模型协作的最大挑战是收益递减 (diminishing returns)。实验数据显示:

随着参与模型数量增加,质量提升的边际收益 (marginal benefit) 快速下降,而成本线性增长。一般来说,前几个模型带来的质量提升最为显著,之后每增加一个模型的边际贡献递减。对于大多数应用,2-3 个模型是性价比的甜蜜点 (sweet spot)。

模型数量 vs 成本与质量质量提升递减,成本线性增长 — 收益递减曲线模型数量 →质量 %成本 ×123456810← sweet spot关键洞察: 2-3 个模型是 sweet spot从 1→3: 质量 +6%,成本 3×。从 3→10: 质量仅 +2%,成本再 3.3×。收益递减严重。

另一个隐性成本是延迟 (latency)。并行调用多个模型时,总延迟取决于最慢的模型 (slowest model)。如果串行调用,延迟会累加。对于实时应用 (real-time application),这可能是致命的。

实际系统需要根据场景权衡:

  • 高价值任务 (high-value tasks):如医疗诊断、法律咨询,质量优先,可以接受 5-10 个模型的 ensemble。
  • 中等任务:如内容生成、代码审查,2-3 个模型的 Council Mode。
  • 低价值任务:如简单问答、格式转换,单模型路由即可。

总结

这篇文章完成了 Model Routing 学习路径的最后一站。我们从最简单的分类器路由出发,经历了级联路由混合策略在线学习,最终抵达多模型协作——从”选一个最好的”到”用多个一起干”。

多模型协作的核心优势是鲁棒性 (robustness) 和互补性 (complementarity),代价是成本和复杂度。随着模型能力的提升和成本的下降,这个领域正在从”奢侈品”变成”标准配置”。

未来的趋势是自适应编排 (adaptive orchestration):系统根据请求特征、历史表现、预算约束,动态决定是用单模型还是多模型,是并行还是串行,是平行还是层级。Model Routing 不再是静态的配置,而是实时的智能决策。

LLM 应用的下一个十年,不是关于”哪个模型最强”,而是关于”如何把所有模型的优势组合起来”。