LLM 推理引擎全景：vLLM、SGLang、Ollama 与 TensorRT-LLM

为什么需要推理引擎

直接用 transformers.generate() 跑 LLM 推理有三个致命瓶颈：

推理引擎的核心任务就是解决这三个问题：高效管理内存、智能调度请求、最大化 GPU 利用率。

当前主流的四大 LLM 推理引擎各有侧重：

vLLM (UC Berkeley, 2023)：以 PagedAttention 起家，核心目标是最大化 serving 吞吐量。借鉴操作系统虚拟内存的思想管理 KV Cache，消除内存碎片。生态最成熟，社区最大，OpenAI 兼容 API 使其成为云端部署的默认选择。

SGLang (LMSYS, 2023)：强调可编程性与高性能的结合。RadixAttention 提供比 vLLM 更灵活的前缀缓存，独创的 DSL 编程模型支持复杂的多步推理流水线，Compressed FSM 实现最快的结构化输出。适合需要精确格式控制的复杂 LLM 应用。

Ollama + llama.cpp：本地优先、易用优先。一行命令安装运行，GGUF 量化格式支持 CPU 和消费级 GPU。牺牲极致吞吐换取开箱即用的体验，是个人开发者和本地实验的首选。

TensorRT-LLM (NVIDIA)：NVIDIA 硬件生态的深度绑定。FP8 量化、inflight batching、custom kernels，在 H100/B200 上榨取最后一滴性能。代价是灵活性低、学习曲线陡、仅支持 NVIDIA GPU。

这四个引擎的设计哲学可以用一个三角形来理解：吞吐量、可编程性、易用性——任何引擎都无法同时在三个维度上做到极致。

三种引擎的请求处理流程反映了它们各自的设计优先级：

云端 Serving (vLLM)

vLLM 的流程以 Scheduler 为核心，所有优化都围绕”同一时刻塞进更多请求”展开。Ollama 的流程最短最直接，单请求模型适合交互式使用。SGLang 的流程多了 IR 编排和约束解码两个环节——它不仅在优化推理速度，还在优化”程序员怎么使用 LLM”。

这些引擎的性能差异来自底层的关键技术创新。我们先建立全局认知，后续文章会逐个深入：

Static vs Continuous Batching 是理解所有引擎的基础——静态批处理必须等最慢的请求完成，GPU 大量空闲；continuous batching 则逐请求释放、逐请求填入：

从 2022 年 Orca 开创 continuous batching 到今天，推理引擎领域经历了爆发式创新。各引擎从独立创新走向互相吸收——vLLM 加入了前缀缓存，SGLang 优化了批处理调度，TensorRT-LLM 也支持了 PagedAttention。

不知道该选哪个？回答几个简单问题：

当然，这只是粗略指南。实际选型还需要考虑：模型大小、请求模式（长/短上下文）、SLA 要求、团队技术栈、硬件预算等因素。最稳妥的策略是先用 vLLM（生态最成熟），遇到瓶颈再评估 SGLang（结构化输出）或 TensorRT-LLM（极致性能）。

推理引擎是 LLM 从”能跑”到”能用”的关键基础设施。理解它们的设计哲学和核心技术，是做好 LLM 工程的必备知识。接下来我们将深入每个关键技术：从 PagedAttention 的内存管理开始，逐步理解现代推理引擎的完整技术栈。