Ollama + llama.cpp 深度解析
深入 Ollama 和 llama.cpp 的内部实现、架构设计和优化原理。从双层架构到量化引擎,从计算图到多后端调度,系统掌握本地推理技术栈。
- 1
Ollama + llama.cpp 架构总览
中级#ollama#llama-cpp#architecture#inference - 2
一次推理的完整旅程
中级#ollama#llama-cpp#inference#pipeline - 3
GGUF 模型格式
中级#gguf#llama-cpp#model-format#serialization - 4
llama.cpp 量化方案
高级#quantization#llama-cpp#gguf#inference-optimization - 5
计算图与推理引擎
高级#ggml#compute-graph#inference-engine#operator-fusion - 6
KV Cache 与 Batch 调度
高级#kv-cache#batch-scheduling#continuous-batching#prefix-cache - 7
硬件后端
高级#ggml#cuda#metal#vulkan#hardware-backend - 8
服务层与调度
高级#ollama#scheduler#runner#model-management - 9
模型生态
中级#ollama#registry#modelfile#lora#multimodal