llama.cpp 源码精读
逐函数追踪 llama.cpp 的 C/C++ 执行流程。本路径是「Ollama + llama.cpp 深度解析」的源码级延伸——前者讲概念和架构设计,本系列讲 C++ 实现细节。适合想阅读、修改或贡献 llama.cpp 的开发者。
- 1
llama.cpp 执行流程总览
高级#llama-cpp#inference-engine#architecture#source-code - 2
工具全景与 GGUF 二进制解析
高级#llama-cpp#gguf#quantization#binary-format - 3
模型加载:从文件到设备
高级#llama-cpp#model-loading#mmap#gpu-offload#backend - 4
Warmup、Tokenization 与 Chat Template
高级#llama-cpp#warmup#tokenization#chat-template#jinja2#multimodal - 5
Batch、Ubatch 与解码主循环
高级#llama-cpp#batch#ubatch#decoding#parallel-sequences#kv-cache - 6
计算图构建与架构分发
高级#llama-cpp#compute-graph#architecture#ggml#graph-reuse - 7
Backend 调度、Op Fusion 与内存分配
高级#llama-cpp#backend-scheduling#op-fusion#memory-allocation#pipeline-parallelism - 8
执行、采样与上下文管理
高级#llama-cpp#execution#sampling#speculative-decoding#kv-cache#context-management