本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

llama.cpp 源码精读

逐函数追踪 llama.cpp 的 C/C++ 执行流程。本路径是「Ollama + llama.cpp 深度解析」的源码级延伸——前者讲概念和架构设计,本系列讲 C++ 实现细节。适合想阅读、修改或贡献 llama.cpp 的开发者。

  1. 1

    llama.cpp 执行流程总览

    高级
    #llama-cpp#inference-engine#architecture#source-code
  2. 2

    工具全景与 GGUF 二进制解析

    高级
    #llama-cpp#gguf#quantization#binary-format
  3. 3

    模型加载:从文件到设备

    高级
    #llama-cpp#model-loading#mmap#gpu-offload#backend
  4. 4

    Warmup、Tokenization 与 Chat Template

    高级
    #llama-cpp#warmup#tokenization#chat-template#jinja2#multimodal
  5. 5

    Batch、Ubatch 与解码主循环

    高级
    #llama-cpp#batch#ubatch#decoding#parallel-sequences#kv-cache
  6. 6

    计算图构建与架构分发

    高级
    #llama-cpp#compute-graph#architecture#ggml#graph-reuse
  7. 7

    Backend 调度、Op Fusion 与内存分配

    高级
    #llama-cpp#backend-scheduling#op-fusion#memory-allocation#pipeline-parallelism
  8. 8

    执行、采样与上下文管理

    高级
    #llama-cpp#execution#sampling#speculative-decoding#kv-cache#context-management