本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

Ollama + llama.cpp 深度解析

深入 Ollama 和 llama.cpp 的内部实现、架构设计和优化原理。从双层架构到量化引擎,从计算图到多后端调度,系统掌握本地推理技术栈。

  1. 1

    Ollama + llama.cpp 架构总览

    中级
    #ollama#llama-cpp#architecture#inference
  2. 2

    一次推理的完整旅程

    中级
    #ollama#llama-cpp#inference#pipeline
  3. 3

    GGUF 模型格式

    中级
    #gguf#llama-cpp#model-format#serialization
  4. 4

    llama.cpp 量化方案

    高级
    #quantization#llama-cpp#gguf#inference-optimization
  5. 5

    计算图与推理引擎

    高级
    #ggml#compute-graph#inference-engine#operator-fusion
  6. 6

    KV Cache 与 Batch 调度

    高级
    #kv-cache#batch-scheduling#continuous-batching#prefix-cache
  7. 7

    硬件后端

    高级
    #ggml#cuda#metal#vulkan#hardware-backend
  8. 8

    服务层与调度

    高级
    #ollama#scheduler#runner#model-management
  9. 9

    模型生态

    中级
    #ollama#registry#modelfile#lora#multimodal