#llama-cpp
14 篇文章
中级
GGUF 模型格式
#gguf
#llama-cpp
#model-format
#serialization
高级
llama.cpp 量化方案
#quantization
#llama-cpp
#gguf
#inference-optimization
中级
Ollama + llama.cpp 架构总览
#ollama
#llama-cpp
#architecture
#inference
中级
一次推理的完整旅程
#ollama
#llama-cpp
#inference
#pipeline
中级
优化对精度的影响
#benchmark
#quantization
#accuracy
#perplexity
#openvino
#lm-eval-harness
#llama-cpp
高级
Batch、Ubatch 与解码主循环
#llama-cpp
#batch
#ubatch
#decoding
#parallel-sequences
#kv-cache
高级
计算图构建与架构分发
#llama-cpp
#compute-graph
#architecture
#ggml
#graph-reuse
高级
执行、采样与上下文管理
#llama-cpp
#execution
#sampling
#speculative-decoding
#kv-cache
#context-management
高级
模型加载:从文件到设备
#llama-cpp
#model-loading
#mmap
#gpu-offload
#backend
高级
llama.cpp 执行流程总览
#llama-cpp
#inference-engine
#architecture
#source-code
高级
Backend 调度、Op Fusion 与内存分配
#llama-cpp
#backend-scheduling
#op-fusion
#memory-allocation
#pipeline-parallelism
高级
Warmup、Tokenization 与 Chat Template
#llama-cpp
#warmup
#tokenization
#chat-template
#jinja2
#multimodal
高级
工具全景与 GGUF 二进制解析
#llama-cpp
#gguf
#quantization
#binary-format
中级
动手:HF → GGUF / ONNX / OpenVINO 三条路径端到端
#quantization
#model-conversion
#hands-on
#llama-cpp
#onnx
#openvino
#intel-igpu