#quantization
11 篇文章
高级
推理时量化:KV Cache 与 Activation 量化
#quantization
#kv-cache
#activation-quantization
#fp8
#inference-optimization
高级
llama.cpp 量化方案
#quantization
#llama-cpp
#gguf
#inference-optimization
高级
PTQ 权重量化:从 GPTQ 到 AWQ
#quantization
#ptq
#gptq
#awq
#smoothquant
高级
量化感知训练 (QAT)
#quantization
#qat
#straight-through-estimator
#bitnet
#lora
中级
量化基础
#quantization
#data-types
#mixed-precision
#inference-optimization
高级
量化编译与混合精度优化
#compiler
#quantization
#mixed-precision
#kernel-generation
#fusion
中级
优化对精度的影响
#benchmark
#quantization
#accuracy
#perplexity
#openvino
#lm-eval-harness
#llama-cpp
高级
工具全景与 GGUF 二进制解析
#llama-cpp
#gguf
#quantization
#binary-format
中级
Intel 模型优化栈:Optimum Intel / NNCF / OpenVINO 三件套选型
#intel
#optimum
#nncf
#openvino
#quantization
#model-conversion
中级
量化与模型转换工具链全景
#quantization
#model-conversion
#toolchain
#optimum
#nncf
#openvino
#gguf
#onnx
中级
动手:HF → GGUF / ONNX / OpenVINO 三条路径端到端
#quantization
#model-conversion
#hands-on
#llama-cpp
#onnx
#openvino
#intel-igpu