本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

LLM 量化技术

从数据类型基础到前沿量化算法,系统掌握 LLM 权重量化、KV Cache 量化和推理时量化的理论与实践

  1. 1

    量化基础

    中级
    #quantization#data-types#mixed-precision#inference-optimization
  2. 2

    PTQ 权重量化:从 GPTQ 到 AWQ

    高级
    #quantization#ptq#gptq#awq#smoothquant
  3. 3

    量化感知训练 (QAT)

    高级
    #quantization#qat#straight-through-estimator#bitnet#lora
  4. 4

    推理时量化:KV Cache 与 Activation 量化

    高级
    #quantization#kv-cache#activation-quantization#fp8#inference-optimization
  5. 5

    llama.cpp 量化方案

    高级
    #quantization#llama-cpp#gguf#inference-optimization
  6. 6

    量化与模型转换工具链全景

    中级
    #quantization#model-conversion#toolchain#optimum#nncf#openvino#gguf#onnx
  7. 7

    动手:HF → GGUF / ONNX / OpenVINO 三条路径端到端

    中级
    #quantization#model-conversion#hands-on#llama-cpp#onnx#openvino#intel-igpu