本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

LLM 评估与 Benchmark 深度解析

系统化理解 LLM 评估体系:从 benchmark 设计原理到具体 benchmark 深入剖析, 从量化优化的精度评估方法到模型选型决策。覆盖知识推理、代码、Agent 与 Tool Use 等维度,重点关注 OpenVINO 工具链和小模型评估。

  1. 1

    Benchmark 全景与评估方法论

    中级
    #benchmark#evaluation#methodology#llm-as-judge#contamination
  2. 2

    知识与推理 Benchmark

    中级
    #benchmark#reasoning#mmlu#gpqa#math
  3. 3

    代码 Benchmark

    中级
    #benchmark#code#humaneval#swe-bench#pass-at-k
  4. 4

    Agent 与 Tool Use Benchmark

    中级
    #benchmark#agent#function-calling#tool-use#bfcl#gaia
  5. 5

    模型发布 Benchmark 标配解析

    中级
    #benchmark#model-release#standard-set#small-models#gemma#phi#qwen
  6. 6

    优化对精度的影响

    中级
    #benchmark#quantization#accuracy#perplexity#openvino#lm-eval-harness#llama-cpp
  7. 7

    排行榜解读与模型选型

    中级
    #benchmark#leaderboard#model-selection#chatbot-arena#deployment
  8. 8

    lm-eval-harness 实操指南

    高级
    #benchmark#lm-eval#evaluation#harness#task-yaml
  9. 9

    SWE-bench 实操指南

    高级
    #benchmark#swe-bench#code-evaluation#agent#docker
  10. 10

    BFCL 实操指南

    高级
    #benchmark#bfcl#function-calling#tool-use#evaluation